Наработка на отказ
Наработка на отказ — технический параметр, характеризующий надёжность восстанавливаемого прибора, устройства или технической системы.
Средняя продолжительность работы устройства между ремонтами, то есть показывает, какая наработка в среднем приходится на один отказ. Выражается обычно в часах.
Для программных продуктов обычно подразумевается срок до полного перезапуска программы или полной перезагрузки операционной системы.
Наработка до отказа — эквивалентный параметр для неремонтопригодного устройства. Поскольку устройство неремонтируемое, то это просто среднее время, которое проработает устройство до того момента, как сломается.
Наработка — продолжительность или объем работы объекта, измеряемая в часах, мото-часах, гектарах, километрах пробега, циклов включений и др.
Измеряется статистически, путём испытания множества приборов, или вычисляется методами теории надёжности.
где ti — наработка i-го объекта между отказами; m — число отказов.
Определение по ГОСТ
ГОСТ 27.002-89 определяет данные параметры следующим образом:
- Наработка на отказ (или средняя наработка на отказ) англ.Mean operating time between failures — отношение суммарной наработки восстанавливаемого объекта к математическому ожиданию числа его отказов в течение этой наработки.
- Наработка до отказаангл.Operating time to failure — Наработка объекта от начала эксплуатации до возникновения первого отказа.
Зарубежная терминология
В английской литературе MTBF (англ. Mean time between failures ), среднее время между отказами, наработка на отказ) — среднее время между возникновениями отказов. [1] ; термин обычно касается работы оборудования. Единица размерности — час.
Системы, связанные с обеспечением безопасности, можно условно подразделить на две категории:
- работающие в режиме низкой частоты запросов
- и в режиме высокой частоты запросов (непрерывно).
IEC 61508 (англ.) русск. количественно определяет эту классификацию, устанавливая, что частота запросов на работу системы обеспечения безопасности не превышает одного раза в год в режиме низкой частоты запросов, и более раза в год в режиме высокой частоты запросов (непрерывной работы).
Значение SIL (англ.) русск. для систем обеспечения безопасности с низкой частотой запросов непосредственно зависит от диапазонов порядков средней вероятности того, что она не сможет удовлетворительно выполнить свои функции по обеспечению безопасности по запросу, или, проще говоря, от вероятности отказа при запросе (PFD). Значение SIL для систем обеспечения безопасности, работающих в режиме высокой частоты запросов (непрерывно) непосредственно зависит от вероятности возникновения опасного отказа в час (PFH).
PFD (Probability of Failure on Demand, Вероятность отказа при запросе) — средняя вероятность того, что система не выполнит свою функцию по запросу. PFH (Probability of Failure per Hour, Вероятность возникновения отказа за час) — вероятность возникновения в системе опасного отказа в течение часа. MTTR (Mean Time to Restoration, Среднее время до восстановления работоспособности) — среднее время, необходимое для восстановления нормальной работы после возникновения отказа. DC (Diagnostic Coverage, Диагностическое покрытие) — отношение количества обнаруженных отказов к общему числу отказов.
В свою очередь, λ = частота отказов = 1/ MTBF
Среднее время безотказной работы системы

Среднее время безотказной работы (средняя наработка на отказ) — для невосстанавливаемых (неремонтируемых) систем — это математическое ожидание времени работы системы до отказа:
— есть плотность вероятности возникновения отказов системы или её невосстанавливаемого элемента.
— есть вероятность безотказной работы в интервале времени
. В начальный момент вероятность Р(T) равна единице. В конце времени работы системы вероятность
равна нулю. Вероятность
связана с плотностью вероятности возникновения отказов системы или её невосстанавливаемого элемента следующим образом:

Проинтегрировав выражение для по частям, получим:

Графически полученное выражение для представлено на рисунке как площадь под графиком вероятности безотказной работы Р(T) от времени T. В начальный момент вероятность Р(T) равна единице. В конце времени работы системы вероятность P(T) равна нулю.

Здесь — случайное время работы системы до отказа или наработка на отказ для невосстанавливаемого элемента или системы.
Примечания
- ↑ Использование ControlLogix в приложениях SIL2. Справочное руководство по обеспечению безопасности Rockwell Automation. Публикация 1756-RM001C-EN-P- Апрель 2004
Что такое MTBF (Средняя наработка на отказ).
В английской литературе MTBF (Mean time between failures — среднее время между отказами) — среднее время между возникновениями отказов. Термин обычно касается работы оборудования. Единица размерности — час.
Системы, связанные с обеспечением безопасности, можно условно подразделить на две категории:
работающие в режиме низкой частоты запросов
и в режиме высокой частоты запросов (непрерывно).
IEC 61508 количественно определяет эту классификацию, устанавливая, что частота запросов на работу системы обеспечения безопасности не превышает одного раза в год в режиме низкой частоты запросов, и более раза в год в режиме высокой частоты запросов (непрерывной работы).
Значение SIL для систем обеспечения безопасности с низкой частотой запросов непосредственно зависит от диапазонов порядков средней вероятности того, что она не сможет удовлетворительно выполнить свои функции по обеспечению безопасности по запросу, или, проще говоря, от вероятности отказа при запросе (PFD). Значение SIL для систем обеспечения безопасности, работающих в режиме высокой частоты запросов (непрерывно) непосредственно зависит от вероятности возникновения опасного отказа в час (PFH).
PFD (Probability of Failure on Demand, Вероятность отказа при запросе) — средняя вероятность того, что система не выполнит свою функцию по запросу.
PFH (Probability of Failure per Hour, Вероятность возникновения отказа за час) — вероятность возникновения в системе опасного отказа в течение часа.
MTTR (Mean Time to Restoration, Среднее время до восстановления работоспособности) — среднее время, необходимое для восстановления нормальной работы после возникновения отказа.
DC (Diagnostic Coverage, Диагностическое покрытие) — отношение количества обнаруженных отказов к общему числу отказов. В свою очередь, λ = частота отказов = 1/MTBF (для экспоненциального распределения отказов).
Примеры расчетов
- Для одного устройства:
- Техническая характеристика MTTF устройства 1 000 000 часов
- Расчётная вероятность отказа устройства для времени 1 000 000 часов (~114 лет) равна: 50,000 %
- Расчётная вероятность отказа устройства для времени 100 000 часов (~11 лет) равна: 6,697 %
- Расчётная вероятность отказа устройства для времени 87660 часов (10 лет) равна: 5,895 %
- Расчётная вероятность отказа устройства для времени 43830 часов (5 лет) равна: 2,992 %
- Расчётная вероятность отказа устройства для времени 8766 часов (1 год) равна: 0,606 %
- Техническая характеристика MTTF устройства 1 000 000 часов
- Расчётная вероятность отказа хотя бы одного из двух устройств для времени 1 000 000 часов (114 лет) равна: 75,000 %
- Расчётная вероятность отказа хотя бы одного из двух устройств для времени 100 000 часов (~11 лет) равна: 12,945 %
- Расчётная вероятность отказа хотя бы одного из двух устройств для времени 87660 часов (10 лет) равна: 11,443 %
- Расчётная вероятность отказа хотя бы одного из двух устройств для времени 43830 часов (5 лет) равна: 5,895 %
- Расчётная вероятность отказа хотя бы одного из двух устройств для времени 8766 часов (1 год) равна: 1,208 %
- Техническая характеристика MTTF устройства 1 000 000 часов
- Расчётная вероятность отказа сразу 2 устройств для времени 1 000 000 часов (114 лет) равна: 25,000 %
- Расчётная вероятность отказа сразу 2 устройств для времени 100 000 часов равна: 0,448 %
- Расчётная вероятность отказа сразу 2 устройств для времени 87660 часов (~11 лет) (10 лет) равна: 0,348 %
- Расчётная вероятность отказа сразу 2 устройств для времени 43830 часов (5 лет) равна: 0,09 %
- Расчётная вероятность отказа сразу 2 устройств для времени 8766 часов (1 год) менее 0,0003 %
- Техническая характеристика MTTF устройства 1 000 000 часов
- Расчётная вероятность отказа хотя бы одного из 10 устройств для времени 1 000 000 часов (114 лет) равна: 99,902 %
- Расчётная вероятность отказа хотя бы одного из 10 устройств для времени 100 000 часов (~11 лет) равна: 50%
- Расчётная вероятность отказа хотя бы одного из 10 устройств для времени 87660 часов (10 лет) равна: 45,535 %
- Расчётная вероятность отказа хотя бы одного из 10 устройств для времени 43830 часов (5 лет) равна: 26,2 %
- Расчётная вероятность отказа хотя бы одного из 10 устройств для времени 8766 часов (1 год) равна: 5,895 %
- Техническая характеристика MTTF устройства 1 000 000 часов
- Расчётная вероятность отказа хотя бы одного из 100 устройств для времени 1 000 000 часов (114 лет) близка к 100 %
- Расчётная вероятность отказа хотя бы одного из 100 устройств для времени 100 000 часов (~11 лет) равна: 99,902 %
- Расчётная вероятность отказа хотя бы одного из 100 устройств для времени 87660 часов (10 лет) равна: 99,77 %
- Расчётная вероятность отказа хотя бы одного из 100 устройств для времени 43830 часов (5 лет) равна: 95,207 %
- Расчётная вероятность отказа хотя бы одного из 100 устройств для времени 8766 часов (1 год) равна: 45,535 %
Вопросы и ответы
Средняя наработка на отказ ( англ. Mean time between failures, MTBF) — вероятностная величина времени , характеризующ ая н адёжность восстанавливаемого прибора, устройства или технической системы.
При вычислени и параметра MTBF завод-изготовител ь провод и т испыт ания на надежность сво ей продукци и в пр е делах гарантийного срока и при нормально-климатических условиях ( НКУ, +25 ° С) .
По результатам испытани й вычисляется параметр «интенсивность отказов λ ( t )» — это число отказов n(t) элементов продукта в единицу времени, отнесенное к среднему числу элементов Nt продукта, работоспособных к моменту времени t:

Затем, зная интенсивность отказов, можно вычислить MTBF:

γ ( t ) — в ероятность, что продукт будет работать в течение некоторого времени t без отказа.
В свою очередь, гамма-процентная наработка до отказа Тγ определяется как наработка, в течение которой отказ прибора не возникает с вероятностью γ, выраженной в процентах.
Параметры надежности прогнозируют в соответствии с ГОСТ Р 27.301 п.6.7. и рассчитывают в соответствии с ГОСТ Р 27.004. Контроль соответствия требованиям надежности производится квалификационными и периодическими испытаниями.
Значение гамма-процентной наработки до отказа Тγ можно вычислить:


Тогда можно через λ выразить формулу отношения MTBF и Тγ :

Теперь путем подстановки значений Тγ и γ можно рассчитать значения MTBF для модулей электропитания серий МДМ:
MTBF ≈ 3 млн. ч при Тγ = 75000 ч ( γ =97,5%);
MTBF ≈ 2 млн. ч при Тγ = 50000 ч ( γ =97,5%);
MTBF ≈ 0,6 млн. ч при Тγ = 15000 ч ( γ =97,5%)
Согласно п.4.5. технических условий на модули серий МДМ:
Значение гамма — процентной наработки на отказ при γ=97,5%, в облегченном режиме работы Тγ = 75000 ч, в типовом режиме работы Тγ = 50000 ч, в предельно-допустимом режиме Тγ = 15000 ч.
Облегченный режим работы: Uвх.=Uном., Pвых.=0,5*Pмакс., Tкорп≤0,5*Ткорп.макс;
Типовой режим работы: Uвх.=Uном., Pвых.=0,7*Pмакс., Tкорп≤0,7*Ткорп.макс;
Предельно-допустимый режим работы: Pвых.=Pмакс., Tкорп≤Ткорп.макс.
Важно! При сравнении двух значений MTBF для разных производителей учитывать при каких климатических условиях проводились испытания, т.к. значение этого параметра для модулей серий МДМ в облегченных и предельно-допустимых температурных режимах отличается в 5 раз. Следует иметь ввиду, что зарубежные производители обычно приводят данное значение испытанное только при НКУ.
Также важно учитывать и гарантийный срок. Согласно формулам (1) и (2), значение MTBF обратно пропорционально гарантийному сроку (сроку в течении которого проводят испытания). Т аким образом , чем ниже гарантийный срок, тем больше значение MTBF при одинаковой надежности изделий.
Д ля модулей серий МДМ — гарантийный срок 20 лет и, согласно гамма — процентной наработки на отказ ( 75 000 ч асов в облегченных режимах ) , модуль проработает без остановки более 8,5 лет. В данном случае, как мы уже подсчитали MTBF составит около 3 млн. ч асов . Но гарантия на издели я зарубежного производства обычно равна 3 года, ч то гарантирует только работу в течении 3-х лет с вероятностн ой величин ой MTBF.
Для простоты понимания допустим, что функция зависимости вероятности выхода из строя относительно гарантийного срока зависит по экспоненциальному закону распределения.
Таким образом, д ля наглядности в таблице приведен о сравнени е показателей надежности по системе MTBF и по ГОСТ Р 27.004 с учетом, гаранти йного срока 20 лет и гарантии 3 года, соответственно .
Кроме того, согласно ГОСТ 20.39.309 п.10. для изделий ВВСТ допускается ориентироваться только на методики и показатели надежности российских ГОСТ.
Таблица. Перевод величины Тγ в MTBF.
MTBF — откуда берется «миллион часов MTBF»

Просто удивительно то, насколько велико непонимание вокруг такого широко распространенного понятия, как MTBF (Mean Time Between Failure — «Время между сбоями» или «наработка на отказ» ), насколько смысла этой величины не понимают, зачастую, даже специалисты в области хранения данных.
Казалось бы — что может быть проще. «Наработка на отказ» это время беспроблемной работы, от первого включения нового диска, до момента отказа, посчитанная в часах.
Почти любой, кто поинтересуется значением, приводимым производителями, в качестве MTBF современных дисков, и с легкостью сделает несложные подсчеты, будет удивлен странной его величиной.
На сегодня величина MTBF приводится в миллион или даже полтора миллиона часов.
В году — примерно 8760 часов, значит, исходя из нашего понимания «физического смысла» этого значения, производитель планирует «наработку на отказ» для любого такого диска более ста лет (114 лет, для миллиона часов MTBF), что является очевидной нелепостью для каждого, у кого подыхали жесткие диски.Тогда что это за «миллион часов», где и каким образом он измерен?
Конечно же производитель не гоняет диск 114 лет, оценка производится искусственно, но откуда вообще взялась величина в «миллион часов»?Дело в том, что MTBF измеряется для всей эксплуатируемой «дисковой популяции», и распространяется на период объявленного гарантийного срока для данного типа дисков. Оба выделенных момента являются важными, и часто опускаются в описании, что и приводит к принципиальному непониманию.
Представим себе, что мы поставили в сервер жесткий диск, который проработал 3 года гарантийного срока, и, будучи исправным, был заменен на новый. Следующий проработал три года, и был заменен по истечении гарантийного срока, и так далее. И вот на 38-м диске вы вправе ожидать, что до конца гарантийного срока он не доработает.
Или же представим себе чуть более приближенную к реальности ситуацию.
Допустим, для простоты подсчета, у нас есть система хранения на 115 дисков. Для каждого диска производитель приводит MTBF равный миллиону часов. Но надо принять во внимание то, что в большой дисковой популяции общий MTBF, то есть вероятность отказа, растет, с увеличением количества используемых дисков.
Для 115 дисков, исходя из приводимой вендором величины MTBF, мы вправе ожидать, что хотя бы один диск из популяции в 115 выйдет из строя до конца трехлетнего гарантийного срока.
Этот вариант уже куда более похож на правду.Строго говоря, на практике, вместо MTBF гораздо практичнее пользоваться параметром AFR — Annual Failure Rate, или «ежегодная вероятность сбоев», выводимом из MTBF.
Он вычисляется как: AFR = 1-exp(-8760/MTBF)
Величина AFR для диска с миллионом часов MTBF составляет 0,87%, что, в принципе, хоть и чуть завышено (Google в известном исследовании 2007 года показывает для новых дисков в пределах гарантийного срока как раз AFR в районе 1%), но, все же уже довольно хорошо согласуется с практикой.Любопытно, что, например, такой производитель жестких дисков как WD теперь вовсе перестал указывать величину MTBF, перейдя на указание другого параметра: «power on/off cycles», по видимому не в последнюю очередь именно в связи с явно видимым непониманием и неочевидностью применения указываемой величины MTBF пользователями.
- Компьютерное железо
- Накопители