Анализ состояния дисков серверов BareMetal
Если в процессе работы с сервером BareMetal вы столкнулись с ошибками чтения/записи данных на диски, отказом диска или RAID
Анализ информации о дисковых ошибках основывается на технологии самодиагностики дисков SMARTHW Watcher можно только на серверах под управлением ОС Linux
Информация о состоянии дисков сервера сохраняется в директории drive отчета, причем отчет по каждому из дисков сервера сохраняется в отдельном файле. Отчет о значении SMART-атрибутов диска представляет собой таблицу:
ID# ATTRIBUTE_NAME FLAGS VALUE WORST THRESH FAIL RAW_VALUE
1 Raw_Read_Error_Rate POSR-- 083 063 044 - 203094696
3 Spin_Up_Time PO---- 093 093 000 - 0
4 Start_Stop_Count -O--CK 100 100 020 - 224
5 Reallocated_Sector_Ct PO--CK 100 100 036 - 0
7 Seek_Error_Rate POSR-- 084 060 030 - 293695131
9 Power_On_Hours -O--CK 074 011 000 - 23513
10 Spin_Retry_Count PO--C- 100 100 097 - 0
12 Power_Cycle_Count -O--CK 100 100 020 - 225
184 End-to-End_Error -O--CK 100 100 099 - 0
187 Reported_Uncorrect -O--CK 100 100 000 - 0
188 Command_Timeout -O--CK 100 099 000 - 65537
189 High_Fly_Writes -O-RCK 093 093 000 - 7
190 Airflow_Temperature_Cel -O---K 068 051 045 - 32 (Min/Max 31/32)
191 G-Sense_Error_Rate -O--CK 100 100 000 - 0
192 Power-Off_Retract_Count -O--CK 100 100 000 - 187
193 Load_Cycle_Count -O--CK 100 100 000 - 1816
194 Temperature_Celsius -O---K 032 049 000 - 32 (0 18 0 0 0)
195 Hardware_ECC_Recovered -O-RC- 023 003 000 - 203094696
197 Current_Pending_Sector -O--C- 100 100 000 - 0
198 Offline_Uncorrectable ----C- 100 100 000 - 0
199 UDMA_CRC_Error_Count -OSRCK 200 200 000 - 0
Где:
-
ID#— идентификатор атрибута. -
ATTRIBUTE_NAME— название атрибута:Raw_Read_Error_Rate— частота возникновения вызванных аппаратной частью диска ошибок при чтении данных.Spin_Up_Time— время раскрутки дисков из состояния покоя до рабочей скорости. Увеличивается по мере износа механической части диска, а также может говорить о проблемах с электропитанием диска.Start_Stop_Count— общее количество циклов запуска/остановки диска.Reallocated_Sector_Ct— общее количество секторов с ошибками чтения/записи, переназначенных в резервную область.Seek_Error_Rate— частота возникновения ошибок при позиционировании блока магнитных головок. Чем их больше, тем хуже состояние диска. На значение параметра могут влиять перегрев и внешние вибрации.Power_On_Hours— общее количество часов, которые диск провел во включенном состоянии.Spin_Retry_Count— общее количество повторных попыток раскрутки диска до рабочей скорости в случаях, когда предыдущая попытка оказалась неудачной. Увеличивающееся значение атрибута свидетельствует о высокой вероятности проблем с механической частью диска.Power_Cycle_Count— общее количество полных циклов включения/выключения диска.End-to-End_Error— общее количество ошибок, возникающих в случае несоответствия между хостом и диском четности данных, передаваемых через кэш-память.Reported_Uncorrect— общее количество ошибок, которые не удалось исправить с помощью аппаратной части диска.Command_Timeout— общее количество операций, прерванных в связи с таймаутом диска.High_Fly_Writes— общее количество зафиксированных случаев записи данных при высоте головки над поверхностью диска выше рассчитанной.Airflow_Temperature_Cel— температура воздуха внутри корпуса диска.G-Sense_Error_Rate— общее количество ошибок, возникших в результате ударных нагрузок на диск.Power-Off_Retract_Count— общее количество циклов аварийных выключений или отказов питания диска.Load_Cycle_Count— общее количество циклов перемещения блока магнитных головок в область парковки.Temperature_Celsius— температура диска.Hardware_ECC_Recovered— общее количество случаев коррекции ошибок ECC , выполненных контроллером диска.Current_Pending_Sector— общее количество так называемых подозрительных секторов, которые еще не были определены как плохие, но считывание с которых отличается от считывания со стабильного сектора. В случае успешного последующего чтения из сектора он исключается из числа подозрительных. В случае повторных случаев чтения с ошибкой диск пытается восстановить его и выполняет операцию переназначения.Offline_Uncorrectable— общее количество подозрительных (Current_Pending_Sector) секторов, которые диску не удалось восстановить.UDMA_CRC_Error_Count— общее количество ошибок, возникших при передаче данных по внешнему интерфейсу в режиме UltraDMA. Например: ошибки нарушения целостности пакетов.
-
FLAGS— флаги атрибутов, задаваемые производителем диска, характеризующие тип атрибута:P(prefailure warning) — при достижении порогового значения таких атрибутов диск требует замены.O(updated online) — такие атрибуты обновляют значения при выполнении встроенных тестов SMART онлайн и офлайн.S(speed/performance) — такие атрибуты характеризуют производительность диска.R(error rate) — такие атрибуты отражают значения счетчиков ошибок диска.C(event count) — такие атрибуты отражают значения счетчиков событий.K(auto-keep) — самосохраняющиеся атрибуты.
-
VALUE— текущее значение атрибута. -
WORST— наихудшее значение атрибута за все время работы диска. -
THRESH— минимальное пороговое значение атрибута, при достижении которого состояние диска считается критическим, и он может выйти из строя. -
FAIL— состояние, сигнализирующее о выходе атрибута за пороговое значениеTHRESH. -
RAW_VALUE— абсолютное значение атрибута.
Если для любого из атрибутов таблицы с флагом P (prefailure warning) в поле FAIL указано значение FAILING_NOW, значит, ресурс диска исчерпан и диск нуждается в замене.
ID# ATTRIBUTE_NAME FLAGS VALUE WORST THRESH FAIL RAW_VALUE
5 Reallocated_Sector_Ct PO--CK 100 100 010 - 0
9 Power_On_Hours -O--CK 086 086 000 - 67710
12 Power_Cycle_Count -O--CK 099 099 000 - 108
177 Wear_Leveling_Count PO--C- 062 062 005 - 1182
179 Used_Rsvd_Blk_Cnt_Tot PO--C- 100 100 010 - 0
180 Unused_Rsvd_Blk_Cnt_Tot PO--C- 100 100 010 - 17618
181 Program_Fail_Cnt_Total -O--CK 100 100 000 - 0
182 Erase_Fail_Count_Total -O--CK 100 100 000 - 0
183 Runtime_Bad_Block PO--C- 100 100 010 - 0
184 End-to-End_Error PO--CK 100 100 097 - 0
187 Reported_Uncorrect -O--CK 100 100 000 - 0
190 Airflow_Temperature_Cel -O--CK 073 049 000 - 27
195 Hardware_ECC_Recovered -O-RC- 200 200 000 - 0
199 UDMA_CRC_Error_Count -OSRCK 100 100 000 - 0
202 Unknown_SSD_Attribute PO--CK 100 100 010 - 0
235 Unknown_Attribute -O--C- 099 099 000 - 68
241 Total_LBAs_Written -O--CK 099 099 000 - 2179262941271
Где:
-
ID#— идентификатор атрибута. -
ATTRIBUTE_NAME— название атрибута:Reallocated_Sector_Ct— общее количество блоков с ошибками чтения/записи, переназначенных в резервную область.Power_On_Hours— общее количество часов, которые диск провел во включенном состоянии.Power_Cycle_Count— общее количество полных циклов включения/выключения диска.Wear_Leveling_Count— максимальное количество операций стирания, выполненных над одним блоком флэш-памяти.Used_Rsvd_Blk_Cnt_Tot— общее количество использованных блоков флэш-памяти в резервной области.Unused_Rsvd_Blk_Cnt_Tot— общее количество доступных блоков флэш-памяти в резервной области.Program_Fail_Cnt_Total— общее количество сбоев при попытке записать данные в блок флэш-памяти.Erase_Fail_Count_Total— общее количество сбоев при попытке стереть данные из блока флэш-памяти.Runtime_Bad_Block— общее количество блоков флэш-памяти с неисправимыми ошибками, которое было выявлено за все время работы диска.End-to-End_Error— общее количество ошибок, возникающих в случае несоответствия между хостом и диском четности данных, передаваемых через кэш-память.Reported_Uncorrect— общее количество ошибок, которые не удалось исправить с помощью аппаратной части диска.Airflow_Temperature_Cel— температура воздуха внутри корпуса диска.Hardware_ECC_Recovered— общее количество случаев коррекции ошибок ECC , выполненных контроллером диска.UDMA_CRC_Error_Count— общее количество ошибок, возникших при передаче данных по внешнему интерфейсу в режиме UltraDMA. Например: ошибки нарушения целостности пакетов.Total_LBAs_Written— общее количество блоков данных, записанных на диск за все время его жизни.Unknown_SSD_AttributeиUnknown_Attribute— атрибуты, специфичные для конкретного производителя.
-
FLAGS— флаги атрибутов, задаваемые производителем диска, характеризующие тип атрибута:P(prefailure warning) — при достижении порогового значения таких атрибутов диск требует замены.O(updated online) — такие атрибуты обновляют значения при выполнении встроенных тестов SMART онлайн и офлайн.S(speed/performance) — такие атрибуты характеризуют производительность диска.R(error rate) — такие атрибуты отражают значения счетчиков ошибок диска.C(event count) — такие атрибуты отражают значения счетчиков событий.K(auto-keep) — самосохраняющиеся атрибуты.
-
VALUE— текущее значение атрибута. -
WORST— наихудшее значение атрибута за все время работы диска. -
THRESH— минимальное пороговое значение атрибута, при достижении которого состояние диска считается критическим, и он может выйти из строя. -
FAIL— состояние, сигнализирующее о выходе атрибута за пороговое значениеTHRESH. -
RAW_VALUE— абсолютное значение атрибута.
Если для любого из атрибутов таблицы с флагом P (prefailure warning) в поле FAIL указано значение FAILING_NOW, значит, ресурс диска исчерпан и диск нуждается в замене.