Yandex Cloud
Поиск
Связаться с намиПодключиться
  • Истории успеха
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
    • Доступны в регионе
    • Инфраструктура и сеть
    • Платформа данных
    • Контейнеры
    • Инструменты разработчика
    • Бессерверные вычисления
    • Безопасность
    • Мониторинг и управление ресурсами
    • AI Studio
    • Бизнес-инструменты
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Партнёрская программа
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Тарифы Yandex Cloud
    • Промоакции и free tier
    • Правила тарификации
  • Истории успеха
  • Документация
  • Блог
Проект Яндекса
© 2025 ТОО «Облачные Сервисы Казахстан»
Yandex BareMetal
  • Начало работы
    • Все инструкции
    • Обзор сервиса
      • Обзор
      • Конфигурации серверов
      • Анализ состояния дисков
      • Обзор
      • DHCP
      • Ограничения в сетях BareMetal
    • Квоты и лимиты
    • Все руководства
    • Подключение существующего сервера BareMetal к Cloud Backup
    • Настройка VRRP для кластера серверов BareMetal
    • Организация сетевой связности в приватной подсети BareMetal
    • Организация сетевой связности между приватными подсетями BareMetal и Virtual Private Cloud
    • Организация сетевой связности между приватной подсетью BareMetal и On-Prem
    • Доставка USB-устройств на сервер BareMetal или виртуальную машину
    • Настройка межсетевого экрана OPNsense в режиме кластера высокой доступности
    • Развертывание веб-приложения на серверах BareMetal с L7-балансировщиком и защитой Smart Web Security
  • Метрики Monitoring
  • Аудитные логи Audit Trails
  • Управление доступом
  • Правила тарификации
  • Вопросы и ответы
  1. Концепции
  2. Серверы
  3. Анализ состояния дисков

Анализ состояния дисков серверов BareMetal

Статья создана
Yandex Cloud
Обновлена 28 мая 2025 г.

Если в процессе работы с сервером BareMetal вы столкнулись с ошибками чтения/записи данных на диски, отказом диска или RAID-массива, вы можете выполнить диагностику сервера, которая позволит определить источник проблемы и сформирует отчет для отправки в службу технической поддержки.

Анализ информации о дисковых ошибках основывается на технологии самодиагностики дисков SMART и использует утилиту HW Watcher для сбора и обработки информации и формирования отчета. Использовать утилиту HW Watcher можно только на серверах под управлением ОС Linux.

Информация о состоянии дисков сервера сохраняется в директории drive отчета, причем отчет по каждому из дисков сервера сохраняется в отдельном файле. Отчет о значении SMART-атрибутов диска представляет собой таблицу:

HDD-диски
SSD-диски
ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  1 Raw_Read_Error_Rate     POSR--   083   063   044    -    203094696
  3 Spin_Up_Time            PO----   093   093   000    -    0
  4 Start_Stop_Count        -O--CK   100   100   020    -    224
  5 Reallocated_Sector_Ct   PO--CK   100   100   036    -    0
  7 Seek_Error_Rate         POSR--   084   060   030    -    293695131
  9 Power_On_Hours          -O--CK   074   011   000    -    23513
 10 Spin_Retry_Count        PO--C-   100   100   097    -    0
 12 Power_Cycle_Count       -O--CK   100   100   020    -    225
184 End-to-End_Error        -O--CK   100   100   099    -    0
187 Reported_Uncorrect      -O--CK   100   100   000    -    0
188 Command_Timeout         -O--CK   100   099   000    -    65537
189 High_Fly_Writes         -O-RCK   093   093   000    -    7
190 Airflow_Temperature_Cel -O---K   068   051   045    -    32 (Min/Max 31/32)
191 G-Sense_Error_Rate      -O--CK   100   100   000    -    0
192 Power-Off_Retract_Count -O--CK   100   100   000    -    187
193 Load_Cycle_Count        -O--CK   100   100   000    -    1816
194 Temperature_Celsius     -O---K   032   049   000    -    32 (0 18 0 0 0)
195 Hardware_ECC_Recovered  -O-RC-   023   003   000    -    203094696
197 Current_Pending_Sector  -O--C-   100   100   000    -    0
198 Offline_Uncorrectable   ----C-   100   100   000    -    0
199 UDMA_CRC_Error_Count    -OSRCK   200   200   000    -    0

Где:

  • ID# — идентификатор атрибута.

  • ATTRIBUTE_NAME — название атрибута:

    • Raw_Read_Error_Rate — частота возникновения вызванных аппаратной частью диска ошибок при чтении данных.
    • Spin_Up_Time — время раскрутки дисков из состояния покоя до рабочей скорости. Увеличивается по мере износа механической части диска, а также может говорить о проблемах с электропитанием диска.
    • Start_Stop_Count — общее количество циклов запуска/остановки диска.
    • Reallocated_Sector_Ct — общее количество секторов с ошибками чтения/записи, переназначенных в резервную область.
    • Seek_Error_Rate — частота возникновения ошибок при позиционировании блока магнитных головок. Чем их больше, тем хуже состояние диска. На значение параметра могут влиять перегрев и внешние вибрации.
    • Power_On_Hours — общее количество часов, которые диск провел во включенном состоянии.
    • Spin_Retry_Count — общее количество повторных попыток раскрутки диска до рабочей скорости в случаях, когда предыдущая попытка оказалась неудачной. Увеличивающееся значение атрибута свидетельствует о высокой вероятности проблем с механической частью диска.
    • Power_Cycle_Count — общее количество полных циклов включения/выключения диска.
    • End-to-End_Error — общее количество ошибок, возникающих в случае несоответствия между хостом и диском четности данных, передаваемых через кэш-память.
    • Reported_Uncorrect — общее количество ошибок, которые не удалось исправить с помощью аппаратной части диска.
    • Command_Timeout — общее количество операций, прерванных в связи с таймаутом диска.
    • High_Fly_Writes — общее количество зафиксированных случаев записи данных при высоте головки над поверхностью диска выше рассчитанной.
    • Airflow_Temperature_Cel — температура воздуха внутри корпуса диска.
    • G-Sense_Error_Rate — общее количество ошибок, возникших в результате ударных нагрузок на диск.
    • Power-Off_Retract_Count — общее количество циклов аварийных выключений или отказов питания диска.
    • Load_Cycle_Count — общее количество циклов перемещения блока магнитных головок в область парковки.
    • Temperature_Celsius — температура диска.
    • Hardware_ECC_Recovered — общее количество случаев коррекции ошибок ECC, выполненных контроллером диска.
    • Current_Pending_Sector — общее количество так называемых подозрительных секторов, которые еще не были определены как плохие, но считывание с которых отличается от считывания со стабильного сектора. В случае успешного последующего чтения из сектора он исключается из числа подозрительных. В случае повторных случаев чтения с ошибкой диск пытается восстановить его и выполняет операцию переназначения.
    • Offline_Uncorrectable — общее количество подозрительных (Current_Pending_Sector) секторов, которые диску не удалось восстановить.
    • UDMA_CRC_Error_Count — общее количество ошибок, возникших при передаче данных по внешнему интерфейсу в режиме UltraDMA. Например: ошибки нарушения целостности пакетов.
  • FLAGS — флаги атрибутов, задаваемые производителем диска, характеризующие тип атрибута:

    • P (prefailure warning) — при достижении порогового значения таких атрибутов диск требует замены.
    • O (updated online) — такие атрибуты обновляют значения при выполнении встроенных тестов SMART онлайн и офлайн.
    • S (speed/performance) — такие атрибуты характеризуют производительность диска.
    • R (error rate) — такие атрибуты отражают значения счетчиков ошибок диска.
    • C (event count) — такие атрибуты отражают значения счетчиков событий.
    • K (auto-keep) — самосохраняющиеся атрибуты.
  • VALUE — текущее значение атрибута.

  • WORST — наихудшее значение атрибута за все время работы диска.

  • THRESH — минимальное пороговое значение атрибута, при достижении которого состояние диска считается критическим, и он может выйти из строя.

  • FAIL — состояние, сигнализирующее о выходе атрибута за пороговое значение THRESH.

  • RAW_VALUE — абсолютное значение атрибута.

Если для любого из атрибутов таблицы с флагом P (prefailure warning) в поле FAIL указано значение FAILING_NOW, значит, ресурс диска исчерпан и диск нуждается в замене.

ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  5 Reallocated_Sector_Ct   PO--CK   100   100   010    -    0
  9 Power_On_Hours          -O--CK   086   086   000    -    67710
 12 Power_Cycle_Count       -O--CK   099   099   000    -    108
177 Wear_Leveling_Count     PO--C-   062   062   005    -    1182
179 Used_Rsvd_Blk_Cnt_Tot   PO--C-   100   100   010    -    0
180 Unused_Rsvd_Blk_Cnt_Tot PO--C-   100   100   010    -    17618
181 Program_Fail_Cnt_Total  -O--CK   100   100   000    -    0
182 Erase_Fail_Count_Total  -O--CK   100   100   000    -    0
183 Runtime_Bad_Block       PO--C-   100   100   010    -    0
184 End-to-End_Error        PO--CK   100   100   097    -    0
187 Reported_Uncorrect      -O--CK   100   100   000    -    0
190 Airflow_Temperature_Cel -O--CK   073   049   000    -    27
195 Hardware_ECC_Recovered  -O-RC-   200   200   000    -    0
199 UDMA_CRC_Error_Count    -OSRCK   100   100   000    -    0
202 Unknown_SSD_Attribute   PO--CK   100   100   010    -    0
235 Unknown_Attribute       -O--C-   099   099   000    -    68
241 Total_LBAs_Written      -O--CK   099   099   000    -    2179262941271

Где:

  • ID# — идентификатор атрибута.

  • ATTRIBUTE_NAME — название атрибута:

    • Reallocated_Sector_Ct — общее количество блоков с ошибками чтения/записи, переназначенных в резервную область.
    • Power_On_Hours — общее количество часов, которые диск провел во включенном состоянии.
    • Power_Cycle_Count — общее количество полных циклов включения/выключения диска.
    • Wear_Leveling_Count — максимальное количество операций стирания, выполненных над одним блоком флэш-памяти.
    • Used_Rsvd_Blk_Cnt_Tot — общее количество использованных блоков флэш-памяти в резервной области.
    • Unused_Rsvd_Blk_Cnt_Tot — общее количество доступных блоков флэш-памяти в резервной области.
    • Program_Fail_Cnt_Total — общее количество сбоев при попытке записать данные в блок флэш-памяти.
    • Erase_Fail_Count_Total — общее количество сбоев при попытке стереть данные из блока флэш-памяти.
    • Runtime_Bad_Block — общее количество блоков флэш-памяти с неисправимыми ошибками, которое было выявлено за все время работы диска.
    • End-to-End_Error — общее количество ошибок, возникающих в случае несоответствия между хостом и диском четности данных, передаваемых через кэш-память.
    • Reported_Uncorrect — общее количество ошибок, которые не удалось исправить с помощью аппаратной части диска.
    • Airflow_Temperature_Cel — температура воздуха внутри корпуса диска.
    • Hardware_ECC_Recovered — общее количество случаев коррекции ошибок ECC, выполненных контроллером диска.
    • UDMA_CRC_Error_Count — общее количество ошибок, возникших при передаче данных по внешнему интерфейсу в режиме UltraDMA. Например: ошибки нарушения целостности пакетов.
    • Total_LBAs_Written — общее количество блоков данных, записанных на диск за все время его жизни.
    • Unknown_SSD_Attribute и Unknown_Attribute — атрибуты, специфичные для конкретного производителя.
  • FLAGS — флаги атрибутов, задаваемые производителем диска, характеризующие тип атрибута:

    • P (prefailure warning) — при достижении порогового значения таких атрибутов диск требует замены.
    • O (updated online) — такие атрибуты обновляют значения при выполнении встроенных тестов SMART онлайн и офлайн.
    • S (speed/performance) — такие атрибуты характеризуют производительность диска.
    • R (error rate) — такие атрибуты отражают значения счетчиков ошибок диска.
    • C (event count) — такие атрибуты отражают значения счетчиков событий.
    • K (auto-keep) — самосохраняющиеся атрибуты.
  • VALUE — текущее значение атрибута.

  • WORST — наихудшее значение атрибута за все время работы диска.

  • THRESH — минимальное пороговое значение атрибута, при достижении которого состояние диска считается критическим, и он может выйти из строя.

  • FAIL — состояние, сигнализирующее о выходе атрибута за пороговое значение THRESH.

  • RAW_VALUE — абсолютное значение атрибута.

Если для любого из атрибутов таблицы с флагом P (prefailure warning) в поле FAIL указано значение FAILING_NOW, значит, ресурс диска исчерпан и диск нуждается в замене.

См. такжеСм. также

  • Проанализировать состояние дисков сервера BareMetal с помощью утилиты HW Watcher

Была ли статья полезна?

Предыдущая
Конфигурации серверов
Следующая
Обзор
Проект Яндекса
© 2025 ТОО «Облачные Сервисы Казахстан»