Yandex Cloud
Поиск
Связаться с экспертомПопробовать бесплатно
  • Кейсы
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
  • Marketplace
    • Популярные
    • Инфраструктура и сеть
    • Платформа данных
    • Искусственный интеллект
    • Безопасность
    • Инструменты DevOps
    • Бессерверные вычисления
    • Управление ресурсами
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Облако для интеграторов
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Контент-программа
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Калькулятор цен
    • Тарифы
    • Акции и free tier
  • Кейсы
  • Документация
  • Блог
Создавайте контент и получайте гранты!Готовы написать своё руководство? Участвуйте в контент-программе и получайте гранты на работу с облачными сервисами!
Подробнее о программе
Проект Яндекса
© 2026 ООО «Яндекс.Облако»
Yandex Cloud Stackland
  • Что нового
  • Установка
    • Все руководства
    • Установить Stackland на Yandex BareMetal
    • Настройка внешнего доступа к поду в кластере
    • Все инструкции
    • Проекты
    • Ресурсная модель
      • Мониторинг ClickHouse
      • Метрики дашборда NVIDIA® DCGM
      • Метрики дашборда NVIDIA® DCGM с MIG
      • Метрики дашборда NVIDIA® DCGM без MIG
      • Мониторинг оборудования
  • Управление доступом
  • Правила тарификации
  • Диагностика и устранение неполадок

В этой статье:

  • Дашборд Grafana
  • Список проверок с уведомлениями
  1. Концепции
  2. Мониторинг кластера
  3. Мониторинг оборудования

Мониторинг оборудования

Статья создана
Yandex Cloud
Обновлена 23 марта 2026 г.
  • Дашборд Grafana
  • Список проверок с уведомлениями

Некоторые ошибки системы могут быть связаны не с ошибками Kubernetes или других составляющих, а с отказом физического оборудования. Для мониторинга таких отказов Stackland предлагает готовое решение, которое собирает данные из различных источников: логов ядра, файловой системы sysfs, SMART-данных дисков и других.

На этой странице вы узнаете, где можно просмотреть уведомления о состоянии оборудования и основные графики, а также получите информацию о том, при каких условиях срабатывают уведомления.

Дашборд GrafanaДашборд Grafana

Мониторинг оборудования доступен на специальном дашборде:

Дашборд Grafana

Чтобы открыть дашборд с метриками мониторинга оборудования, перейдите по ссылке grafana.sys.<домен кластера> и откройте Dashbords > stackland-monitoring > Hardware Monitoring.

На дашборде в первом блоке возникают предупреждения о состоянии оборудования. Например, первое предупреждение на скриншоте — DiskIOErrors. Эта проверка отслеживает ошибки, возникающие при операциях чтения и записи данных на диск. Больше проверок можно увидеть ниже.

На двух графиках дашборда можно наблюдать за температурой диска — график Disk Temperature, и за ошибками ввода-вывода — график Disk I/O Errors.

Список проверок с уведомлениямиСписок проверок с уведомлениями

На дашборде появляются уведомления, которые сообщают о результатах проверок:

Название проверки

Описание

Как это работает

DiskMissing

Диск отсутствует

Система сканирует доступные устройства хранения. Если ранее доступный диск не определяется системой, регистрируется ошибка DiskMissing.

DiskIOErrors

Ошибки чтения/записи на диске

Во время операций чтения/записи система и дисковый контроллер обмениваются данными. Если возникают проблемы с чтением или записью, регистрируется ошибка DiskIOErrors.

DiskSmartFailed

Cбой SMART на диске

Если один из атрибутов SMART достигает порогового значения, установленного производителем диска, регистрируется ошибка DiskSmartFailed.

DiskSmartUnavailable

Cбой SMART на диске

Если технология SMART на диске не работает, и он больше не отправляет данных о состоянии оборудования, то регистрируется ошибка DiskSmartUnavailable.

DiskConnection

Проблемы с подключением

Атрибут 199 в SMART показывает количество исправленных ошибок при передаче данных по SATA-шине. Его рост может указывать на проблемы с кабелем, подключением, контроллером или диском. Если значение атрибута выросло, регистрируется ошибка подключения DiskConnection.

DiskTemperatureCritical

Высокая температура диска

Диски с поддержкой SMART отслеживают свою температуру и передают эти данные в систему. Если температура близка к максимальному предусмотренному значению, то регистрируется ошибка DiskTemperatureCritical.

Была ли статья полезна?

Предыдущая
Метрики дашборда NVIDIA® DCGM без MIG
Следующая
Управление доступом
Создавайте контент и получайте гранты!Готовы написать своё руководство? Участвуйте в контент-программе и получайте гранты на работу с облачными сервисами!
Подробнее о программе
Проект Яндекса
© 2026 ООО «Яндекс.Облако»