Yandex Cloud
Поиск
Связаться с намиПодключиться
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
    • Популярные
    • Инфраструктура и сеть
    • Платформа данных
    • Контейнеры
    • Инструменты разработчика
    • Бессерверные вычисления
    • Безопасность
    • Мониторинг и управление ресурсами
    • Машинное обучение
    • Бизнес-инструменты
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Облако для интеграторов
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Контент-программа
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Истории успеха
    • Тарифы Yandex Cloud
    • Промоакции и free tier
    • Правила тарификации
  • Документация
  • Блог
Проект Яндекса
© 2025 ООО «Яндекс.Облако»
Yandex Data Processing
  • Начало работы
    • Все инструкции
      • Работа с логами
      • Мониторинг состояния кластера и хостов
      • Мониторинг состояния Spark-приложений
      • Диагностика и устранение проблем производительности Spark-приложений
    • Подготовка и использование виртуальных окружений Python
  • Управление доступом
  • Правила тарификации
  • Справочник Terraform
  • Метрики Monitoring
  • Аудитные логи Audit Trails
  • Публичные материалы
  • Вопросы и ответы
  • Обучающие курсы

В этой статье:

  • Мониторинг состояния кластера
  • Мониторинг состояния хостов
  • Интеграция с Yandex Monitoring
  • Состояние и статус кластера
  • Состояния кластера
  • Статусы кластера
  1. Пошаговые инструкции
  2. Логи и мониторинг
  3. Мониторинг состояния кластера и хостов

Мониторинг состояния кластера и хостов Yandex Data Processing

Статья создана
Yandex Cloud
Обновлена 6 марта 2025 г.
  • Мониторинг состояния кластера
  • Мониторинг состояния хостов
  • Интеграция с Yandex Monitoring
  • Состояние и статус кластера
    • Состояния кластера
    • Статусы кластера

Вы можете отслеживать состояние кластера Yandex Data Processing и отдельных его хостов с помощью инструментов мониторинга в консоли управления. Эти инструменты предоставляют диагностическую информацию в виде графиков.

Чтобы перейти к работе с метриками, дашбордами или алертами в сервисе Monitoring, нажмите кнопку Открыть в Monitoring на панели сверху.

Период обновления графиков:

  • Для хостов стандартной конфигурации и хостов с увеличенным соотношением количества гигабайт RAM к количеству vCPU (memory-optimized): 15 секунд.
  • Для хостов с гарантированной долей vCPU ниже 100% (burstable): 150 секунд.

Примечание

На графиках автоматически применяются наиболее подходящие кратные единицы измерения (мегабайты, гигабайты и т. д.).

Мониторинг состояния кластераМониторинг состояния кластера

Для просмотра детальной информации о состоянии кластера Yandex Data Processing:

Консоль управления
  1. Перейдите на страницу каталога и выберите сервис Yandex Data Processing.
  2. Нажмите на имя нужного кластера и выберите вкладку Мониторинг.

На вкладке отображаются следующие графики:

  • Active nodes — количество запущенных хостов (кроме хостов-мастеров).
  • Apps failed — количество приложений с ошибками выполнения.
  • Available RAM — объем свободной оперативной памяти, доступной в YARN для хостов в подкластерах для хранения и обработки данных (в байтах).
  • Available virtual cores — количество доступных ядер в YARN.
  • Containers pending — количество контейнеров, ожидающих запуска сервисом YARN Resource Manager.
  • Decommissioned nodes — количество хостов, для которых выполнена декомиссия.

Мониторинг состояния хостовМониторинг состояния хостов

Для просмотра детальной информации о состоянии отдельных хостов Yandex Data Processing:

Консоль управления
  1. Перейдите на страницу каталога и выберите сервис Yandex Data Processing.
  2. Нажмите на имя нужного кластера и выберите вкладку Хосты.
  3. Откройте ВМ нужного хоста и выберите вкладку Мониторинг.

На вкладке отображаются графики с информацией о потреблении ресурсов на виртуальной машине:

  • CPU Utilization — загрузка процессорных ядер.
  • Connections quota utilization — процент использования доступных соединений к хосту.
  • Disk bytes — скорость чтения и записи данных в хранилище (байт/с).
  • Disk operations — интенсивность дисковых операций (операций/с).
  • Network bytes — скорость обмена данными по сети (байт/с).
  • Network packets — интенсивность обмена данными по сети (пакетов/с).

Интеграция с Yandex MonitoringИнтеграция с Yandex Monitoring

Консоль управления

Чтобы настроить алерты показателей состояния кластера и хостов:

  1. В консоли управления выберите каталог с кластером, для которого нужно настроить алерты.
  2. В списке сервисов выберите  Monitoring.
  3. В блоке Сервисные дашборды выберите Yandex Data Processing:
  4. На нужном графике с показателями нажмите на значок и выберите пункт Создать алерт.
  5. Если показателей на графике больше одного, выберите запрос данных для формирования метрики и нажмите Продолжить. Подробнее о языке запросов см. в документации Yandex Monitoring.
  6. Задайте значения порогов Alarm и Warning для оповещения.
  7. Нажмите кнопку Создать.

Чтобы настроить автоматический мониторинг других показателей состояния кластера:

Консоль управления
  1. Создайте алерт.
  2. Добавьте метрику состояния.
  3. Задайте значения порогов для оповещения в параметрах алерта.

Полный список поддерживаемых метрик см. в документации Monitoring.

Состояние и статус кластераСостояние и статус кластера

Состояние кластера указывает на исправность его хостов, а Статус показывает, запущен кластер, остановлен или находится в промежуточном состоянии.

Для просмотра состояния и статуса кластера:

  1. Перейдите на страницу каталога и выберите сервис Yandex Data Processing.
  2. Наведите курсор на индикатор в столбце Доступность в строке нужного кластера.

Состояния кластераСостояния кластера

Состояние Описание Предлагаемые действия
ALIVE Кластер работает в штатном режиме. Действий не требуется.
DEGRADED Кластер работает не на полную мощность: минимум один из хостов имеет состояние, отличное от ALIVE. Выполните диагностику:
  • Перейдите на вкладку Хосты и посмотрите, какие из них в нерабочем состоянии.
  • Перейдите на вкладку Операции и убедитесь, что все операции завершились.
  • Убедитесь, что кластер не находится в процессе технического обслуживания.
Если причины не удалось выяснить самостоятельно, обратитесь в службу поддержки.
DEAD Кластер неработоспособен: ни один его хост не работает. Составьте обращение в службу поддержки, указав:
  • Идентификатор кластера.
  • Идентификаторы последних операций, которые на нем выполнялись.
  • Время по графикам доступности, когда кластер перешел в состояние DEAD.
UNKNOWN Состояние кластера неизвестно. Составьте обращение в службу поддержки, указав:
  • Идентификатор кластера.
  • Идентификаторы последних операций, которые на нем выполнялись.
  • Время по графикам доступности, когда кластер перешел в состояние UNKNOWN.

Статусы кластераСтатусы кластера

Статус Описание Предлагаемые действия
CREATING Идет подготовка к первому запуску Подождите немного и приступайте к работе. Время создания кластера зависит от класса хостов.
RUNNING Кластер работает в штатном режиме Действий не требуется.
STOPPING Кластер останавливается Через некоторое время кластеру будет присвоен статус STOPPED, и он будет выведен из работы. Действий не требуется.
STOPPED Кластер остановлен Запустите кластер, чтобы вернуть его в работу.
STARTING Остановленный ранее кластер запускается Через некоторое время кластеру будет присвоен статус RUNNING. Подождите немного и приступайте к работе.
UPDATING Выполняется обновление состояния кластера По завершении обновления ему будет присвоен статус RUNNING. Подождите немного и приступайте к работе.
ERROR Произошла ошибка, которая не позволяет кластеру продолжить работу Выполните начальную диагностику:
  • Проанализируйте графики мониторинга кластера и просмотрите операции, которые на нем выполнялись.
  • Соберите список из идентификаторов проблемных ресурсов.
Если причины ошибки не удалось выяснить самостоятельно, обратитесь в службу поддержки.
STATUS_UNKNOWN Кластер не может определить свой статус Выполните начальную диагностику:
  • Проанализируйте графики мониторинга кластера и просмотрите операции, которые на нем выполнялись.
  • Соберите список из идентификаторов проблемных ресурсов.
Если причины ошибки не удалось выяснить самостоятельно, обратитесь в службу поддержки.

Была ли статья полезна?

Предыдущая
Работа с логами
Следующая
Мониторинг состояния Spark-приложений
Проект Яндекса
© 2025 ООО «Яндекс.Облако»