Мониторинг состояния кластера и хостов Yandex Data Processing
Вы можете отслеживать состояние кластера Yandex Data Processing и отдельных его хостов с помощью инструментов мониторинга в консоли управления. Эти инструменты предоставляют диагностическую информацию в виде графиков.
Чтобы перейти к работе с метриками, дашбордами или алертами в сервисе Monitoring, нажмите кнопку Открыть в Monitoring на панели сверху.
Период обновления графиков:
- Для хостов стандартной конфигурации и хостов с увеличенным соотношением количества гигабайт RAM к количеству vCPU (
memory-optimized
): 15 секунд. - Для хостов с гарантированной долей vCPU ниже 100% (
burstable
): 150 секунд.
Примечание
На графиках автоматически применяются наиболее подходящие кратные единицы измерения (мегабайты, гигабайты и т. д.).
Мониторинг состояния кластера
Для просмотра детальной информации о состоянии кластера Yandex Data Processing:
- Перейдите на страницу каталога
и выберите сервис Yandex Data Processing. - Нажмите на имя нужного кластера и выберите вкладку Мониторинг.
На вкладке отображаются следующие графики:
- Active nodes — количество запущенных хостов (кроме хостов-мастеров).
- Apps failed — количество приложений с ошибками выполнения.
- Available RAM — объем свободной оперативной памяти, доступной в YARN для хостов в подкластерах для хранения и обработки данных (в байтах).
- Available virtual cores — количество доступных ядер в YARN.
- Containers pending — количество контейнеров, ожидающих запуска сервисом YARN Resource Manager.
- Decommissioned nodes — количество хостов, для которых выполнена декомиссия.
Мониторинг состояния хостов
Для просмотра детальной информации о состоянии отдельных хостов Yandex Data Processing:
- Перейдите на страницу каталога
и выберите сервис Yandex Data Processing. - Нажмите на имя нужного кластера и выберите вкладку Хосты.
- Откройте ВМ нужного хоста и выберите вкладку Мониторинг.
На вкладке отображаются графики с информацией о потреблении ресурсов на виртуальной машине:
- CPU Utilization — загрузка процессорных ядер.
- Connections quota utilization — процент использования доступных соединений к хосту.
- Disk bytes — скорость чтения и записи данных в хранилище (байт/с).
- Disk operations — интенсивность дисковых операций (операций/с).
- Network bytes — скорость обмена данными по сети (байт/с).
- Network packets — интенсивность обмена данными по сети (пакетов/с).
Интеграция с Yandex Monitoring
Чтобы настроить алерты показателей состояния кластера и хостов:
- В консоли управления
выберите каталог с кластером, для которого нужно настроить алерты. - В списке сервисов выберите
Monitoring. - В блоке Сервисные дашборды выберите Yandex Data Processing:
- На нужном графике с показателями нажмите на значок
и выберите пункт Создать алерт. - Если показателей на графике больше одного, выберите запрос данных для формирования метрики и нажмите Продолжить. Подробнее о языке запросов см. в документации Yandex Monitoring.
- Задайте значения порогов
Alarm
иWarning
для оповещения. - Нажмите кнопку Создать.
Чтобы настроить автоматический мониторинг других показателей состояния кластера:
- Создайте алерт.
- Добавьте метрику состояния.
- Задайте значения порогов для оповещения в параметрах алерта.
Полный список поддерживаемых метрик см. в документации Monitoring.
Состояние и статус кластера
Состояние кластера указывает на исправность его хостов, а Статус показывает, запущен кластер, остановлен или находится в промежуточном состоянии.
Для просмотра состояния и статуса кластера:
- Перейдите на страницу каталога
и выберите сервис Yandex Data Processing. - Наведите курсор на индикатор в столбце Доступность в строке нужного кластера.
Состояния кластера
Состояние | Описание | Предлагаемые действия |
---|---|---|
ALIVE | Кластер работает в штатном режиме. | Действий не требуется. |
DEGRADED | Кластер работает не на полную мощность: минимум один из хостов имеет состояние, отличное от ALIVE . |
Выполните диагностику:
|
DEAD | Кластер неработоспособен: ни один его хост не работает. | Составьте обращение в службу поддержки
|
UNKNOWN | Состояние кластера неизвестно. | Составьте обращение в службу поддержки
|
Статусы кластера
Статус | Описание | Предлагаемые действия |
---|---|---|
CREATING | Идет подготовка к первому запуску | Подождите немного и приступайте к работе. Время создания кластера зависит от класса хостов. |
RUNNING | Кластер работает в штатном режиме | Действий не требуется. |
STOPPING | Кластер останавливается | Через некоторое время кластеру будет присвоен статус STOPPED , и он будет выведен из работы. Действий не требуется. |
STOPPED | Кластер остановлен | Запустите кластер, чтобы вернуть его в работу. |
STARTING | Остановленный ранее кластер запускается | Через некоторое время кластеру будет присвоен статус RUNNING . Подождите немного и приступайте к работе. |
UPDATING | Выполняется обновление состояния кластера | По завершении обновления ему будет присвоен статус RUNNING . Подождите немного и приступайте к работе. |
ERROR | Произошла ошибка, которая не позволяет кластеру продолжить работу | Выполните начальную диагностику:
|
STATUS_UNKNOWN | Кластер не может определить свой статус | Выполните начальную диагностику:
|