Мониторинг состояния кластера Managed Service for Apache Airflow™
Данные о состоянии кластера и его хостов доступны в консоли управления
Диагностическая информация о состоянии кластера представлена в виде графиков.
Графики обновляются раз в минуту.
Примечание
На графиках автоматически применяются наиболее подходящие кратные единицы измерения (мегабайты, гигабайты и т. д.).
Вы можете настроить алерты в сервисе Yandex Monitoring для получения уведомлений о сбоях в работе кластера. В Yandex Monitoring используются два порога срабатывания алерта: Warning и Alarm. При превышении заданного порога вы получите оповещения через настроенные каналы уведомлений.
Мониторинг состояния кластера
Для просмотра детальной информации о состоянии кластера Managed Service for Apache Airflow™:
-
В консоли управления
перейдите в нужный каталог. -
В списке сервисов выберите Managed Service for Apache Airflow™.
-
Нажмите на имя нужного кластера и выберите вкладку Мониторинг.
На открывшейся странице будут отображены графики работы кластера Managed Service for Apache Airflow™.
-
Чтобы перейти к работе с метриками, дашбордами или алертами в сервисе Yandex Monitoring, нажмите кнопку Открыть в Monitoring на панели сверху.
Доступные графики
-
В блоке Cluster:
- CPU usage — процент использования CPU компонентами кластера относительно их лимитов.
- Memory usage — процент использования оперативной памяти компонентами кластера относительно их лимитов.
- Components Restarts — количество перезапусков компонентов кластера.
- Components Count — количество активных компонентов кластера.
-
В блоке DAGs:
- DAG import stats — метрики загрузки DAG-ов.
- DAG parse timings — максимальное время обработки DAG-ов.
-
В блоке Tasks:
- Tasks completed, 5m window — количество завершенных задач с окном в пять минут.
- Tasks duration, p99 — 99-й процентиль времени выполнения задач.
- Tasks duration sum, 5m window — суммарное время выполнения задач с окном в пять минут.
-
В блоке Resources:
- Pool usage — количество занятых слотов в каждом пуле кластера.
Настройка алертов в Yandex Monitoring
Чтобы настроить алерты показателей состояния кластера:
- В консоли управления
выберите каталог с кластером, для которого нужно настроить алерты. - В списке сервисов выберите
Monitoring. - В блоке Сервисные дашборды выберите Managed Service for Apache Airflow™ — Cluster Overview.
- На нужном графике нажмите на значок
и выберите пункт Создать алерт. - Если на графике несколько показателей, выберите запрос данных для формирования метрики и нажмите Продолжить. Подробнее о языке запросов см. документацию Yandex Monitoring.
- Задайте пороговые значения
AlarmиWarningдля срабатывания алерта. - Нажмите кнопку Создать алерт.
Чтобы настроить автоматический мониторинг других показателей состояния кластера:
- Создайте алерт.
- Добавьте метрику состояния.
- В параметрах алерта задайте значения порогов для оповещения.
Полный список поддерживаемых метрик см. в документации Monitoring.
Состояние и статус кластера
Состояние кластера указывает на исправность его хостов, а Статус показывает, запущен кластер, остановлен или находится в промежуточном состоянии.
Для просмотра состояния и статуса кластера:
- Перейдите на страницу каталога и выберите Managed Service for Apache Airflow™.
- В строке нужного кластера наведите курсор на индикатор в столбце Доступность.
Состояния кластера
| Состояние | Описание | Предлагаемые действия |
|---|---|---|
| ALIVE | Кластер работает в штатном режиме. | Действий не требуется. |
| DEAD | Кластер неработоспособен. | Составьте обращение в службу поддержки
|
| UNKNOWN | Состояние кластера неизвестно. | Составьте обращение в службу поддержки
|
Статусы кластера
| Статус | Описание | Предлагаемые действия |
|---|---|---|
| CREATING | Идет подготовка к первому запуску | Подождите немного и приступайте к работе. Время создания кластера зависит от класса хостов. |
| RUNNING | Кластер работает в штатном режиме | Действий не требуется. |
| STOPPING | Кластер останавливается | Через некоторое время кластеру будет присвоен статус STOPPED, и он будет выведен из работы. Действий не требуется. |
| STOPPED | Кластер остановлен | Запустите кластер, чтобы вернуть его в работу. |
| STARTING | Остановленный ранее кластер запускается | Через некоторое время кластеру будет присвоен статус RUNNING. Подождите немного и приступайте к работе. |
| UPDATING | Обновляется конфигурация кластера | По завершении обновления кластеру будет присвоен статус, который был до обновления: RUNNING или STOPPED. |
| ERROR | Произошла ошибка при выполнении операции с кластером или во время окна технического обслуживания | Если кластер долго находится в этом статусе, обратитесь в службу поддержки |
| STATUS_UNKNOWN | Кластер не может определить свой статус | Если кластер долго находится в этом статусе, обратитесь в службу поддержки |