Мониторинг состояния кластера Apache Kafka® и хостов
Данные о состоянии кластера и его хостов доступны в консоли управления. Их можно посмотреть на вкладке Мониторинг страницы управления кластером или в сервисе Yandex Monitoring.
Диагностическая информация о состоянии кластера представлена в виде графиков.
Период обновления графиков:
- Для хостов стандартной конфигурации и хостов с увеличенным соотношением количества гигабайт RAM к количеству vCPU (
memory-optimized
): 15 секунд. - Для хостов с гарантированной долей vCPU ниже 100% (
burstable
): 150 секунд.
Примечание
На графиках автоматически применяются наиболее подходящие кратные единицы измерения (мегабайты, гигабайты и т. д.).
Вы можете настроить алерты в сервисе Yandex Monitoring для получения уведомлений о сбоях в работе кластера. В Yandex Monitoring используются два порога срабатывания алерта: Warning
и Alarm
. При превышении заданного порога вы получите оповещения через настроенные каналы уведомлений.
Мониторинг состояния кластера
Для просмотра детальной информации о состоянии кластера Managed Service for Apache Kafka®:
-
В консоли управления
перейдите в нужный каталог. -
В списке сервисов выберите Managed Service for Kafka.
-
Нажмите на имя нужного кластера и выберите вкладку Мониторинг.
-
Чтобы перейти к работе с метриками, дашбордами или алертами в сервисе Yandex Monitoring, нажмите кнопку Открыть в Monitoring на панели сверху.
На странице отображаются следующие графики:
- Alive brokers — количество работоспособных брокеров, для каждого хоста с ролью
KAFKA
. - Offline partitions — показывает значения параметров:
OfflineReplicaCount
— количество разделов, не имеющих брокера-лидера. Такие разделы не позволяют ни запись, ни чтение сообщений.Underreplicated partitions
— количество разделов, у которых число синхронизированных реплик (in-sync replicas, ISR) меньше фактора репликации.Under min ISR partitions
— количество разделов, у которых число синхронизированных реплик меньше минимально допустимого значения, указанного в настройках.
- Errors — количество неуспешных запросов по видам ошибок.
- Free space — свободное дисковое пространство, для каждого хоста с ролью
KAFKA
(в байтах). - Messages in — интенсивность записи сообщений (сообщений/с).
- Bytes In/Out — скорость записи и скорость чтения сообщений, для каждого хоста с ролью
KAFKA
(байт/с). - Top 5 topics by size — объем данных для каждого из пяти наиболее объемных топиков (в байтах).
- Replicated bytes — скорость потока данных репликации, для каждого хоста с ролью
KAFKA
(байт/с). - Partitions — общее количество реплик разделов.
- Replication lag [messages] — наибольшее отставание репликации, для каждого хоста с ролью
KAFKA
(в сообщениях). - Request time (0.95 quantile) — время обработки запросов в квантиле 0.95 по видам запросов.
- Requests — интенсивность запросов по видам (запросов/с).
Мониторинг состояния хостов
Для просмотра детальной информации о состоянии отдельных хостов Managed Service for Apache Kafka®:
- В консоли управления
перейдите в нужный каталог. - В списке сервисов выберите Managed Service for Kafka.
- Нажмите на имя нужного кластера и выберите вкладку Хосты → Мониторинги.
- Выберите нужный хост из выпадающего списка.
На этой странице выводятся графики, показывающие нагрузку на отдельный хост кластера:
- CPU usage — загрузка процессорных ядер. При повышении нагрузки значение
Idle
уменьшается. - Memory usage — использование оперативной памяти (в байтах). При высоких нагрузках значение параметра
Free
уменьшается, а значения остальных — растут. - Disk read/write bytes — скорость дисковых операций (байт/с).
- Disk IOPS — интенсивность дисковых операций (операций/с).
- Network Bytes — скорость обмена данными по сети (байт/с).
- Network Packets — интенсивность обмена данными по сети (пакетов/с).
- Free space — свободное дисковое пространство (в байтах).
Настройка алертов в Yandex Monitoring
Чтобы настроить алерты показателей состояния кластера и хостов:
- В консоли управления
выберите каталог с кластером, для которого нужно настроить алерты. - В списке сервисов выберите
Monitoring. - В блоке Сервисные дашборды выберите Managed Service for Apache Kafka® — Cluster Overview.
- На нужном графике нажмите на значок
и выберите пункт Создать алерт. - Если на графике несколько показателей, выберите запрос данных для формирования метрики и нажмите Продолжить. Подробнее о языке запросов см. документацию Yandex Monitoring.
- Задайте пороговые значения
Alarm
иWarning
для срабатывания алерта. - Нажмите кнопку Создать алерт.
Чтобы настроить автоматический мониторинг других показателей состояния кластера:
- Создайте алерт.
- Добавьте метрику состояния.
- Задайте значения порогов для оповещения в параметрах алерта.
Рекомендуемые пороговые значения для некоторых метрик:
Метрика | Обозначение | Alarm |
Warning |
---|---|---|---|
Количество работоспособных хостов | kafka_is_alive |
<количество хостов> - 2 |
<количество хостов> - 1 |
Состояние репликации разделов | kafka_server_ReplicaManager_UnderReplicatedPartitions |
— | Больше 0 |
Число отстающих реплик | kafka_server_ReplicaManager_UnderMinIsrPartitionCount |
Больше 0 |
— |
Объем использованного хранилища | disk.used_bytes |
90% от размера хранилища | 80% от размера хранилища |
Для метрики disk.used_bytes
пороговые значения Alarm
и Warning
задаются только в байтах. Например, рекомендуемые значения для диска размером в 100 ГБ:
Alarm
—96636764160
байт (90%).Warning
—85899345920
байт (80%).
Текущий размер хранилища можно посмотреть в детальной информации о кластере. Полный список поддерживаемых метрик см. в документации Monitoring.
Состояние и статус кластера
Состояние кластера указывает на исправность его хостов, а Статус показывает, запущен кластер, остановлен или находится в промежуточном состоянии.
Для просмотра состояния и статуса кластера:
- Перейдите на страницу каталога
и выберите сервис Managed Service for Kafka. - Наведите курсор на индикатор в столбце Доступность в строке нужного кластера.
Состояния кластера
Состояние | Описание | Предлагаемые действия |
---|---|---|
ALIVE | Кластер работает в штатном режиме. | Действий не требуется. |
DEGRADED | Кластер работает не на полную мощность: минимум один из хостов имеет состояние, отличное от ALIVE . |
Выполните диагностику:
|
DEAD | Кластер неработоспособен: ни один его хост не работает. | Составьте обращение в службу поддержки
|
UNKNOWN | Состояние кластера неизвестно. | Составьте обращение в службу поддержки
|
Статусы кластера
Статус | Описание | Предлагаемые действия |
---|---|---|
CREATING | Идет подготовка к первому запуску | Подождите немного и приступайте к работе. Время создания кластера зависит от класса хостов. |
RUNNING | Кластер работает в штатном режиме | Действий не требуется. |
STOPPING | Кластер останавливается | Через некоторое время кластеру будет присвоен статус STOPPED , и он будет выведен из работы. Действий не требуется. |
STOPPED | Кластер остановлен | Запустите кластер, чтобы вернуть его в работу. |
STARTING | Остановленный ранее кластер запускается | Через некоторое время кластеру будет присвоен статус RUNNING . Подождите немного и приступайте к работе. |
UPDATING | Выполняется обновление состояния кластера | По завершении обновления ему будет присвоен статус RUNNING . Подождите немного и приступайте к работе. |
ERROR | Произошла ошибка, которая не позволяет кластеру продолжить работу | Выполните начальную диагностику:
|
STATUS_UNKNOWN | Кластер не может определить свой статус | Выполните начальную диагностику:
|