Мониторинг состояния кластера Apache Kafka® и хостов

Статья создана

Обновлена 13 июля 2026 г.

Мониторинг состояния кластера
Мониторинг состояния хостов
Настройка алертов в Yandex Monitoring
Состояние и статус кластера
- Состояния кластера
- Статусы кластера

Данные о состоянии кластера и его хостов доступны в консоли управления. Их можно посмотреть на вкладке Мониторинг страницы управления кластером или в сервисе Yandex Monitoring.

Диагностическая информация о состоянии кластера представлена в виде графиков.

Период обновления графиков:

Для хостов стандартной конфигурации и хостов с увеличенным соотношением количества гигабайт RAM к количеству vCPU (memory-optimized): 15 секунд.
Для хостов с гарантированной долей vCPU ниже 100% (burstable): 150 секунд.

Примечание

На графиках автоматически применяются наиболее подходящие кратные единицы измерения (мегабайты, гигабайты и т. д.).

Вы можете настроить алерты в сервисе Yandex Monitoring для получения уведомлений о сбоях в работе кластера. В Yandex Monitoring используются два порога срабатывания алерта: Warning и Alarm. При превышении заданного порога вы получите оповещения через настроенные каналы уведомлений.

Мониторинг состояния кластера

Для просмотра детальной информации о состоянии кластера Managed Service for Apache Kafka®:

Консоль управления

В консоли управления выберите каталог.
Перейдите в сервис Managed Service for Kafka.
Нажмите на имя нужного кластера и выберите вкладку Мониторинг.
Чтобы перейти к работе с метриками, дашбордами или алертами в сервисе Yandex Monitoring, нажмите кнопку Открыть в Monium на панели сверху.

На странице отображаются следующие графики:

Alive brokers — количество работоспособных брокеров, для каждого хоста с ролью KAFKA.
Problematic partitions — показывает значения параметров:
- Offline Replicas — количество разделов, не имеющих брокера-лидера. Такие разделы не позволяют ни запись, ни чтение сообщений.
- UnderMinISR — количество разделов, у которых число синхронизированных реплик (in-sync replicas, ISR) меньше минимально допустимого значения, указанного в настройках.
- UnderReplicated — количество разделов, у которых число синхронизированных реплик меньше фактора репликации.
Errors — количество неуспешных запросов по видам ошибок.
Free space — свободное дисковое пространство, для каждого хоста с ролью KAFKA (в байтах).
Messages in — интенсивность записи сообщений, для каждого хоста с ролью KAFKA (сообщений/с).
Bytes In/Out — скорость записи и скорость чтения сообщений, для каждого хоста с ролью KAFKA (байт/с).
Top 5 topics by size — объем данных для каждого из пяти наиболее объемных топиков (в байтах).
Replicated bytes — скорость потока данных репликации, для каждого хоста с ролью KAFKA (байт/с).
Partitions — общее количество реплик разделов.
Replication lag [messages] — наибольшее отставание репликации, для каждого хоста с ролью KAFKA (в сообщениях).
Request time (0.95 quantile) — время обработки запросов в квантиле 0.95 по видам запросов.
Requests — интенсивность запросов по видам (запросов/с).

Мониторинг состояния хостов

Для просмотра детальной информации о состоянии отдельных хостов Managed Service for Apache Kafka®:

Консоль управления

В консоли управления выберите каталог.
Перейдите в сервис Managed Service for Kafka.
Нажмите на имя нужного кластера и выберите вкладку Мониторинг.
Перейдите на вкладку Хосты и выберите хост.

Для каждого хоста указан его тип: KAFKA, KRAFT или ZOOKEEPER.

Чтобы перейти к работе с метриками, дашбордами или алертами в сервисе Yandex Monitoring, нажмите кнопку Открыть в Monium на панели сверху.

На этой странице выводятся графики, показывающие нагрузку на отдельный хост кластера:

CPU usage — загрузка процессорных ядер. При повышении нагрузки значение idle уменьшается.
Memory usage — использование оперативной памяти (в байтах). При высоких нагрузках значение параметра Free уменьшается, а значения остальных — растут.
Disk IOPS — интенсивность дисковых операций (операций/с).
Network packets — интенсивность обмена данными по сети (пакетов/с).
Free space — свободное дисковое пространство (в байтах).
Network bytes — скорость обмена данными по сети (байт/с).

В блоке Disk Metrics Details:

Disk write latency (percentiles) — время записи на диск, по процентилям.
Disk write bytes — средняя и максимальная скорость записи на диск.
Disk write operations — среднее и максимальное количество операций записи в секунду.
Disk read latency (percentiles) — время чтения с диска, по процентилям.
Disk read bytes — средняя и максимальная скорость чтения с диска.
Disk read operations — среднее и максимальное количество операций чтения в секунду.
Disk write throttler latency (percentiles) — задержка записи, внесенная при превышении квоты диска, по процентилям.
Disk read throttler latency (percentiles) — задержка чтения, внесенная при превышении квоты диска, по процентилям.
Disk used quota — использование квоты для дисковых операций.

Настройка алертов в Yandex Monitoring

Чтобы настроить алерты показателей состояния кластера и хостов:

Консоль управления

В консоли управления выберите каталог с кластером, для которого нужно настроить алерты.
Перейдите в сервис Monitoring.
В блоке Сервисные дашборды выберите Managed Service for Apache Kafka® — Cluster Overview.
На нужном графике нажмите на значок и выберите пункт Создать алерт.
Если на графике несколько показателей, выберите запрос данных для формирования метрики и нажмите Продолжить. Подробнее о языке запросов смотрите в документации Yandex Monitoring.
Задайте пороговые значения Alarm и Warning для срабатывания алерта.
Нажмите кнопку Создать алерт.

Чтобы настроить автоматический мониторинг других показателей состояния кластера:

Консоль управления

Создайте алерт.
Добавьте метрику состояния.
В параметрах алерта задайте значения порогов для оповещения.

Рекомендуемые пороговые значения для некоторых метрик:

Метрика	Обозначение	`Alarm`	`Warning`
Количество работоспособных хостов	`kafka_is_alive`	`<количество хостов> - 2`	`<количество хостов> - 1`
Состояние репликации разделов	`kafka_server_ReplicaManager_UnderReplicatedPartitions`	—	`Больше 0`
Число отстающих реплик	`kafka_server_ReplicaManager_UnderMinIsrPartitionCount`	`Больше 0`	—
Объем использованного хранилища	`disk.used_bytes`	90% от размера хранилища	80% от размера хранилища

Для метрики disk.used_bytes пороговые значения Alarm и Warning задаются только в байтах. Например, рекомендуемые значения для диска размером в 100 ГБ:

Alarm — 96636764160 байт (90%).
Warning — 85899345920 байт (80%).

Текущий размер хранилища можно посмотреть в детальной информации о кластере. Полный список поддерживаемых метрик — в документации Monitoring.

Состояние и статус кластера

Состояние кластера указывает на исправность его хостов, а Статус показывает, запущен кластер, остановлен или находится в промежуточном состоянии.

Для просмотра состояния и статуса кластера:

В консоли управления выберите каталог.
Перейдите в сервис Managed Service for Kafka.
Наведите курсор на индикатор в столбце Доступность в строке нужного кластера.

Состояния кластера

Состояние	Описание	Предлагаемые действия
ALIVE	Кластер работает в штатном режиме.	Действий не требуется.
DEGRADED	Кластер работает не на полную мощность: минимум один из хостов имеет состояние, отличное от `ALIVE`.	Выполните диагностику: Перейдите на вкладку Хосты и посмотрите, какие из них в нерабочем состоянии. Перейдите на вкладку Операции и убедитесь, что все операции завершились. Убедитесь, что кластер не находится в процессе технического обслуживания. Если причины не удалось выяснить самостоятельно, обратитесь в службу поддержки.
DEAD	Кластер неработоспособен: ни один его хост не работает.	Составьте обращение в службу поддержки, указав: Идентификатор кластера. Идентификаторы последних операций, которые на нем выполнялись. Время по графикам доступности, когда кластер перешел в состояние `DEAD`.
UNKNOWN	Состояние кластера неизвестно.	Составьте обращение в службу поддержки, указав: Идентификатор кластера. Идентификаторы последних операций, которые на нем выполнялись. Время по графикам доступности, когда кластер перешел в состояние `UNKNOWN`.

Статусы кластера

Статус	Описание	Предлагаемые действия
CREATING	Идет подготовка к первому запуску	Подождите немного и приступайте к работе. Время создания кластера зависит от класса хостов.
RUNNING	Кластер работает в штатном режиме	Действий не требуется.
STOPPING	Кластер останавливается	Через некоторое время кластеру будет присвоен статус `STOPPED`, и он будет выведен из работы. Действий не требуется.
STOPPED	Кластер остановлен	Запустите кластер, чтобы вернуть его в работу.
STARTING	Остановленный ранее кластер запускается	Через некоторое время кластеру будет присвоен статус `RUNNING`. Подождите немного и приступайте к работе.
UPDATING	Обновляется конфигурация кластера	По завершении обновления кластеру будет присвоен статус, который был до обновления: `RUNNING` или `STOPPED`.
ERROR	Произошла ошибка при выполнении операции с кластером или во время окна технического обслуживания	Если кластер долго находится в этом статусе, обратитесь в службу поддержки. Доступность кластера можно определить по его состоянию.
STATUS_UNKNOWN	Кластер не может определить свой статус	Если кластер долго находится в этом статусе, обратитесь в службу поддержки.

Мониторинг состояния кластера Apache Kafka® и хостов

Мониторинг состояния кластераМониторинг состояния кластера

Мониторинг состояния хостовМониторинг состояния хостов

Настройка алертов в Yandex MonitoringНастройка алертов в Yandex Monitoring

Состояние и статус кластераСостояние и статус кластера

Состояния кластераСостояния кластера

Статусы кластераСтатусы кластера

Была ли статья полезна?

Мониторинг состояния кластера

Мониторинг состояния хостов

Настройка алертов в Yandex Monitoring

Состояние и статус кластера

Состояния кластера

Статусы кластера