Метрики Yandex Managed Service for Apache Kafka®
В этом разделе описаны метрики сервиса Managed Service for Apache Kafka®, поставляемые в Monitoring.
Имя метрики пишется в метку name.
Общие метки для всех метрик сервиса Managed Service for Apache Kafka®:
| Метка | Значение |
|---|---|
| service | Идентификатор сервиса: managed-kafka |
| resource_type | Тип ресурса: cluster |
| resource_id | Идентификатор кластера |
| host | FQDN хоста |
| node | Тип брокера: leader, follower, replica |
| subcluster_name | Тип подкластера: zookeeper_subcluster, kafka_subcluster |
Метрики CPU
Загрузка процессорных ядер.
| Имя Тип, единицы измерения |
Описание |
|---|---|
cpu.fractionDGAUGE, % |
Гарантированная доля vCPU. |
cpu.guaranteeDGAUGE, штуки |
Гарантированное число ядер. |
cpu.limitDGAUGE, штуки |
Предельное число используемых ядер. |
cpu.guestDGAUGE, % |
Использование процессорных ядер, тип потребления guest. |
cpu.idleDGAUGE, % |
Использование процессорных ядер, тип потребления idle. |
cpu.iowaitDGAUGE, % |
Использование процессорных ядер, тип потребления iowait. |
cpu.irqDGAUGE, % |
Использование процессорных ядер, тип потребления irq. |
cpu.niceDGAUGE, % |
Использование процессорных ядер, тип потребления nice. |
cpu.softirqDGAUGE, % |
Использование процессорных ядер, тип потребления softirq. |
cpu.stealDGAUGE, % |
Использование процессорных ядер, тип потребления steal. |
cpu.systemDGAUGE, % |
Использование процессорных ядер, тип потребления system. |
cpu.userDGAUGE, % |
Использование процессорных ядер, тип потребления user. |
load.avg_15minDGAUGE, % |
Средняя нагрузка за 15 минут. |
load.avg_1minDGAUGE, % |
Средняя нагрузка за 1 минуту. |
load.avg_5minDGAUGE, % |
Средняя нагрузка за 5 минут. |
Метрики диска
| Имя Тип, единицы измерения |
Описание |
|---|---|
disk.free_bytesDGAUGE, байты |
Свободное место. |
disk.free_inodesDGAUGE, штуки |
Свободное количество inodes. |
disk.total_bytesDGAUGE, байты |
Доступное место. |
disk.total_inodesDGAUGE, штуки |
Доступное количество inodes. |
disk.used_bytesDGAUGE, байты |
Занятое место. |
disk.used_inodesDGAUGE, штуки |
Занятое количество inodes. |
Метрики дисковых операций
| Имя Тип, единицы измерения |
Описание |
|---|---|
io.avg_read_timeDGAUGE, миллисекунды |
Среднее время чтения с дисков. |
io.avg_write_timeDGAUGE, миллисекунды |
Среднее время записи на диски. |
io.disk*.avg_read_timeDGAUGE, миллисекунды |
Среднее время чтения с конкретного диска. |
io.disk*.avg_write_timeDGAUGE, миллисекунды |
Среднее время записи на конкретный диск. |
io.disk*.read_bytesDGAUGE, байт/с |
Скорость чтения с конкретного диска. |
io.disk*.read_countDGAUGE, операций/с |
Количество операций чтения с конкретного диска в секунду. |
io.disk*.read_merged_countDGAUGE, операций/с |
Количество слитых операций чтения с конкретного диска в секунду. |
io.disk*.utilizationDGAUGE, % |
Использование конкретного диска. Не работает для сетевых дисков. |
io.disk*.write_bytesDGAUGE, байт/с |
Скорость записи на конкретный диск. |
io.disk*.write_countDGAUGE, операций/с |
Количество операций записи на конкретный диск в секунду. |
io.disk*.write_merged_countDGAUGE, операций/с |
Количество слитых операций записи на конкретный диск в секунду. |
io.read_bytesDGAUGE, байт/с |
Скорость чтения с дисков. |
io.read_countDGAUGE, операций/с |
Количество операций чтения в секунду. |
io.read_merged_countDGAUGE, операций/с |
Количество слитых операций чтения в секунду. |
io.utilizationDGAUGE, % |
Использование дисков. Не работает для сетевых дисков. |
io.write_bytesDGAUGE, байт/с |
Скорость записи на диски. |
io.write_countDGAUGE, операций/с |
Количество операций записи в секунду. |
io.write_merged_countDGAUGE, операций/с |
Количество слитых операций записи в секунду. |
Метрики RAM
| Имя Тип, единицы измерения |
Описание |
|---|---|
mem.guarantee_bytesDGAUGE, байты |
Гарантированный размер оперативной памяти. |
mem.limit_bytesDGAUGE, байты |
Предельный размер оперативной памяти. |
mem.active_bytesDGAUGE, байты |
Объем оперативной памяти, которая используется наиболее часто и освобождается только в крайнем случае. |
mem.available_bytesDGAUGE, байты |
Использование оперативной памяти, тип потребления available. |
mem.buffers_bytesDGAUGE, байты |
Использование оперативной памяти, тип потребления buffers. |
mem.cached_bytesDGAUGE, байты |
Использование оперативной памяти, тип потребления cached. |
mem.free_bytesDGAUGE, байты |
Объем свободной оперативной памяти, доступной для использования, без учета mem.buffers_bytes и mem.cached_bytes. |
mem.shared_bytesDGAUGE, байты |
Использование оперативной памяти, тип потребления shared. |
mem.total_bytesDGAUGE, байты |
Использование оперативной памяти, тип потребления total. |
mem.used_bytesDGAUGE, байты |
Объем оперативной памяти, которую в данный момент используют запущенные процессы. |
Метрики сети
| Имя Тип, единицы измерения |
Описание |
|---|---|
net.bytes_recvDGAUGE, байт/с |
Скорость получения данных по сети. |
net.bytes_sentDGAUGE, байт/с |
Скорость отправки данных по сети. |
net.dropinDGAUGE, штуки |
Количество пакетов, отброшенных при получении. |
net.dropoutDGAUGE, штуки |
Количество пакетов, отброшенных при отправке. |
net.errinDGAUGE, штуки |
Количество ошибок при получении. |
net.erroutDGAUGE, штуки |
Количество ошибок при отправке. |
net.packets_recvDGAUGE, пакетов/с |
Интенсивность получения данных по сети. |
net.packets_sentDGAUGE, пакетов/с |
Интенсивность отправки данных по сети. |
Метрики сервиса
|
Имя |
Описание |
|
|
Смена брокера-лидера за единицу времени, в норме показывает |
|
|
Число активных контроллеров. |
|
|
Количество топиков. |
|
|
Число offline-разделов. |
|
|
Показатель дисбаланса в желаемом распределении реплик, в норме показывает |
|
|
Отставание сообщений: разница между смещением и общим числом сообщений раздела. |
|
|
Текущее смещение группы потребителей в разделе. |
|
|
Первое смещение в разделе. |
|
|
Последнее смещение в разделе. |
|
|
Размер раздела на диске. |
|
|
Количество хостов в кластере. |
|
|
Показатель работоспособности брокера. Алгоритм вычисления метрики зависит от наличия высокодоступных топиков (далее HA-топиков) и состояния их лидеров партиций:
Подробнее о Принимает значение |
|
|
Число запросов в очереди. |
|
|
Число ошибок. |
|
|
Время обработки запроса брокером-лидером. |
|
|
Время преобразования формата сообщения. |
|
|
Время ожидания брокера-фолловера. |
|
|
Время ожидания в очереди запросов. |
|
|
Число запросов. |
|
|
Время ожидания в очереди на отправку ответа. |
|
|
Время отправки ответа. |
|
|
Суммарное время выполнения запроса. |
|
|
Средний показатель простоя сетевого процессора. Значения от |
|
|
Входящий размер данных. |
|
|
Исходящий размер данных. |
|
|
Число запросов, полученных с ошибкой. |
|
|
Число запросов, обработанных с ошибкой. |
|
|
Число записанных сообщений. |
|
|
Размер реплицированных данных. |
|
|
Средний показатель простоя обработчика запросов. Значения от |
|
|
Состояние брокера:
|
|
|
Максимальное отставание репликации сообщений между брокером-фолловером и брокером-лидером. |
|
|
Число разделов, где брокер является лидером. |
|
|
Количество разделов, не имеющих брокера-лидера. Такие разделы не позволяют ни запись, ни чтение сообщений. |
|
|
Число разделов для брокера. |
|
|
Число разделов в процессе смены лидера. |
|
|
Количество разделов, у которых число синхронизированных реплик меньше минимального допустимого значения, указанного в настройках. |
|
|
Количество разделов, у которых число синхронизированных реплик (in-sync replicas, ISR) меньше фактора репликации. |
|
|
Задержка запросов в ZooKeeper. |
|
|
Количество активных шардов. |
|
|
Наибольшее смещение для раздела. |
|
|
Наименьшее смещение для раздела. |
Примечание
В этом разделе приведены только основные метрики Managed Service for Apache Kafka®, поставляемые в Monitoring. Подробнее обо всех метриках Managed Service for Apache Kafka® можно посмотреть в официальной документации
Прочие метрики
|
Имя |
Описание |
|
|
Показатель доступности хоста на чтение. Алгоритм вычисления метрики зависит от наличия высокодоступных топиков (далее HA-топиков) и состояния их лидеров партиций:
Принимает значение |
|
|
Показатель доступности хоста на запись. Алгоритм вычисления метрики зависит от наличия высокодоступных топиков (далее HA-топиков) и состояния их лидеров партиций:
Подробнее о Дополнительно проверяется наличие свободного места в хранилище. Оно должно быть более 5%. При недостатке места хост недоступен на запись. Принимает значение |