Мониторинг состояния кластера, хостов и шардов в Yandex Managed Service for Valkey™

Статья создана

Обновлена 18 июня 2026 г.

Мониторинг состояния кластера
Мониторинг состояния хостов
Мониторинг состояния шардов
Настройка алертов в Yandex Monitoring
Состояние и статус кластера
- Состояния кластера
- Статусы кластера

Данные о состоянии кластера и его хостов доступны в консоли управления. Их можно посмотреть на вкладке Мониторинг страницы управления кластером или в сервисе Yandex Monitoring.

Диагностическая информация о состоянии кластера представлена в виде графиков.

Период обновления графиков:

Для хостов стандартной конфигурации и хостов с увеличенным соотношением количества гигабайт RAM к количеству vCPU (memory-optimized): 15 секунд.
Для хостов с гарантированной долей vCPU ниже 100% (burstable): 150 секунд.

Примечание

На графиках автоматически применяются наиболее подходящие кратные единицы измерения (мегабайты, гигабайты и т. д.).

Вы можете настроить алерты в сервисе Yandex Monitoring для получения уведомлений о сбоях в работе кластера. В Yandex Monitoring используются два порога срабатывания алерта: Warning и Alarm. При превышении заданного порога вы получите оповещения через настроенные каналы уведомлений.

Мониторинг состояния кластера

Для просмотра детальной информации о состоянии кластера Yandex Managed Service for Valkey™:

Консоль управления

В консоли управления перейдите в каталог с нужным кластером.
Перейдите в сервис Yandex Managed Service for Valkey™.
Нажмите на имя нужного кластера и выберите вкладку Мониторинг.

На открывшейся странице будут отображены графики, отражающие состояние кластера.

Чтобы перейти к работе с метриками, дашбордами или алертами в сервисе Yandex Monitoring, нажмите кнопку Открыть в Monium на панели сверху.

Для кластера отображаются графики:

Hosts available for read — доступность хостов кластера для чтения.
Hosts available for write — доступность хостов кластера для записи.

В блоке Traffic:

Connected Clients — количество открытых подключений к сервисам на хостах кластера.

Если кластер шардированный или использует репликацию, часть подключений будет использована для обмена данными между хостами кластера.
Если при подключении к кластеру возникают ошибки, причиной могут быть неактивные приложения, которые слишком долго держат подключения открытыми. В этом случае измените в настройках Valkey™ значение параметра Timeout.
Commands Processed — скорость обработки команд на каждом хосте кластера.
Commandstats — скорость вызова команд на каждом хосте кластера.

В блоке Latency:

Latencystats, p50 — медианное время выполнения команд.
Latencystats, p99 — время выполнения команд в 99 процентиле.
Latencystats, p99.9 — время выполнения команд в 99.9 процентиле.

В блоке DB Metrics:

DB keys — количество ключей на каждом хосте кластера.
Evicted keys — количество ключей, удаленных из памяти при вставке новых данных. Информация отображается для каждого хоста кластера.
Cache Hit Rate — процент запросов, данные для которых были получены из кеша. Информация отображается для каждого хоста кластера.
Replication Lag — отставание реплики от мастера (в секундах).
IO threads active — количество активных потоков на каждом хосте кластера.
Valkey-server OOM kills (for last hour) — количество ошибок Out of Memory на каждом хосте кластера.

В блоке Resources → Memory:

Outer memory limit — лимит и использование оперативной памяти процессами на каждом хосте кластера.
Inner Memory limit — лимит и использование оперативной памяти на каждом хосте кластера.
Memory fragmentation ratio — соотношение выделенной к фактически используемой памяти на каждом хосте кластера.
Valkey Used Memory on Masters — использование оперативной памяти на хостах-мастерах кластера.
Valkey Used Memory on Replicas — использование оперативной памяти на хостах-репликах кластера.
Replication buffer size — размер используемой и доступной памяти для буфера репликации на каждом хосте кластера.
Client recent max input buffer size — максимальный размер буфера для обслуживания входящих клиентских подключений на каждом хосте кластера.
Client recent max output buffer size — максимальный размер буфера для обслуживания исходящих клиентских подключений на каждом хосте кластера.
Copy-on-write allocations — объем памяти, выделяемый механизмом COW при создании дочерних процессов. Информация отображается для каждого хоста кластера.

В блоке Resources → CPU:

CPU usage main thread — использование процессорного времени (системного и пользовательского) основным потоком на каждом хосте кластера.
CPU usage main thread on Masters — использование процессорного времени (системного и пользовательского) основным потоком на хостах-мастерах кластера.
CPU usage main thread on Replicas — использование процессорного времени (системного и пользовательского) основным потоком на хостах-репликах кластера.

В блоке Resources → Network:

Network usage — количество входящего и исходящего сетевого трафика на каждом хосте кластера.
Network usage on Masters — количество входящего и исходящего сетевого трафика на хостах-мастерах кластера.
Network usage on Replicas — количество входящего и исходящего сетевого трафика на хостах-репликах кластера.
Replication network usage — количество входящего и исходящего сетевого трафика репликации на каждом хосте кластера.
Replication network usage on Masters — количество входящего и исходящего сетевого трафика репликации на хостах-мастерах кластера.
Replication network usage on Replicas — количество входящего и исходящего сетевого трафика репликации на хостах-репликах кластера.

В блоке Resources → Disk:

Disk IO — скорость дисковых операций на каждом хосте кластера.
Disk space usage percentage — процент использования дискового пространства на каждом хосте кластера.
Disk space usage — использование дискового пространства на каждом хосте кластера.

В блоке Errors:

Errorstats — скорость возникновения ошибочных запросов на каждом хосте кластера.
Sentinel error replies — количество ошибочных ответов Redis Sentinel на каждом хосте кластера.
ACL errors — скорость возникновения ошибок доступа на каждом хосте кластера.

В блоке Slowlog:

Slowlog top operations on Master — количество записей каждой команды в Slowlog на хостах-мастерах кластера.
Slowlog top operations on Replicas — количество записей каждой команды в Slowlog на хостах-репликах кластера.
Slowlog new records — количество новых записей в Slowlog на каждом хосте кластера.

Мониторинг состояния хостов

Для просмотра детальной информации о состоянии отдельных хостов Yandex Managed Service for Valkey™:

Консоль управления

В консоли управления перейдите в каталог с нужным кластером.
Перейдите в сервис Yandex Managed Service for Valkey™.
Нажмите на имя нужного кластера и выберите вкладку Хосты → Мониторинги.
Выберите нужный хост из выпадающего списка.

На этой странице выводятся графики, показывающие нагрузку на отдельный хост кластера:

CPU usage — загрузка процессорных ядер. При повышении нагрузки значение idle уменьшается.
Memory usage — использование оперативной памяти (в байтах). При высоких нагрузках значение параметра Free уменьшается, а значения остальных — растут.
Disk IOPS — количество дисковых операций в секунду. Характеристика Read растет при активном чтении из базы данных, а Write — при записи в нее.
Network bytes — скорость обмена данными по сети (байт/с). Для хостов с ролью Replica нормально преобладание Received над Sent.
Network packets — интенсивность обмена данными по сети (пакетов/с). Для хостов с ролью Replica нормально преобладание Received над Sent.
Disk space usage — объем занятого и общего места на диске.

В блоке Disk Metrics Details:

Disk write latency (percentiles) — задержка записи на диск по процентилям.
Disk write bytes — средняя и максимальная скорость записи на диск (байт/с).
Disk write operations — среднее и максимальное количество операций записи в секунду.
Disk read latency (percentiles) — задержка чтения с диска по процентилям.
Disk read bytes — средняя и максимальная скорость чтения с диска (байт/с).
Disk read operations — среднее и максимальное количество операций чтения в секунду.
Disk write throttler latency (percentiles) — задержка записи, внесенная при превышении квоты диска, по процентилям.
Disk read throttler latency (percentiles) — задержка чтения, внесенная при превышении квоты диска, по процентилям.
Disk used quota — средний и максимальный процент использования квоты для дисковых операций.

Мониторинг состояния шардов

Для просмотра детальной информации о состоянии шардов Yandex Managed Service for Valkey™:

Консоль управления

В консоли управления перейдите в каталог с нужным кластером.
Перейдите в сервис Yandex Managed Service for Valkey™.
Нажмите на имя нужного кластера и выберите вкладку Мониторинг.
Перейдите на вкладку Шарды и выберите шард.

На открывшейся странице будут отображены графики, отражающие состояние выбранного шарда и его хостов.

Чтобы перейти к работе с метриками, дашбордами или алертами в сервисе Yandex Monitoring, нажмите кнопку Открыть в Monium на панели сверху.

Для шардов отображаются графики:

Hosts available for read — доступность хостов шарда для чтения.
Hosts available for write — доступность хостов шарда для записи.

В блоке Traffic:

Connected Clients — количество открытых подключений к сервисам на хостах шарда.

Если кластер шардированный или использует репликацию, часть подключений будет использована для обмена данными между хостами кластера.
Если при подключении к кластеру возникают ошибки, причиной могут быть неактивные приложения, которые слишком долго держат подключения открытыми. В этом случае измените в настройках Valkey™ значение параметра Timeout.
Commands Processed — скорость обработки команд на каждом хосте шарда.
Commandstats — скорость вызова команд на каждом хосте шарда.

В блоке Latency:

Latencystats, p50 — медианное время выполнения команд на шарде.
Latencystats, p99 — время выполнения команд в 99 процентиле на шарде.
Latencystats, p99.9 — время выполнения команд в 99.9 процентиле на шарде.

В блоке DB Metrics:

DB keys — количество ключей на каждом хосте шарда.
Evicted keys — количество ключей, удаленных из памяти при вставке новых данных. Информация отображается для каждого хоста шарда.
Cache Hit Rate — процент запросов, данные для которых были получены из кеша. Информация отображается для каждого хоста шарда.
Replication Lag — отставание реплики от мастера (в секундах).
IO threads active — количество активных потоков на каждом хосте шарда.
Valkey-server OOM kills (for last hour) — количество ошибок Out of Memory на каждом хосте шарда.

В блоке Resources → Memory:

Outer memory limit — лимит и использование оперативной памяти процессами на каждом хосте шарда.
Inner Memory limit — лимит и использование оперативной памяти на каждом хосте шарда.
Memory fragmentation ratio — соотношение выделенной к фактически используемой памяти на каждом хосте шарда.
Valkey Used Memory on Masters — использование оперативной памяти на хостах-мастерах шарда.
Valkey Used Memory on Replicas — использование оперативной памяти на хостах-репликах шарда.
Replication buffer size — размер используемой и доступной памяти для буфера репликации на каждом хосте шарда.
Client recent max input buffer size — максимальный размер буфера для обслуживания входящих клиентских подключений на каждом хосте шарда.
Client recent max output buffer size — максимальный размер буфера для обслуживания исходящих клиентских подключений на каждом хосте шарда.
Copy-on-write allocations — объем памяти, выделяемый механизмом COW при создании дочерних процессов. Информация отображается для каждого хоста шарда.

В блоке Resources → CPU:

CPU usage main thread — использование процессорного времени (системного и пользовательского) основным потоком на каждом хосте шарда.
CPU usage main thread on Masters — использование процессорного времени (системного и пользовательского) основным потоком на хостах-мастерах шарда.
CPU usage main thread on Replicas — использование процессорного времени (системного и пользовательского) основным потоком на хостах-репликах шарда.

В блоке Resources → Network:

Network usage — количество входящего и исходящего сетевого трафика на каждом хосте шарда.
Network usage on Masters — количество входящего и исходящего сетевого трафика на хостах-мастерах шарда.
Network usage on Replicas — количество входящего и исходящего сетевого трафика на хостах-репликах шарда.
Replication network usage — количество входящего и исходящего сетевого трафика репликации на каждом хосте шарда.
Replication network usage on Masters — количество входящего и исходящего сетевого трафика репликации на хостах-мастерах шарда.
Replication network usage on Replicas — количество входящего и исходящего сетевого трафика репликации на хостах-репликах шарда.

В блоке Resources → Disk:

Disk IO — скорость дисковых операций на каждом хосте шарда.
Disk space usage percentage — процент использования дискового пространства на каждом хосте шарда.
Disk space usage — использование дискового пространства на каждом хосте шарда.

В блоке Errors:

Errorstats — скорость возникновения ошибочных запросов на каждом хосте шарда.
Sentinel error replies — количество ошибочных ответов Redis Sentinel на каждом хосте шарда.
ACL errors — скорость возникновения ошибок доступа на каждом хосте шарда.

В блоке Slowlog:

Slowlog top operations on Master — количество записей каждой команды в Slowlog на хостах-мастерах шарда.
Slowlog top operations on Replicas — количество записей каждой команды в Slowlog на хостах-репликах шарда.
Slowlog new records — количество новых записей в Slowlog на каждом хосте шарда.

Настройка алертов в Yandex Monitoring

Чтобы настроить алерты показателей состояния кластера и хостов:

Консоль управления

В консоли управления выберите каталог с кластером, для которого нужно настроить алерты.
Перейдите в сервис Monitoring.
В блоке Сервисные дашборды выберите:
- Yandex Managed Service for Valkey™ — Cluster Overview для настройки алертов кластера;
- Yandex Managed Service for Valkey™ — Host Overview для настройки алертов хостов.
На нужном графике нажмите на значок и выберите пункт Создать алерт.
Если на графике несколько показателей, выберите запрос данных для формирования метрики и нажмите Продолжить. Подробнее о языке запросов в документации Yandex Monitoring.
Задайте значения порогов Alarm и Warning для срабатывания алерта.
Нажмите кнопку Создать алерт.

Чтобы настроить автоматический мониторинг других показателей состояния кластера:

Консоль управления

Создайте алерт.
Добавьте метрику состояния.
В параметрах алерта задайте значения порогов для оповещения.

Рекомендуемые значения порогов для некоторых метрик:

Метрика	Обозначение	`Alarm`	`Warning`
Доступность БД на запись	`can_write`	`Равно 0`	—
Количество ошибок Out of Memory, за час	`redis_oom_count`	`Больше 2`	`Больше 0`
Утилизация RAM (только для политики noeviction)	`redis_used_memory`	90% от объема RAM	75% от объема RAM
Размер использованного хранилища	`disk.used_bytes`	90% от размера хранилища	80% от размера хранилища

Для метрики disk.used_bytes значения порогов Alarm и Warning задаются только в байтах. Например, рекомендуемые значения для диска размером в 100 ГБ:

Alarm — 96636764160 байтов (90%).
Warning — 85899345920 байтов (80%).

Текущий объем RAM на хостах можно посмотреть в детальной информации о кластере. Полный Список поддерживаемых метрик приведен в документации Monitoring.

Состояние и статус кластера

Состояние кластера указывает на исправность его хостов, а Статус показывает, запущен кластер, остановлен или находится в промежуточном состоянии.

Для просмотра состояния и статуса кластера:

Консоль управления

В консоли управления перейдите в каталог с нужным кластером.
Перейдите в сервис Yandex Managed Service for Valkey™.
Наведите курсор на индикатор в столбце Доступность в строке нужного кластера.

Состояния кластера

Состояние	Описание	Предлагаемые действия
ALIVE	Кластер работает в штатном режиме.	Действий не требуется.
DEGRADED	Кластер работает не на полную мощность: минимум один из хостов имеет состояние, отличное от `ALIVE`.	Выполните диагностику: Перейдите на вкладку Хосты и посмотрите, какие из них в нерабочем состоянии. Перейдите на вкладку Операции и убедитесь, что все операции завершились. Убедитесь, что кластер не находится в процессе технического обслуживания. Если причины не удалось выяснить самостоятельно, обратитесь в службу поддержки.
DEAD	Кластер неработоспособен: ни один его хост не работает.	Составьте обращение в службу поддержки, указав: Идентификатор кластера. Идентификаторы последних операций, которые на нем выполнялись. Время по графикам доступности, когда кластер перешел в состояние `DEAD`.
UNKNOWN	Состояние кластера неизвестно.	Составьте обращение в службу поддержки, указав: Идентификатор кластера. Идентификаторы последних операций, которые на нем выполнялись. Время по графикам доступности, когда кластер перешел в состояние `UNKNOWN`.

Статусы кластера

Статус	Описание	Предлагаемые действия
CREATING	Идет подготовка к первому запуску	Подождите немного и приступайте к работе. Время создания кластера зависит от класса хостов.
RUNNING	Кластер работает в штатном режиме	Действий не требуется.
STOPPING	Кластер останавливается	Через некоторое время кластеру будет присвоен статус `STOPPED`, и он будет выведен из работы. Действий не требуется.
STOPPED	Кластер остановлен	Запустите кластер, чтобы вернуть его в работу.
STARTING	Остановленный ранее кластер запускается	Через некоторое время кластеру будет присвоен статус `RUNNING`. Подождите немного и приступайте к работе.
UPDATING	Обновляется конфигурация кластера	По завершении обновления кластеру будет присвоен статус, который был до обновления: `RUNNING` или `STOPPED`.
ERROR	Произошла ошибка при выполнении операции с кластером или во время окна технического обслуживания	Если кластер долго находится в этом статусе, обратитесь в службу поддержки. Доступность кластера можно определить по его состоянию.
STATUS_UNKNOWN	Кластер не может определить свой статус	Если кластер долго находится в этом статусе, обратитесь в службу поддержки.

Мониторинг состояния кластера, хостов и шардов в Yandex Managed Service for Valkey™

Мониторинг состояния кластераМониторинг состояния кластера

Мониторинг состояния хостовМониторинг состояния хостов

Мониторинг состояния шардовМониторинг состояния шардов

Настройка алертов в Yandex MonitoringНастройка алертов в Yandex Monitoring

Состояние и статус кластераСостояние и статус кластера

Состояния кластераСостояния кластера

Статусы кластераСтатусы кластера

Была ли статья полезна?

Мониторинг состояния кластера

Мониторинг состояния хостов

Мониторинг состояния шардов

Настройка алертов в Yandex Monitoring

Состояние и статус кластера

Состояния кластера

Статусы кластера