Мониторинг состояния кластера, хостов и шардов в Yandex Managed Service for Valkey™
Данные о состоянии кластера и его хостов доступны в консоли управления
Диагностическая информация о состоянии кластера представлена в виде графиков.
Период обновления графиков:
- Для хостов стандартной конфигурации и хостов с увеличенным соотношением количества гигабайт RAM к количеству vCPU (
memory-optimized): 15 секунд. - Для хостов с гарантированной долей vCPU ниже 100% (
burstable): 150 секунд.
Примечание
На графиках автоматически применяются наиболее подходящие кратные единицы измерения (мегабайты, гигабайты и т. д.).
Вы можете настроить алерты в сервисе Yandex Monitoring для получения уведомлений о сбоях в работе кластера. В Yandex Monitoring используются два порога срабатывания алерта: Warning и Alarm. При превышении заданного порога вы получите оповещения через настроенные каналы уведомлений.
Мониторинг состояния кластера
Для просмотра детальной информации о состоянии кластера Yandex Managed Service for Valkey™:
-
В консоли управления
перейдите в каталог с нужным кластером. -
Перейдите в сервис Yandex Managed Service for Valkey™.
-
Нажмите на имя нужного кластера и выберите вкладку Мониторинг.
На открывшейся странице будут отображены графики, отражающие состояние кластера.
Чтобы перейти к работе с метриками, дашбордами или алертами в сервисе Yandex Monitoring, нажмите кнопку Открыть в Monitoring на панели сверху.
Для кластера отображаются графики:
- Hosts available for read — доступность хостов кластера для чтения.
- Hosts available for write — доступность хостов кластера для записи.
В блоке Traffic:
-
Connected Clients — количество открытых подключений к сервисам на хостах кластера.
Если кластер шардированный или использует репликацию, часть подключений будет использована для обмена данными между хостами кластера.
Если при подключении к кластеру возникают ошибки, причиной могут быть неактивные приложения, которые слишком долго держат подключения открытыми. В этом случае измените в настройках Valkey™ значение параметра Timeout. -
Commands Processed — скорость обработки команд на каждом хосте кластера.
-
Commandstats — скорость вызова команд на каждом хосте кластера.
В блоке Latency:
- Latencystats, p50 — медианное время выполнения команд.
- Latencystats, p99 — время выполнения команд в 99 процентиле.
- Latencystats, p99.9 — время выполнения команд в 99.9 процентиле.
В блоке DB Metrics:
- DB keys — количество ключей на каждом хосте кластера.
- Evicted keys — количество ключей, удаленных из памяти при вставке новых данных. Информация отображается для каждого хоста кластера.
- Cache Hit Rate — процент запросов, данные для которых были получены из кеша. Информация отображается для каждого хоста кластера.
- Replication Lag — отставание реплики от мастера (в секундах).
- IO threads active — количество активных потоков на каждом хосте кластера.
- Valkey-server OOM kills (for last hour) — количество ошибок
Out of Memoryна каждом хосте кластера.
В блоке Resources → Memory:
- Outer memory limit — лимит и использование оперативной памяти процессами на каждом хосте кластера.
- Inner Memory limit — лимит и использование оперативной памяти на каждом хосте кластера.
- Memory fragmentation ratio — соотношение выделенной к фактически используемой памяти на каждом хосте кластера.
- Valkey Used Memory on Masters — использование оперативной памяти на мастер-хостах кластера.
- Valkey Used Memory on Replicas — использование оперативной памяти на хостах-репликах кластера.
- Replication buffer size — размер используемой и доступной памяти для буфера репликации на каждом хосте кластера.
- Client recent max input buffer size — максимальный размер буфера для обслуживания входящих клиентских подключений на каждом хосте кластера.
- Client recent max output buffer size — максимальный размер буфера для обслуживания исходящих клиентских подключений на каждом хосте кластера.
- Copy-on-write allocations — объем памяти, выделяемый механизмом COW при создании дочерних процессов. Информация отображается для каждого хоста кластера.
В блоке Resources → CPU:
- CPU usage main thread — использование процессорного времени (системного и пользовательского) основным потоком на каждом хосте кластера.
- CPU usage main thread on Masters — использование процессорного времени (системного и пользовательского) основным потоком на мастер-хостах кластера.
- CPU usage main thread on Replicas — использование процессорного времени (системного и пользовательского) основным потоком на хостах-репликах кластера.
В блоке Resources → Network:
- Network usage — количество входящего и исходящего сетевого трафика на каждом хосте кластера.
- Network usage on Masters — количество входящего и исходящего сетевого трафика на мастер-хостах кластера.
- Network usage on Replicas — количество входящего и исходящего сетевого трафика на хостах-репликах кластера.
- Replication network usage — количество входящего и исходящего сетевого трафика репликации на каждом хосте кластера.
- Replication network usage on Masters — количество входящего и исходящего сетевого трафика репликации на мастер-хостах кластера.
- Replication network usage on Replicas — количество входящего и исходящего сетевого трафика репликации на хостах-репликах кластера.
В блоке Resources → Disk:
- Disk IO — скорость дисковых операций на каждом хосте кластера.
- Disk space usage percentage — процент использования дискового пространства на каждом хосте кластера.
- Disk space usage — использование дискового пространства на каждом хосте кластера.
В блоке Errors:
- Errorstats — скорость возникновения ошибочных запросов на каждом хосте кластера.
- Sentinel error replies — количество ошибочных ответов Redis Sentinel на каждом хосте кластера.
- ACL errors — скорость возникновения ошибок доступа на каждом хосте кластера.
В блоке Slowlog:
- Slowlog top operations on Master — количество записей каждой команды в Slowlog на мастер-хостах кластера.
- Slowlog top operations on Replicas — количество записей каждой команды в Slowlog на хостах-репликах кластера.
- Slowlog new records — количество новых записей в Slowlog на каждом хосте кластера.
Мониторинг состояния хостов
Для просмотра детальной информации о состоянии отдельных хостов Yandex Managed Service for Valkey™:
- В консоли управления
перейдите в каталог с нужным кластером. - Перейдите в сервис Yandex Managed Service for Valkey™.
- Нажмите на имя нужного кластера и выберите вкладку Хосты → Мониторинги.
- Выберите нужный хост из выпадающего списка.
На этой странице выводятся графики, показывающие нагрузку на отдельный хост кластера:
- CPU usage — загрузка процессорных ядер. При повышении нагрузки значение
idleуменьшается. - Disk read/write bytes — скорость дисковых операций (байт/с).
- Disk IOPS — интенсивность дисковых операций (операций/с).
- Disk space usage — объем занятого и общего места на диске.
- Memory usage — использование оперативной памяти (в байтах). При высоких нагрузках значение параметра
Freeуменьшается, а значения остальных — растут. - Network bytes — скорость обмена данными по сети (байт/с).
- Network packets — интенсивность обмена данными по сети (пакетов/с).
На графиках Disk read/write bytes и Disk IOPS характеристика Read растет при активном чтении из базы данных, а Write — при записи в нее.
Для хостов с ролью Replica нормально преобладание Received над Sent на графиках Network bytes и Network packets.
Мониторинг состояния шардов
Для просмотра детальной информации о состоянии шардов Yandex Managed Service for Valkey™:
-
В консоли управления
перейдите в каталог с нужным кластером. -
Перейдите в сервис Yandex Managed Service for Valkey™.
-
Нажмите на имя нужного кластера и выберите вкладку Мониторинг.
-
Перейдите на вкладку Шарды и выберите шард.
На открывшейся странице будут отображены графики, отражающие состояние выбранного шарда и его хостов.
Чтобы перейти к работе с метриками, дашбордами или алертами в сервисе Yandex Monitoring, нажмите кнопку Открыть в Monitoring на панели сверху.
Для шардов отображаются графики:
- Hosts available for read — доступность хостов шарда для чтения.
- Hosts available for write — доступность хостов шарда для записи.
В блоке Traffic:
-
Connected Clients — количество открытых подключений к сервисам на хостах шарда.
Если кластер шардированный или использует репликацию, часть подключений будет использована для обмена данными между хостами кластера.
Если при подключении к кластеру возникают ошибки, причиной могут быть неактивные приложения, которые слишком долго держат подключения открытыми. В этом случае измените в настройках Valkey™ значение параметра Timeout. -
Commands Processed — скорость обработки команд на каждом хосте шарда.
-
Commandstats — скорость вызова команд на каждом хосте шарда.
В блоке Latency:
- Latencystats, p50 — медианное время выполнения команд на шарде.
- Latencystats, p99 — время выполнения команд в 99 процентиле на шарде.
- Latencystats, p99.9 — время выполнения команд в 99.9 процентиле на шарде.
В блоке DB Metrics:
- DB keys — количество ключей на каждом хосте шарда.
- Evicted keys — количество ключей, удаленных из памяти при вставке новых данных. Информация отображается для каждого хоста шарда.
- Cache Hit Rate — процент запросов, данные для которых были получены из кеша. Информация отображается для каждого хоста шарда.
- Replication Lag — отставание реплики от мастера (в секундах).
- IO threads active — количество активных потоков на каждом хосте шарда.
- Valkey-server OOM kills (for last hour) — количество ошибок
Out of Memoryна каждом хосте шарда.
В блоке Resources → Memory:
- Outer memory limit — лимит и использование оперативной памяти процессами на каждом хосте шарда.
- Inner Memory limit — лимит и использование оперативной памяти на каждом хосте шарда.
- Memory fragmentation ratio — соотношение выделенной к фактически используемой памяти на каждом хосте шарда.
- Valkey Used Memory on Masters — использование оперативной памяти на мастер-хостах шарда.
- Valkey Used Memory on Replicas — использование оперативной памяти на хостах-репликах шарда.
- Replication buffer size — размер используемой и доступной памяти для буфера репликации на каждом хосте шарда.
- Client recent max input buffer size — максимальный размер буфера для обслуживания входящих клиентских подключений на каждом хосте шарда.
- Client recent max output buffer size — максимальный размер буфера для обслуживания исходящих клиентских подключений на каждом хосте шарда.
- Copy-on-write allocations — объем памяти, выделяемый механизмом COW при создании дочерних процессов. Информация отображается для каждого хоста шарда.
В блоке Resources → CPU:
- CPU usage main thread — использование процессорного времени (системного и пользовательского) основным потоком на каждом хосте шарда.
- CPU usage main thread on Masters — использование процессорного времени (системного и пользовательского) основным потоком на мастер-хостах шарда.
- CPU usage main thread on Replicas — использование процессорного времени (системного и пользовательского) основным потоком на хостах-репликах шарда.
В блоке Resources → Network:
- Network usage — количество входящего и исходящего сетевого трафика на каждом хосте шарда.
- Network usage on Masters — количество входящего и исходящего сетевого трафика на мастер-хостах шарда.
- Network usage on Replicas — количество входящего и исходящего сетевого трафика на хостах-репликах шарда.
- Replication network usage — количество входящего и исходящего сетевого трафика репликации на каждом хосте шарда.
- Replication network usage on Masters — количество входящего и исходящего сетевого трафика репликации на мастер-хостах шарда.
- Replication network usage on Replicas — количество входящего и исходящего сетевого трафика репликации на хостах-репликах шарда.
В блоке Resources → Disk:
- Disk IO — скорость дисковых операций на каждом хосте шарда.
- Disk space usage percentage — процент использования дискового пространства на каждом хосте шарда.
- Disk space usage — использование дискового пространства на каждом хосте шарда.
В блоке Errors:
- Errorstats — скорость возникновения ошибочных запросов на каждом хосте шарда.
- Sentinel error replies — количество ошибочных ответов Redis Sentinel на каждом хосте шарда.
- ACL errors — скорость возникновения ошибок доступа на каждом хосте шарда.
В блоке Slowlog:
- Slowlog top operations on Master — количество записей каждой команды в Slowlog на мастер-хостах шарда.
- Slowlog top operations on Replicas — количество записей каждой команды в Slowlog на хостах-репликах шарда.
- Slowlog new records — количество новых записей в Slowlog на каждом хосте шарда.
Настройка алертов в Yandex Monitoring
Чтобы настроить алерты показателей состояния кластера и хостов:
- В консоли управления
выберите каталог с кластером, для которого нужно настроить алерты. - Перейдите в сервис
Monitoring. - В блоке Сервисные дашборды выберите:
- Yandex Managed Service for Valkey™ — Cluster Overview для настройки алертов кластера;
- Yandex Managed Service for Valkey™ — Host Overview для настройки алертов хостов.
- На нужном графике нажмите на значок
и выберите пункт Создать алерт. - Если на графике несколько показателей, выберите запрос данных для формирования метрики и нажмите Продолжить. Подробнее о языке запросов см. документацию Yandex Monitoring.
- Задайте значения порогов
AlarmиWarningдля срабатывания алерта. - Нажмите кнопку Создать алерт.
Чтобы настроить автоматический мониторинг других показателей состояния кластера:
- Создайте алерт.
- Добавьте метрику состояния.
- В параметрах алерта задайте значения порогов для оповещения.
Рекомендуемые значения порогов для некоторых метрик:
| Метрика | Обозначение | Alarm |
Warning |
|---|---|---|---|
| Доступность БД на запись | can_write |
Равно 0 |
— |
| Количество ошибок Out of Memory, за час | redis_oom_count |
Больше 2 |
Больше 0 |
| Утилизация RAM (только для политики noeviction) | redis_used_memory |
90% от объема RAM | 75% от объема RAM |
| Размер использованного хранилища | disk.used_bytes |
90% от размера хранилища | 80% от размера хранилища |
Для метрики disk.used_bytes значения порогов Alarm и Warning задаются только в байтах. Например, рекомендуемые значения для диска размером в 100 ГБ:
Alarm—96636764160байтов (90%).Warning—85899345920байтов (80%).
Текущий объем RAM на хостах можно посмотреть в детальной информации о кластере. Полный список поддерживаемых метрик см. в документации Monitoring.
Состояние и статус кластера
Состояние кластера указывает на исправность его хостов, а Статус показывает, запущен кластер, остановлен или находится в промежуточном состоянии.
Для просмотра состояния и статуса кластера:
- В консоли управления
перейдите в каталог с нужным кластером. - Перейдите в сервис Yandex Managed Service for Valkey™.
- Наведите курсор на индикатор в столбце Доступность в строке нужного кластера.
Состояния кластера
| Состояние | Описание | Предлагаемые действия |
|---|---|---|
| ALIVE | Кластер работает в штатном режиме. | Действий не требуется. |
| DEGRADED | Кластер работает не на полную мощность: минимум один из хостов имеет состояние, отличное от ALIVE. |
Выполните диагностику:
|
| DEAD | Кластер неработоспособен: ни один его хост не работает. | Составьте обращение в службу поддержки
|
| UNKNOWN | Состояние кластера неизвестно. | Составьте обращение в службу поддержки
|
Статусы кластера
| Статус | Описание | Предлагаемые действия |
|---|---|---|
| CREATING | Идет подготовка к первому запуску | Подождите немного и приступайте к работе. Время создания кластера зависит от класса хостов. |
| RUNNING | Кластер работает в штатном режиме | Действий не требуется. |
| STOPPING | Кластер останавливается | Через некоторое время кластеру будет присвоен статус STOPPED, и он будет выведен из работы. Действий не требуется. |
| STOPPED | Кластер остановлен | Запустите кластер, чтобы вернуть его в работу. |
| STARTING | Остановленный ранее кластер запускается | Через некоторое время кластеру будет присвоен статус RUNNING. Подождите немного и приступайте к работе. |
| UPDATING | Обновляется конфигурация кластера | По завершении обновления кластеру будет присвоен статус, который был до обновления: RUNNING или STOPPED. |
| ERROR | Произошла ошибка при выполнении операции с кластером или во время окна технического обслуживания | Если кластер долго находится в этом статусе, обратитесь в службу поддержки |
| STATUS_UNKNOWN | Кластер не может определить свой статус | Если кластер долго находится в этом статусе, обратитесь в службу поддержки |