Yandex Cloud
Поиск
Связаться с экспертомПопробовать бесплатно
  • Кейсы
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
  • Marketplace
    • Популярные
    • Инфраструктура и сеть
    • Платформа данных
    • Искусственный интеллект
    • Безопасность
    • Инструменты DevOps
    • Бессерверные вычисления
    • Управление ресурсами
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Облако для интеграторов
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Контент-программа
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Калькулятор цен
    • Тарифы
    • Акции и free tier
  • Кейсы
  • Документация
  • Блог
Создавайте контент и получайте гранты!Готовы написать своё руководство? Участвуйте в контент-программе и получайте гранты на работу с облачными сервисами!
Подробнее о программе
Проект Яндекса
© 2026 ООО «Яндекс.Облако»
Yandex Managed Service for Valkey™
  • Начало работы
    • Все инструкции
      • Просмотр логов кластера
      • Мониторинг состояния кластера, хостов и шардов
  • Управление доступом
  • Правила тарификации
  • Справочник Terraform
  • Метрики Monitoring
  • Аудитные логи Audit Trails
  • Публичные материалы
  • История изменений
  • Вопросы и ответы

В этой статье:

  • Мониторинг состояния кластера
  • Мониторинг состояния хостов
  • Мониторинг состояния шардов
  • Настройка алертов в Yandex Monitoring
  • Состояние и статус кластера
  • Состояния кластера
  • Статусы кластера
  1. Пошаговые инструкции
  2. Логи и мониторинг
  3. Мониторинг состояния кластера, хостов и шардов

Мониторинг состояния кластера, хостов и шардов в Yandex Managed Service for Valkey™

Статья создана
Yandex Cloud
Обновлена 2 марта 2026 г.
  • Мониторинг состояния кластера
  • Мониторинг состояния хостов
  • Мониторинг состояния шардов
  • Настройка алертов в Yandex Monitoring
  • Состояние и статус кластера
    • Состояния кластера
    • Статусы кластера

Данные о состоянии кластера и его хостов доступны в консоли управления. Их можно посмотреть на вкладке Мониторинг страницы управления кластером или в сервисе Yandex Monitoring.

Диагностическая информация о состоянии кластера представлена в виде графиков.

Период обновления графиков:

  • Для хостов стандартной конфигурации и хостов с увеличенным соотношением количества гигабайт RAM к количеству vCPU (memory-optimized): 15 секунд.
  • Для хостов с гарантированной долей vCPU ниже 100% (burstable): 150 секунд.

Примечание

На графиках автоматически применяются наиболее подходящие кратные единицы измерения (мегабайты, гигабайты и т. д.).

Вы можете настроить алерты в сервисе Yandex Monitoring для получения уведомлений о сбоях в работе кластера. В Yandex Monitoring используются два порога срабатывания алерта: Warning и Alarm. При превышении заданного порога вы получите оповещения через настроенные каналы уведомлений.

Мониторинг состояния кластераМониторинг состояния кластера

Для просмотра детальной информации о состоянии кластера Yandex Managed Service for Valkey™:

Консоль управления
  1. В консоли управления перейдите в каталог с нужным кластером.

  2. Перейдите в сервис Yandex Managed Service for Valkey™.

  3. Нажмите на имя нужного кластера и выберите вкладку Мониторинг.

    На открывшейся странице будут отображены графики, отражающие состояние кластера.

    Чтобы перейти к работе с метриками, дашбордами или алертами в сервисе Yandex Monitoring, нажмите кнопку Открыть в Monitoring на панели сверху.

Для кластера отображаются графики:

  • Hosts available for read — доступность хостов кластера для чтения.
  • Hosts available for write — доступность хостов кластера для записи.

В блоке Traffic:

  • Connected Clients — количество открытых подключений к сервисам на хостах кластера.

    Если кластер шардированный или использует репликацию, часть подключений будет использована для обмена данными между хостами кластера.
    Если при подключении к кластеру возникают ошибки, причиной могут быть неактивные приложения, которые слишком долго держат подключения открытыми. В этом случае измените в настройках Valkey™ значение параметра Timeout.

  • Commands Processed — скорость обработки команд на каждом хосте кластера.

  • Commandstats — скорость вызова команд на каждом хосте кластера.

В блоке Latency:

  • Latencystats, p50 — медианное время выполнения команд.
  • Latencystats, p99 — время выполнения команд в 99 процентиле.
  • Latencystats, p99.9 — время выполнения команд в 99.9 процентиле.

В блоке DB Metrics:

  • DB keys — количество ключей на каждом хосте кластера.
  • Evicted keys — количество ключей, удаленных из памяти при вставке новых данных. Информация отображается для каждого хоста кластера.
  • Cache Hit Rate — процент запросов, данные для которых были получены из кеша. Информация отображается для каждого хоста кластера.
  • Replication Lag — отставание реплики от мастера (в секундах).
  • IO threads active — количество активных потоков на каждом хосте кластера.
  • Valkey-server OOM kills (for last hour) — количество ошибок Out of Memory на каждом хосте кластера.

В блоке Resources → Memory:

  • Outer memory limit — лимит и использование оперативной памяти процессами на каждом хосте кластера.
  • Inner Memory limit — лимит и использование оперативной памяти на каждом хосте кластера.
  • Memory fragmentation ratio — соотношение выделенной к фактически используемой памяти на каждом хосте кластера.
  • Valkey Used Memory on Masters — использование оперативной памяти на мастер-хостах кластера.
  • Valkey Used Memory on Replicas — использование оперативной памяти на хостах-репликах кластера.
  • Replication buffer size — размер используемой и доступной памяти для буфера репликации на каждом хосте кластера.
  • Client recent max input buffer size — максимальный размер буфера для обслуживания входящих клиентских подключений на каждом хосте кластера.
  • Client recent max output buffer size — максимальный размер буфера для обслуживания исходящих клиентских подключений на каждом хосте кластера.
  • Copy-on-write allocations — объем памяти, выделяемый механизмом COW при создании дочерних процессов. Информация отображается для каждого хоста кластера.

В блоке Resources → CPU:

  • CPU usage main thread — использование процессорного времени (системного и пользовательского) основным потоком на каждом хосте кластера.
  • CPU usage main thread on Masters — использование процессорного времени (системного и пользовательского) основным потоком на мастер-хостах кластера.
  • CPU usage main thread on Replicas — использование процессорного времени (системного и пользовательского) основным потоком на хостах-репликах кластера.

В блоке Resources → Network:

  • Network usage — количество входящего и исходящего сетевого трафика на каждом хосте кластера.
  • Network usage on Masters — количество входящего и исходящего сетевого трафика на мастер-хостах кластера.
  • Network usage on Replicas — количество входящего и исходящего сетевого трафика на хостах-репликах кластера.
  • Replication network usage — количество входящего и исходящего сетевого трафика репликации на каждом хосте кластера.
  • Replication network usage on Masters — количество входящего и исходящего сетевого трафика репликации на мастер-хостах кластера.
  • Replication network usage on Replicas — количество входящего и исходящего сетевого трафика репликации на хостах-репликах кластера.

В блоке Resources → Disk:

  • Disk IO — скорость дисковых операций на каждом хосте кластера.
  • Disk space usage percentage — процент использования дискового пространства на каждом хосте кластера.
  • Disk space usage — использование дискового пространства на каждом хосте кластера.

В блоке Errors:

  • Errorstats — скорость возникновения ошибочных запросов на каждом хосте кластера.
  • Sentinel error replies — количество ошибочных ответов Redis Sentinel на каждом хосте кластера.
  • ACL errors — скорость возникновения ошибок доступа на каждом хосте кластера.

В блоке Slowlog:

  • Slowlog top operations on Master — количество записей каждой команды в Slowlog на мастер-хостах кластера.
  • Slowlog top operations on Replicas — количество записей каждой команды в Slowlog на хостах-репликах кластера.
  • Slowlog new records — количество новых записей в Slowlog на каждом хосте кластера.

Мониторинг состояния хостовМониторинг состояния хостов

Для просмотра детальной информации о состоянии отдельных хостов Yandex Managed Service for Valkey™:

Консоль управления
  1. В консоли управления перейдите в каталог с нужным кластером.
  2. Перейдите в сервис Yandex Managed Service for Valkey™.
  3. Нажмите на имя нужного кластера и выберите вкладку Хосты → Мониторинги.
  4. Выберите нужный хост из выпадающего списка.

На этой странице выводятся графики, показывающие нагрузку на отдельный хост кластера:

  • CPU usage — загрузка процессорных ядер. При повышении нагрузки значение idle уменьшается.
  • Disk read/write bytes — скорость дисковых операций (байт/с).
  • Disk IOPS — интенсивность дисковых операций (операций/с).
  • Disk space usage — объем занятого и общего места на диске.
  • Memory usage — использование оперативной памяти (в байтах). При высоких нагрузках значение параметра Free уменьшается, а значения остальных — растут.
  • Network bytes — скорость обмена данными по сети (байт/с).
  • Network packets — интенсивность обмена данными по сети (пакетов/с).

На графиках Disk read/write bytes и Disk IOPS характеристика Read растет при активном чтении из базы данных, а Write — при записи в нее.

Для хостов с ролью Replica нормально преобладание Received над Sent на графиках Network bytes и Network packets.

Мониторинг состояния шардовМониторинг состояния шардов

Для просмотра детальной информации о состоянии шардов Yandex Managed Service for Valkey™:

Консоль управления
  1. В консоли управления перейдите в каталог с нужным кластером.

  2. Перейдите в сервис Yandex Managed Service for Valkey™.

  3. Нажмите на имя нужного кластера и выберите вкладку Мониторинг.

  4. Перейдите на вкладку Шарды и выберите шард.

    На открывшейся странице будут отображены графики, отражающие состояние выбранного шарда и его хостов.

    Чтобы перейти к работе с метриками, дашбордами или алертами в сервисе Yandex Monitoring, нажмите кнопку Открыть в Monitoring на панели сверху.

Для шардов отображаются графики:

  • Hosts available for read — доступность хостов шарда для чтения.
  • Hosts available for write — доступность хостов шарда для записи.

В блоке Traffic:

  • Connected Clients — количество открытых подключений к сервисам на хостах шарда.

    Если кластер шардированный или использует репликацию, часть подключений будет использована для обмена данными между хостами кластера.
    Если при подключении к кластеру возникают ошибки, причиной могут быть неактивные приложения, которые слишком долго держат подключения открытыми. В этом случае измените в настройках Valkey™ значение параметра Timeout.

  • Commands Processed — скорость обработки команд на каждом хосте шарда.

  • Commandstats — скорость вызова команд на каждом хосте шарда.

В блоке Latency:

  • Latencystats, p50 — медианное время выполнения команд на шарде.
  • Latencystats, p99 — время выполнения команд в 99 процентиле на шарде.
  • Latencystats, p99.9 — время выполнения команд в 99.9 процентиле на шарде.

В блоке DB Metrics:

  • DB keys — количество ключей на каждом хосте шарда.
  • Evicted keys — количество ключей, удаленных из памяти при вставке новых данных. Информация отображается для каждого хоста шарда.
  • Cache Hit Rate — процент запросов, данные для которых были получены из кеша. Информация отображается для каждого хоста шарда.
  • Replication Lag — отставание реплики от мастера (в секундах).
  • IO threads active — количество активных потоков на каждом хосте шарда.
  • Valkey-server OOM kills (for last hour) — количество ошибок Out of Memory на каждом хосте шарда.

В блоке Resources → Memory:

  • Outer memory limit — лимит и использование оперативной памяти процессами на каждом хосте шарда.
  • Inner Memory limit — лимит и использование оперативной памяти на каждом хосте шарда.
  • Memory fragmentation ratio — соотношение выделенной к фактически используемой памяти на каждом хосте шарда.
  • Valkey Used Memory on Masters — использование оперативной памяти на мастер-хостах шарда.
  • Valkey Used Memory on Replicas — использование оперативной памяти на хостах-репликах шарда.
  • Replication buffer size — размер используемой и доступной памяти для буфера репликации на каждом хосте шарда.
  • Client recent max input buffer size — максимальный размер буфера для обслуживания входящих клиентских подключений на каждом хосте шарда.
  • Client recent max output buffer size — максимальный размер буфера для обслуживания исходящих клиентских подключений на каждом хосте шарда.
  • Copy-on-write allocations — объем памяти, выделяемый механизмом COW при создании дочерних процессов. Информация отображается для каждого хоста шарда.

В блоке Resources → CPU:

  • CPU usage main thread — использование процессорного времени (системного и пользовательского) основным потоком на каждом хосте шарда.
  • CPU usage main thread on Masters — использование процессорного времени (системного и пользовательского) основным потоком на мастер-хостах шарда.
  • CPU usage main thread on Replicas — использование процессорного времени (системного и пользовательского) основным потоком на хостах-репликах шарда.

В блоке Resources → Network:

  • Network usage — количество входящего и исходящего сетевого трафика на каждом хосте шарда.
  • Network usage on Masters — количество входящего и исходящего сетевого трафика на мастер-хостах шарда.
  • Network usage on Replicas — количество входящего и исходящего сетевого трафика на хостах-репликах шарда.
  • Replication network usage — количество входящего и исходящего сетевого трафика репликации на каждом хосте шарда.
  • Replication network usage on Masters — количество входящего и исходящего сетевого трафика репликации на мастер-хостах шарда.
  • Replication network usage on Replicas — количество входящего и исходящего сетевого трафика репликации на хостах-репликах шарда.

В блоке Resources → Disk:

  • Disk IO — скорость дисковых операций на каждом хосте шарда.
  • Disk space usage percentage — процент использования дискового пространства на каждом хосте шарда.
  • Disk space usage — использование дискового пространства на каждом хосте шарда.

В блоке Errors:

  • Errorstats — скорость возникновения ошибочных запросов на каждом хосте шарда.
  • Sentinel error replies — количество ошибочных ответов Redis Sentinel на каждом хосте шарда.
  • ACL errors — скорость возникновения ошибок доступа на каждом хосте шарда.

В блоке Slowlog:

  • Slowlog top operations on Master — количество записей каждой команды в Slowlog на мастер-хостах шарда.
  • Slowlog top operations on Replicas — количество записей каждой команды в Slowlog на хостах-репликах шарда.
  • Slowlog new records — количество новых записей в Slowlog на каждом хосте шарда.

Настройка алертов в Yandex MonitoringНастройка алертов в Yandex Monitoring

Чтобы настроить алерты показателей состояния кластера и хостов:

Консоль управления
  1. В консоли управления выберите каталог с кластером, для которого нужно настроить алерты.
  2. Перейдите в сервис  Monitoring.
  3. В блоке Сервисные дашборды выберите:
    • Yandex Managed Service for Valkey™ — Cluster Overview для настройки алертов кластера;
    • Yandex Managed Service for Valkey™ — Host Overview для настройки алертов хостов.
  4. На нужном графике нажмите на значок и выберите пункт Создать алерт.
  5. Если на графике несколько показателей, выберите запрос данных для формирования метрики и нажмите Продолжить. Подробнее о языке запросов см. документацию Yandex Monitoring.
  6. Задайте значения порогов Alarm и Warning для срабатывания алерта.
  7. Нажмите кнопку Создать алерт.

Чтобы настроить автоматический мониторинг других показателей состояния кластера:

Консоль управления
  1. Создайте алерт.
  2. Добавьте метрику состояния.
  3. В параметрах алерта задайте значения порогов для оповещения.

Рекомендуемые значения порогов для некоторых метрик:

Метрика Обозначение Alarm Warning
Доступность БД на запись can_write Равно 0 —
Количество ошибок Out of Memory, за час redis_oom_count Больше 2 Больше 0
Утилизация RAM (только для политики noeviction) redis_used_memory 90% от объема RAM 75% от объема RAM
Размер использованного хранилища disk.used_bytes 90% от размера хранилища 80% от размера хранилища

Для метрики disk.used_bytes значения порогов Alarm и Warning задаются только в байтах. Например, рекомендуемые значения для диска размером в 100 ГБ:

  • Alarm — 96636764160 байтов (90%).
  • Warning — 85899345920 байтов (80%).

Текущий объем RAM на хостах можно посмотреть в детальной информации о кластере. Полный список поддерживаемых метрик см. в документации Monitoring.

Состояние и статус кластераСостояние и статус кластера

Состояние кластера указывает на исправность его хостов, а Статус показывает, запущен кластер, остановлен или находится в промежуточном состоянии.

Для просмотра состояния и статуса кластера:

Консоль управления
  1. В консоли управления перейдите в каталог с нужным кластером.
  2. Перейдите в сервис Yandex Managed Service for Valkey™.
  3. Наведите курсор на индикатор в столбце Доступность в строке нужного кластера.

Состояния кластераСостояния кластера

Состояние Описание Предлагаемые действия
ALIVE Кластер работает в штатном режиме. Действий не требуется.
DEGRADED Кластер работает не на полную мощность: минимум один из хостов имеет состояние, отличное от ALIVE. Выполните диагностику:
  • Перейдите на вкладку Хосты и посмотрите, какие из них в нерабочем состоянии.
  • Перейдите на вкладку Операции и убедитесь, что все операции завершились.
  • Убедитесь, что кластер не находится в процессе технического обслуживания.
Если причины не удалось выяснить самостоятельно, обратитесь в службу поддержки.
DEAD Кластер неработоспособен: ни один его хост не работает. Составьте обращение в службу поддержки, указав:
  • Идентификатор кластера.
  • Идентификаторы последних операций, которые на нем выполнялись.
  • Время по графикам доступности, когда кластер перешел в состояние DEAD.
UNKNOWN Состояние кластера неизвестно. Составьте обращение в службу поддержки, указав:
  • Идентификатор кластера.
  • Идентификаторы последних операций, которые на нем выполнялись.
  • Время по графикам доступности, когда кластер перешел в состояние UNKNOWN.

Статусы кластераСтатусы кластера

Статус Описание Предлагаемые действия
CREATING Идет подготовка к первому запуску Подождите немного и приступайте к работе. Время создания кластера зависит от класса хостов.
RUNNING Кластер работает в штатном режиме Действий не требуется.
STOPPING Кластер останавливается Через некоторое время кластеру будет присвоен статус STOPPED, и он будет выведен из работы. Действий не требуется.
STOPPED Кластер остановлен Запустите кластер, чтобы вернуть его в работу.
STARTING Остановленный ранее кластер запускается Через некоторое время кластеру будет присвоен статус RUNNING. Подождите немного и приступайте к работе.
UPDATING Обновляется конфигурация кластера По завершении обновления кластеру будет присвоен статус, который был до обновления: RUNNING или STOPPED.
ERROR Произошла ошибка при выполнении операции с кластером или во время окна технического обслуживания Если кластер долго находится в этом статусе, обратитесь в службу поддержки. Доступность кластера можно определить по его состоянию.
STATUS_UNKNOWN Кластер не может определить свой статус Если кластер долго находится в этом статусе, обратитесь в службу поддержки.

Была ли статья полезна?

Предыдущая
Просмотр логов кластера
Следующая
Все руководства
Создавайте контент и получайте гранты!Готовы написать своё руководство? Участвуйте в контент-программе и получайте гранты на работу с облачными сервисами!
Подробнее о программе
Проект Яндекса
© 2026 ООО «Яндекс.Облако»