Yandex Cloud
Поиск
Связаться с намиПодключиться
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
    • Популярные
    • Инфраструктура и сеть
    • Платформа данных
    • Контейнеры
    • Инструменты разработчика
    • Бессерверные вычисления
    • Безопасность
    • Мониторинг и управление ресурсами
    • Машинное обучение
    • Бизнес-инструменты
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Облако для интеграторов
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Контент-программа
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Истории успеха
    • Тарифы Yandex Cloud
    • Промоакции и free tier
    • Правила тарификации
  • Документация
  • Блог
Проект Яндекса
© 2025 ООО «Яндекс.Облако»
Yandex Managed Service for MongoDB
  • Начало работы
    • Все инструкции
      • Просмотр логов кластера
      • Диагностика производительности
      • Инструменты для анализа производительности
      • Мониторинг состояния кластера и хостов
  • Управление доступом
  • Справочник Terraform
  • Метрики Monitoring
  • Аудитные логи Audit Trails
  • Публичные материалы
  • История изменений
  • Обучающие курсы

В этой статье:

  • Мониторинг состояния кластера
  • Мониторинг состояния хостов
  • Настройка алертов в Yandex Monitoring
  • Отслеживание перехода в режим только чтение
  • Состояние и статус кластера
  • Состояния кластера
  • Статусы кластера
  1. Пошаговые инструкции
  2. Логи и мониторинг
  3. Мониторинг состояния кластера и хостов

Мониторинг состояния кластера MongoDB и его хостов

Статья создана
Yandex Cloud
Обновлена 6 марта 2025 г.
  • Мониторинг состояния кластера
  • Мониторинг состояния хостов
  • Настройка алертов в Yandex Monitoring
    • Отслеживание перехода в режим только чтение
  • Состояние и статус кластера
    • Состояния кластера
    • Статусы кластера

Данные о состоянии кластера и его хостов доступны в консоли управления. Их можно посмотреть на вкладке Мониторинг страницы управления кластером или в сервисе Yandex Monitoring.

Диагностическая информация о состоянии кластера представлена в виде графиков.

Период обновления графиков:

  • Для хостов стандартной конфигурации и хостов с увеличенным соотношением количества гигабайт RAM к количеству vCPU (memory-optimized): 15 секунд.
  • Для хостов с гарантированной долей vCPU ниже 100% (burstable): 150 секунд.

Примечание

На графиках автоматически применяются наиболее подходящие кратные единицы измерения (мегабайты, гигабайты и т. д.).

Вы можете настроить алерты в сервисе Yandex Monitoring для получения уведомлений о сбоях в работе кластера. В Yandex Monitoring используются два порога срабатывания алерта: Warning и Alarm. При превышении заданного порога вы получите оповещения через настроенные каналы уведомлений.

Мониторинг состояния кластераМониторинг состояния кластера

Для просмотра детальной информации о состоянии кластера Managed Service for MongoDB:

  1. Перейдите на страницу каталога и выберите сервис Managed Service for MongoDB.

  2. Нажмите на имя нужного кластера и выберите вкладку Мониторинг.

  3. Чтобы перейти к работе с метриками, дашбордами или алертами в сервисе Yandex Monitoring, нажмите кнопку Открыть в Monitoring на панели сверху.

На странице появятся следующие графики:

  • Asserts total — количество срабатываний assert в кластере.
  • Average operation time per host — среднее время выполнения операций каждым хостом (в микросекундах).
  • Average operations time on primary — среднее время выполнения операций на первичных репликах (в микросекундах).
  • Average operations time on secondaries — среднее время выполнения операций на вторичных репликах (в микросекундах).
  • CPU usage per host — степень утилизации vCPU на каждом хосте (в долях от количества ядер vCPU).
  • CPU usage per host, top 5 hosts — 5 хостов с наибольшей утилизацией vCPU (в процентах).
  • Configured oplog size per host — размер журнала операций (oplog) на каждом хосте кластера (в гигабайтах).
  • Connections per host — среднее количество подключений к каждому хосту.
  • Data size on primary, top 5 databases — размер пяти наибольших баз данных на первичной реплике (в байтах). На графике используются данные без сжатия.
  • Disk read per host, top 5 hosts — 5 хостов с наибольшей нагрузкой на чтение из дисковой подсистемы (байт/с).
  • Disk space usage per host, top 5 hosts — 5 хостов с наибольшим использованием места в хранилище (выводится два графика: в байтах и в процентах). На графике используются данные после применения сжатия.
  • Disk usage per host, top 5 hosts — 5 хостов с наибольшей нагрузкой на подсистему I/O хранилища (байт/с).
  • Disk write per host, top 5 hosts — 5 хостов с наибольшей нагрузкой на запись в дисковую подсистему (килобайт/с).
  • Documents affected on primary — среднее количество затронутых запросами документов на первичной реплике.
  • Documents affected on secondaries — среднее количество затронутых запросами документов на всех вторичных репликах.
  • Documents affected per host — среднее количество документов, затронутое запросами на каждом хосте.
  • Hosts available for read — количество хостов, принимающих запросы на чтение.
  • Hosts available for write — количество хостов, принимающих запросы на запись.
  • Index size on primary, top 5 indexes — размер пяти наибольших индексов на первичной реплике (в байтах).
  • Memory usage per host — объем оперативной памяти, использованной каждым хостом (в байтах).
  • Memory usage per host, top 5 hosts — 5 хостов с наибольшим использованием оперативной памяти (в процентах).
  • Network data received per host, top 5 hosts — 5 хостов с наибольшей сетевой нагрузкой на чтение (килобайт/с).
  • Network data sent per host, top 5 hosts — 5 хостов с наибольшей сетевой нагрузкой на запись (килобайт/с).
  • Network usage per host, top 5 hosts — 5 хостов с наибольшей суммарной сетевой нагрузкой (килобайт/с).
  • Open cursors total — количество открытых в кластере курсоров.
  • Oplog window — временной диапазон, за который хранятся данные репликации в коллекции oplog каждого хоста.
  • Page faults per host — количество отказов страниц на каждом хосте.
  • Queries on secondaries — среднее количество запросов каждого типа, выполненных на вторичных репликах.
  • Queries on primary — среднее количество выполненных на первичных репликах запросов каждого типа.
  • Read operations time, top 5 collections — 5 коллекций с наибольшим количеством времени, затраченным на выполнение операций чтения.
  • Readers/writers active queue per host, top 5 — суммарный размер пяти наибольших очередей для каждого хоста:
    • с запросами на чтение;
    • с запросами на запись.
  • Replicated queries — среднее количество реплицированных запросов в кластере.
  • Replication lag per host and write_concern wait — задержки репликации на каждом хосте и ожидание подтверждения записи (в секундах).
  • Scan and order per host — количество сортировок данных без использования индекса на каждом хосте.
  • Scanned / returned — показывает соотношения:
    • scanned_docs / returned_docs — количество просканированных документов к количеству возвращенных;
    • scanned_keys / returned_docs — количество просканированных ключей индекса к количеству возвращенных документов.
  • TTL indexes activity — общее количество индексов TTL.
  • Total operations count on cluster — общее количество выполненных в кластере операций.
  • Total operations time on cluster — общее время выполнения операций в кластере (в миллисекундах).
  • WiredTiger cache pages evicted on primary — среднее количество страниц оперативной памяти, вытесненных на первичной реплике.
  • WiredTiger cache state on primary — использование кеша WiredTiger на первичной реплике (в байтах).
  • WiredTiger checkpoint time on primary — время создания контрольных точек WiredTiger на первичной реплике (в миллисекундах).
  • WiredTiger concurrent transactions on primary — среднее количество параллельных транзакций на первичной реплике.
  • WiredTiger transactions state on primary — среднее количество транзакций каждого уровня на первичной реплике.
  • Write conflicts per host — количество конфликтов записи на каждом хосте.
  • Write operations time, top 5 collections — 5 коллекций с наибольшим количеством времени, затраченным на выполнение операций записи.

Мониторинг состояния хостовМониторинг состояния хостов

Для просмотра детальной информации о состоянии отдельных хостов Managed Service for MongoDB:

  1. Перейдите на страницу каталога и выберите сервис Managed Service for MongoDB.
  2. Нажмите на имя нужного кластера и выберите вкладку Хосты → Мониторинги.
  3. Выберите нужный хост из выпадающего списка. Возле имени хоста будет показана его роль (PRIMARY или SECONDARY) и тип (MONGOCFG, MONGOD, MONGOINFRA, MONGOS).

На этой странице выводятся графики, показывающие нагрузку на отдельный хост кластера:

  • CPU — загрузка процессорных ядер. При повышении нагрузки значение Idle уменьшается.
  • Memory — использование оперативной памяти (в байтах). При высоких нагрузках значение параметра Free уменьшается, остальные — растут.
  • Disk Bytes — скорость дисковых операций (байт/с).
  • Disk IOPS — интенсивность дисковых операций (операций/с).
  • Network Bytes — скорость обмена данными по сети (байт/с).
  • Network Packets — интенсивность обмена данными по сети (пакетов/с).

Настройка алертов в Yandex MonitoringНастройка алертов в Yandex Monitoring

Консоль управления
  1. В консоли управления выберите каталог с кластером, для которого нужно настроить алерты.

  2. В списке сервисов выберите  Monitoring.

  3. В блоке Сервисные дашборды выберите:

    • Managed Service for MongoDB для настройки алертов кластера;
    • Managed Service for MongoDB — Host Overview для настройки алертов хостов.
  4. На нужном графике нажмите на значок и выберите пункт Создать алерт.

  5. Если на графике несколько показателей, выберите запрос данных для формирования метрики и нажмите Продолжить. Подробнее о языке запросов см. документацию Yandex Monitoring.

  6. Задайте значения порогов Alarm и Warning для срабатывания алерта.

  7. Нажмите кнопку Создать алерт.

Чтобы настроить автоматический мониторинг других показателей состояния кластера:

Консоль управления
  1. Создайте алерт.
  2. Добавьте метрику состояния.
  3. Задайте значения порогов для оповещения в параметрах алерта.

Рекомендуемые значения порогов для некоторых метрик:

Метрика Обозначение Alarm Warning
Доступность БД на запись can_write Равно 0 —
Задержка репликации replset_status-replicationLag 180 30
Объем использованного хранилища disk.used_bytes 90% от размера хранилища 70% от размера хранилища

Для метрики disk.used_bytes значения порогов Alarm и Warning задаются только в байтах. Например, рекомендуемые значения для диска размером в 100 ГБ:

  • Alarm — 96636764160 байт (90%).
  • Warning — 75161927680 байт (70%).

Текущий размер хранилища можно посмотреть в детальной информации о кластере. Полный список поддерживаемых метрик см. в документации Monitoring.

Отслеживание перехода в режим только чтениеОтслеживание перехода в режим только чтение

Чтобы отслеживать степень заполнения хранилища на хостах кластера и получать уведомления в случае скорого исчерпания свободного места:

  1. Создайте алерт.

  2. Добавьте метрику состояния disk.free_bytes.

    Для этого создайте запрос в конструкторе запросов:

    service=managed-mongodb → name=disk.free_bytes → host=* → resource_id=* → resource_type=cluster.

  3. Задайте в параметрах алерта значения порогов для оповещения:

    • Условие срабатывания — выберите условие Меньше или равно для размера свободного дискового пространства, при котором сработает алерт.

      Рекомендуемые значения порогов в зависимости от размера хранилища:

      Размер хранилища, ГБ Alarm Warning
      ⩽ 600 1G (1 ГБ) 1500M (1,5 ГБ)
      > 600 6G (6 ГБ) 10G (10 ГБ)
    • Дополнительные настройки → Функция агрегации — выберите значение Минимум (минимальное значение метрики за период).

Состояние и статус кластераСостояние и статус кластера

Состояние кластера указывает на исправность его хостов, а Статус показывает, запущен кластер, остановлен или находится в промежуточном состоянии.

Для просмотра состояния и статуса кластера:

  1. Перейдите на страницу каталога и выберите сервис Managed Service for MongoDB.
  2. Наведите курсор на индикатор в столбце Доступность в строке нужного кластера.

Состояния кластераСостояния кластера

Состояние Описание Предлагаемые действия
ALIVE Кластер работает в штатном режиме. Действий не требуется.
DEGRADED Кластер работает не на полную мощность: минимум один из хостов имеет состояние, отличное от ALIVE. Выполните диагностику:
  • Перейдите на вкладку Хосты и посмотрите, какие из них в нерабочем состоянии.
  • Перейдите на вкладку Операции и убедитесь, что все операции завершились.
  • Убедитесь, что кластер не находится в процессе технического обслуживания.
Если причины не удалось выяснить самостоятельно, обратитесь в службу поддержки.
DEAD Кластер неработоспособен: ни один его хост не работает. Составьте обращение в службу поддержки, указав:
  • Идентификатор кластера.
  • Идентификаторы последних операций, которые на нем выполнялись.
  • Время по графикам доступности, когда кластер перешел в состояние DEAD.
UNKNOWN Состояние кластера неизвестно. Составьте обращение в службу поддержки, указав:
  • Идентификатор кластера.
  • Идентификаторы последних операций, которые на нем выполнялись.
  • Время по графикам доступности, когда кластер перешел в состояние UNKNOWN.

Статусы кластераСтатусы кластера

Статус Описание Предлагаемые действия
CREATING Идет подготовка к первому запуску Подождите немного и приступайте к работе. Время создания кластера зависит от класса хостов.
RUNNING Кластер работает в штатном режиме Действий не требуется.
STOPPING Кластер останавливается Через некоторое время кластеру будет присвоен статус STOPPED, и он будет выведен из работы. Действий не требуется.
STOPPED Кластер остановлен Запустите кластер, чтобы вернуть его в работу.
STARTING Остановленный ранее кластер запускается Через некоторое время кластеру будет присвоен статус RUNNING. Подождите немного и приступайте к работе.
UPDATING Выполняется обновление состояния кластера По завершении обновления ему будет присвоен статус RUNNING. Подождите немного и приступайте к работе.
ERROR Произошла ошибка, которая не позволяет кластеру продолжить работу Выполните начальную диагностику:
  • Проанализируйте графики мониторинга кластера и просмотрите операции, которые на нем выполнялись.
  • Соберите список из идентификаторов проблемных ресурсов.
Если причины ошибки не удалось выяснить самостоятельно, обратитесь в службу поддержки.
STATUS_UNKNOWN Кластер не может определить свой статус Выполните начальную диагностику:
  • Проанализируйте графики мониторинга кластера и просмотрите операции, которые на нем выполнялись.
  • Соберите список из идентификаторов проблемных ресурсов.
Если причины ошибки не удалось выяснить самостоятельно, обратитесь в службу поддержки.

Была ли статья полезна?

Предыдущая
Инструменты для анализа производительности
Следующая
Все руководства
Проект Яндекса
© 2025 ООО «Яндекс.Облако»