Мониторинг состояния кластера OpenSearch и хостов

Статья создана

Улучшена

Обновлена 21 апреля 2025 г.

Мониторинг состояния кластера
Мониторинг состояния хостов
Мониторинг состояния групп хостов
Настройка алертов в Yandex Monitoring
Состояние и статус кластера
- Состояния кластера
- Статусы кластера

Данные о состоянии кластера и его хостов доступны в консоли управления. Их можно посмотреть на вкладке Мониторинг страницы управления кластером или в сервисе Yandex Monitoring.

Диагностическая информация о состоянии кластера представлена в виде графиков.

Новые данные для графиков поступают каждые 15 секунд.

Примечание

На графиках автоматически применяются наиболее подходящие кратные единицы измерения (мегабайты, гигабайты и т. д.).

Вы можете настроить алерты в сервисе Yandex Monitoring для получения уведомлений о сбоях в работе кластера. В Yandex Monitoring используются два порога срабатывания алерта: Warning и Alarm. При превышении заданного порога вы получите оповещения через настроенные каналы уведомлений.

Мониторинг состояния кластера

Для просмотра детальной информации о состоянии кластера Managed Service for OpenSearch:

Консоль управления

В консоли управления перейдите на страницу каталога и выберите сервис Managed Service for OpenSearch.
Нажмите на имя нужного кластера и выберите вкладку Мониторинг.

На странице отображаются следующие графики:
- Health status — уровень работоспособности и техническое состояние кластера:
  - 0 (красный) — неработоспособное или частично работоспособное состояние. Хотя бы один из первичных шардов недоступен. Если кластер отвечает на запросы, результаты поиска в ответах будут неполными.
  - 1 (желтый) — работоспособное состояние. Нет доступа хотя бы к одному из шардов-реплик. Результаты поиска в ответах кластера полные, но если появятся еще недоступные шарды, работоспособность кластера нарушится.
  - 2 (зеленый) — исправное состояние. Все шарды кластера доступны.
- Active shards — количество активных первичных шардов и общее количество активных шардов в кластере.
- Other shards — количество неактивных шардов в каждом из состояний:
  - Delayed unassigned — назначение хоста отложено;
  - Unassigned — нет назначенного хоста;
  - Relocating — перемещаются на другой хост;
  - Initializing — инициализируются.
- Nodes — количество хостов с ролью DATA.
- Segments — количество сегментов индексов, для каждого хоста.
- Pending tasks — количество задач в очереди.
- Indexing rate — интенсивность индексирования, для каждого хоста (операций/с).
- Search rate — количество запросов поиска в секунду, для каждого хоста.

Примечание

Чтобы перейти к работе с метриками, дашбордами или алертами в сервисе Monitoring, нажмите кнопку Открыть в Monitoring на панели сверху.

Мониторинг состояния хостов

Для просмотра детальной информации о состоянии отдельных хостов Managed Service for OpenSearch:

В консоли управления перейдите на страницу каталога и выберите сервис Managed Service for OpenSearch.
Нажмите на имя нужного кластера и выберите вкладку Хосты.
Выберите вкладку Мониторинги.
Выберите нужный хост из выпадающего списка.

На этой странице выводятся графики, показывающие нагрузку на отдельный хост кластера. Набор графиков зависит от типа хоста:

MANAGER

DATA

DASHBOARDS

Process CPU — загрузка процессорных ядер, которую создает процесс JVM OpenSearch.
Memory usage — использование оперативной памяти (в байтах).
JVM heap — использование памяти кучи JVM (в байтах).
Disk space usage percent — использование дискового пространства (в процентах).
Management thread pool — количество запросов управления кластером.
Generic thread pool — количество запросов выполнения общих операций.
Thread pool queued — количество запросов в очереди на выполнение.
Thread pool rejected — количество отклоненных запросов.

Process CPU — загрузка процессорных ядер, которую создает процесс JVM OpenSearch.
Memory usage — использование оперативной памяти (в байтах).
JVM heap percent — использование памяти кучи JVM (в процентах).
Disk space usage percent — использование дискового пространства (в процентах).
Indexing rate — интенсивность индексирования (операций/с).
Search queries — количество запросов поиска в секунду.
Open file descriptors — количество открытых файловых дескрипторов.
Write bytes — скорость записи на диск (байт/с).
Read bytes — скорость чтения с диска (байт/с).
Write thread pool — запросы индексации, удаления или обновления документов.
Write operations — интенсивность записи на диск (операций/с).
Read operations — интенсивность чтения с диска (операций/с).
Query time — время, затраченное на выполнение запросов.
Thread pool queued — количество запросов в очереди на выполнение.
Thread pool rejected — количество отклоненных запросов.
Indexing time — время, затраченное на индексацию документов.
Merging time — время, затраченное на слияние документов.

Is Alive — статус доступности хоста.
Requests Total — общее число запросов к хостам.
Process CPU — загрузка процессорных ядер, которую создает процесс JVM OpenSearch.
Memory usage — использование оперативной памяти (в байтах).
Disk read/write bytes — скорость дисковых операций (байт/с).
Disk IOPS — интенсивность дисковых операций (операций/с).
Network Packets — интенсивность обмена данными по сети (пакетов/с).
Network Bytes — скорость обмена данными по сети (байт/с).

Мониторинг состояния групп хостов

Для просмотра детальной информации о состоянии группы хостов Managed Service for OpenSearch:

В консоли управления перейдите на страницу каталога и выберите сервис Managed Service for OpenSearch.
Нажмите на имя нужного кластера и выберите вкладку Группы хостов.
Выберите вкладку Мониторинги.
Выберите нужную группу хостов из выпадающего списка.

На этой странице выводятся графики, показывающие нагрузку на группу хостов кластера. Набор графиков зависит от типа хостов в группе и аналогичен набору графиков для отдельных хостов.

Настройка алертов в Yandex Monitoring

Консоль управления

В консоли управления выберите каталог с кластером, для которого нужно настроить алерты.
В списке сервисов выберите Monitoring.
В блоке Сервисные дашборды выберите:
- Managed Service for OpenSearch для настройки алертов кластера;
- Managed Service for OpenSearch — Dashboards для настройки алертов хостов с ролью DASHBOARDS;
- Managed Service for OpenSearch — Data для настройки алертов хостов с ролью DATA;
- Managed Service for OpenSearch — Manager для настройки алертов хостов с ролью MANAGER.
На нужном графике нажмите на значок и выберите пункт Создать алерт.
Если на графике несколько показателей, выберите запрос данных для формирования метрики и нажмите Продолжить. Подробнее о языке запросов см. документацию Yandex Monitoring.
Задайте значения порогов Alarm и Warning для срабатывания алерта.
Нажмите кнопку Создать алерт.

Чтобы настроить автоматический мониторинг других показателей состояния кластера:

Консоль управления

Создайте алерт.
Добавьте метрику состояния.
Задайте значения порогов для оповещения в параметрах алерта.

Рекомендуемые значения порогов для некоторых метрик:

Метрика	Обозначение	Формула	`Alarm`	`Warning`
Статус кластера	`opensearch_status`	`bottom_last(1)`	`равно 0`	`равно 1`
Число неназначенных шардов	`opensearch_unassigned_shards`	`top_last(1)`	`больше 0`
Число перемещаемых шардов	`opensearch_relocating_shards`	`top_last(1)`	`больше 0`
Число инициализируемых шардов	`opensearch_initializing_shards`	`top_last(1)`	`больше 0`
Число отложенных к назначению шардов	`opensearch_delayed_unassigned_shards`	`top_last(1)`	`больше 0`
Объем использованной памяти кучи JVM	`opensearch_jvm_mem_heap_used_percent`	`top_last(1)`	больше 90% от объема RAM на хосте
Объем использованного хранилища	`opensearch_fs_total_used_percent`	`top_last(1)`	больше 90% от размера хранилища	больше 85% от размера хранилища
Использование пула долгоживущих объектов JVM	`opensearch_jvm_mem_heap_pressure`	`top_last(1)`	больше 90% от объема RAM на хосте	больше 75% от объема RAM на хосте
Размер использованного хранилища	`disk.used_bytes`	—	90% от размера хранилища	80% от размера хранилища

Для метрики disk.used_bytes значения порогов Alarm и Warning задаются только в байтах. Например, рекомендуемые значения для диска размером в 100 ГБ:

Alarm — 96636764160 байтов (90%).
Warning — 85899345920 байтов (80%).

Текущий размер хранилища и объем RAM на хостах можно посмотреть в детальной информации о кластере. Полный список поддерживаемых метрик см. в документации Monitoring.

Состояние и статус кластера

Состояние кластера указывает на исправность его хостов, а Статус показывает, запущен кластер, остановлен или находится в промежуточном состоянии.

Для просмотра состояния и статуса кластера:

Консоль управления

CLI

REST API

gRPC API

В консоли управления перейдите на страницу каталога и выберите Managed Service for OpenSearch.
Наведите курсор на индикатор в столбце Доступность в строке нужного кластера.

Если у вас еще нет интерфейса командной строки Yandex Cloud (CLI), установите и инициализируйте его.

По умолчанию используется каталог, указанный при создании профиля CLI. Чтобы изменить каталог по умолчанию, используйте команду yc config set folder-id <идентификатор_каталога>. Также для любой команды вы можете указать другой каталог с помощью параметров --folder-name или --folder-id.

Чтобы узнать состояние и статус кластера, запросите информацию о нем:

yc managed-opensearch cluster get <имя_или_идентификатор_кластера>

Состояние кластера указано в параметре health, статус кластера — в параметре status.

Имя и идентификатор кластера можно запросить со списком кластеров в каталоге.

Получите IAM-токен для аутентификации в API и поместите токен в переменную среды окружения:
```
export IAM_TOKEN="<IAM-токен>"
```
Воспользуйтесь методом Cluster.Get и выполните запрос, например, с помощью cURL:
```
curl \
    --request GET \
    --header "Authorization: Bearer $IAM_TOKEN" \
    --url 'https://mdb.api.cloud.yandex.net/managed-opensearch/v1/clusters/<идентификатор_кластера>'
```
Идентификатор кластера можно запросить со списком кластеров в каталоге.
Убедитесь, что запрос был выполнен успешно, изучив ответ сервера.

Состояние и статус кластера указаны в параметрах health и status.

Получите IAM-токен для аутентификации в API и поместите токен в переменную среды окружения:
```
export IAM_TOKEN="<IAM-токен>"
```
Клонируйте репозиторий cloudapi:
```
cd ~/ && git clone --depth=1 https://github.com/yandex-cloud/cloudapi
```
Далее предполагается, что содержимое репозитория находится в директории ~/cloudapi/.

Воспользуйтесь вызовом ClusterService.Get и выполните запрос, например, с помощью gRPCurl:

grpcurl \
    -format json \
    -import-path ~/cloudapi/ \
    -import-path ~/cloudapi/third_party/googleapis/ \
    -proto ~/cloudapi/yandex/cloud/mdb/opensearch/v1/cluster_service.proto \
    -rpc-header "Authorization: Bearer $IAM_TOKEN" \
    -d '{
          "cluster_id": "<идентификатор_кластера>"
        }' \
    mdb.api.cloud.yandex.net:443 \
    yandex.cloud.mdb.opensearch.v1.ClusterService.Get

Идентификатор кластера можно запросить со списком кластеров в каталоге.

Убедитесь, что запрос был выполнен успешно, изучив ответ сервера.

Состояние и статус кластера указаны в параметрах health и status.

Состояния кластера

Состояние	Описание	Предлагаемые действия
ALIVE	Кластер работает в штатном режиме.	Действий не требуется.
DEGRADED	Кластер работает не на полную мощность: минимум один из хостов имеет состояние, отличное от `ALIVE`.	Выполните диагностику: Перейдите на вкладку Хосты и посмотрите, какие из них в нерабочем состоянии. Перейдите на вкладку Операции и убедитесь, что все операции завершились. Убедитесь, что кластер не находится в процессе технического обслуживания. Если причины не удалось выяснить самостоятельно, обратитесь в службу поддержки.
DEAD	Кластер неработоспособен: ни один его хост не работает.	Составьте обращение в службу поддержки, указав: Идентификатор кластера. Идентификаторы последних операций, которые на нем выполнялись. Время по графикам доступности, когда кластер перешел в состояние `DEAD`.
UNKNOWN	Состояние кластера неизвестно.	Составьте обращение в службу поддержки, указав: Идентификатор кластера. Идентификаторы последних операций, которые на нем выполнялись. Время по графикам доступности, когда кластер перешел в состояние `UNKNOWN`.

Статусы кластера

Статус	Описание	Предлагаемые действия
CREATING	Идет подготовка к первому запуску	Подождите немного и приступайте к работе. Время создания кластера зависит от класса хостов.
RUNNING	Кластер работает в штатном режиме	Действий не требуется.
STOPPING	Кластер останавливается	Через некоторое время кластеру будет присвоен статус `STOPPED`, и он будет выведен из работы. Действий не требуется.
STOPPED	Кластер остановлен	Запустите кластер, чтобы вернуть его в работу.
STARTING	Остановленный ранее кластер запускается	Через некоторое время кластеру будет присвоен статус `RUNNING`. Подождите немного и приступайте к работе.
UPDATING	Выполняется обновление состояния кластера	По завершении обновления ему будет присвоен статус `RUNNING`. Подождите немного и приступайте к работе.
ERROR	Произошла ошибка, которая не позволяет кластеру продолжить работу	Выполните начальную диагностику: Проанализируйте графики мониторинга кластера и просмотрите операции, которые на нем выполнялись. Соберите список из идентификаторов проблемных ресурсов. Если причины ошибки не удалось выяснить самостоятельно, обратитесь в службу поддержки.
STATUS_UNKNOWN	Кластер не может определить свой статус	Выполните начальную диагностику: Проанализируйте графики мониторинга кластера и просмотрите операции, которые на нем выполнялись. Соберите список из идентификаторов проблемных ресурсов. Если причины ошибки не удалось выяснить самостоятельно, обратитесь в службу поддержки.

Мониторинг состояния кластера OpenSearch и хостов

Мониторинг состояния кластераМониторинг состояния кластера

Мониторинг состояния хостовМониторинг состояния хостов

Мониторинг состояния групп хостовМониторинг состояния групп хостов

Настройка алертов в Yandex MonitoringНастройка алертов в Yandex Monitoring

Состояние и статус кластераСостояние и статус кластера

Состояния кластераСостояния кластера

Статусы кластераСтатусы кластера

Была ли статья полезна?

Мониторинг состояния кластера

Мониторинг состояния хостов

Мониторинг состояния групп хостов

Настройка алертов в Yandex Monitoring

Состояние и статус кластера

Состояния кластера

Статусы кластера