Мониторинг состояния кластера OpenSearch и хостов
Данные о состоянии кластера и его хостов доступны в консоли управления. Их можно посмотреть на вкладке Мониторинг страницы управления кластером или в сервисе Yandex Monitoring.
Диагностическая информация о состоянии кластера представлена в виде графиков.
Новые данные для графиков поступают каждые 15 секунд.
Примечание
На графиках автоматически применяются наиболее подходящие кратные единицы измерения (мегабайты, гигабайты и т. д.).
Вы можете настроить алерты в сервисе Yandex Monitoring для получения уведомлений о сбоях в работе кластера. В Yandex Monitoring используются два порога срабатывания алерта: Warning
и Alarm
. При превышении заданного порога вы получите оповещения через настроенные каналы уведомлений.
Мониторинг состояния кластера
Для просмотра детальной информации о состоянии кластера Managed Service for OpenSearch:
-
В консоли управления
перейдите на страницу каталога и выберите сервис Managed Service for OpenSearch. -
Нажмите на имя нужного кластера и выберите вкладку
Мониторинг.На странице отображаются следующие графики:
-
Health status — уровень работоспособности и техническое состояние кластера:
0
(красный) — неработоспособное или частично работоспособное состояние. Хотя бы один из первичных шардов недоступен. Если кластер отвечает на запросы, результаты поиска в ответах будут неполными.1
(желтый) — работоспособное состояние. Нет доступа хотя бы к одному из шардов-реплик. Результаты поиска в ответах кластера полные, но если появятся еще недоступные шарды, работоспособность кластера нарушится.2
(зеленый) — исправное состояние. Все шарды кластера доступны.
-
Active shards — количество активных первичных шардов и общее количество активных шардов в кластере.
-
Other shards — количество неактивных шардов в каждом из состояний:
Delayed unassigned
— назначение хоста отложено;Unassigned
— нет назначенного хоста;Relocating
— перемещаются на другой хост;Initializing
— инициализируются.
-
Nodes — количество хостов с ролью
DATA
. -
Segments — количество сегментов индексов, для каждого хоста.
-
Pending tasks — количество задач в очереди.
-
Indexing rate — интенсивность индексирования, для каждого хоста (операций/с).
-
Search rate — количество запросов поиска в секунду, для каждого хоста.
-
Примечание
Чтобы перейти к работе с метриками, дашбордами или алертами в сервисе Monitoring, нажмите кнопку Открыть в Monitoring на панели сверху.
Мониторинг состояния хостов
Для просмотра детальной информации о состоянии отдельных хостов Managed Service for OpenSearch:
- В консоли управления
перейдите на страницу каталога и выберите сервис Managed Service for OpenSearch. - Нажмите на имя нужного кластера и выберите вкладку
Хосты. - Выберите вкладку Мониторинги.
- Выберите нужный хост из выпадающего списка.
На этой странице выводятся графики, показывающие нагрузку на отдельный хост кластера. Набор графиков зависит от типа хоста:
- Process CPU — загрузка процессорных ядер, которую создает процесс JVM OpenSearch.
- Memory usage — использование оперативной памяти (в байтах).
- JVM heap — использование памяти кучи JVM (в байтах).
- Disk space usage percent — использование дискового пространства (в процентах).
- Management thread pool — количество запросов управления кластером.
- Generic thread pool — количество запросов выполнения общих операций.
- Thread pool queued — количество запросов в очереди на выполнение.
- Thread pool rejected — количество отклоненных запросов.
- Process CPU — загрузка процессорных ядер, которую создает процесс JVM OpenSearch.
- Memory usage — использование оперативной памяти (в байтах).
- JVM heap percent — использование памяти кучи JVM (в процентах).
- Disk space usage percent — использование дискового пространства (в процентах).
- Indexing rate — интенсивность индексирования (операций/с).
- Search queries — количество запросов поиска в секунду.
- Open file descriptors — количество открытых файловых дескрипторов.
- Write bytes — скорость записи на диск (байт/с).
- Read bytes — скорость чтения с диска (байт/с).
- Write thread pool — запросы индексации, удаления или обновления документов.
- Write operations — интенсивность записи на диск (операций/с).
- Read operations — интенсивность чтения с диска (операций/с).
- Query time — время, затраченное на выполнение запросов.
- Thread pool queued — количество запросов в очереди на выполнение.
- Thread pool rejected — количество отклоненных запросов.
- Indexing time — время, затраченное на индексацию документов.
- Merging time — время, затраченное на слияние документов.
- Is Alive — статус доступности хоста.
- Requests Total — общее число запросов к хостам.
- Process CPU — загрузка процессорных ядер, которую создает процесс JVM OpenSearch.
- Memory usage — использование оперативной памяти (в байтах).
- Disk read/write bytes — скорость дисковых операций (байт/с).
- Disk IOPS — интенсивность дисковых операций (операций/с).
- Network Packets — интенсивность обмена данными по сети (пакетов/с).
- Network Bytes — скорость обмена данными по сети (байт/с).
Мониторинг состояния групп хостов
Для просмотра детальной информации о состоянии группы хостов Managed Service for OpenSearch:
- В консоли управления
перейдите на страницу каталога и выберите сервис Managed Service for OpenSearch. - Нажмите на имя нужного кластера и выберите вкладку
Группы хостов. - Выберите вкладку Мониторинги.
- Выберите нужную группу хостов из выпадающего списка.
На этой странице выводятся графики, показывающие нагрузку на группу хостов кластера. Набор графиков зависит от типа хостов в группе и аналогичен набору графиков для отдельных хостов.
Настройка алертов в Yandex Monitoring
-
В консоли управления
выберите каталог с кластером, для которого нужно настроить алерты. -
В списке сервисов выберите
Monitoring. -
В блоке Сервисные дашборды выберите:
- Managed Service for OpenSearch для настройки алертов кластера;
- Managed Service for OpenSearch — Dashboards для настройки алертов хостов с ролью
DASHBOARDS
; - Managed Service for OpenSearch — Data для настройки алертов хостов с ролью
DATA
; - Managed Service for OpenSearch — Manager для настройки алертов хостов с ролью
MANAGER
.
-
На нужном графике нажмите на значок
и выберите пункт Создать алерт. -
Если на графике несколько показателей, выберите запрос данных для формирования метрики и нажмите Продолжить. Подробнее о языке запросов см. документацию Yandex Monitoring.
-
Задайте значения порогов
Alarm
иWarning
для срабатывания алерта. -
Нажмите кнопку Создать алерт.
Чтобы настроить автоматический мониторинг других показателей состояния кластера:
- Создайте алерт.
- Добавьте метрику состояния.
- Задайте значения порогов для оповещения в параметрах алерта.
Рекомендуемые значения порогов для некоторых метрик:
Метрика | Обозначение | Формула | Alarm |
Warning |
---|---|---|---|---|
Статус кластера | opensearch_status |
bottom_last(1) |
равно 0 |
равно 1 |
Число неназначенных шардов | opensearch_unassigned_shards |
top_last(1) |
больше 0 |
|
Число перемещаемых шардов | opensearch_relocating_shards |
top_last(1) |
больше 0 |
|
Число инициализируемых шардов | opensearch_initializing_shards |
top_last(1) |
больше 0 |
|
Число отложенных к назначению шардов | opensearch_delayed_unassigned_shards |
top_last(1) |
больше 0 |
|
Объем использованной памяти кучи JVM | opensearch_jvm_mem_heap_used_percent |
top_last(1) |
больше 90% от объема RAM на хосте | |
Объем использованного хранилища | opensearch_fs_total_used_percent |
top_last(1) |
больше 90% от размера хранилища | больше 85% от размера хранилища |
Использование пула долгоживущих объектов JVM | opensearch_jvm_mem_heap_pressure |
top_last(1) |
больше 90% от объема RAM на хосте | больше 75% от объема RAM на хосте |
Размер использованного хранилища | disk.used_bytes |
— | 90% от размера хранилища | 80% от размера хранилища |
Для метрики disk.used_bytes
значения порогов Alarm
и Warning
задаются только в байтах. Например, рекомендуемые значения для диска размером в 100 ГБ:
Alarm
—96636764160
байтов (90%).Warning
—85899345920
байтов (80%).
Текущий размер хранилища и объем RAM на хостах можно посмотреть в детальной информации о кластере. Полный список поддерживаемых метрик см. в документации Monitoring.
Состояние и статус кластера
Состояние кластера указывает на исправность его хостов, а Статус показывает, запущен кластер, остановлен или находится в промежуточном состоянии.
Для просмотра состояния и статуса кластера:
- В консоли управления
перейдите на страницу каталога и выберите Managed Service for OpenSearch. - Наведите курсор на индикатор в столбце Доступность в строке нужного кластера.
Если у вас еще нет интерфейса командной строки Yandex Cloud, установите и инициализируйте его.
По умолчанию используется каталог, указанный в профиле CLI. Вы можете указать другой каталог с помощью параметра --folder-name
или --folder-id
.
Чтобы узнать состояние и статус кластера, запросите информацию о нем:
yc managed-opensearch cluster get <имя_или_идентификатор_кластера>
Состояние кластера указано в параметре health
, статус кластера — в параметре status
.
Имя и идентификатор кластера можно запросить со списком кластеров в каталоге.
Воспользуйтесь методом REST API get для ресурса Cluster или вызовом gRPC API ClusterService/Get и передайте в запросе идентификатор удаляемого кластера в параметре clusterId
.
Состояние и статус кластера будут указаны в параметрах health
и status
.
Идентификатор кластера можно получить со списком кластеров в каталоге.
Состояния кластера
Состояние | Описание | Предлагаемые действия |
---|---|---|
ALIVE | Кластер работает в штатном режиме. | Действий не требуется. |
DEGRADED | Кластер работает не на полную мощность: минимум один из хостов имеет состояние, отличное от ALIVE . |
Выполните диагностику:
|
DEAD | Кластер неработоспособен: ни один его хост не работает. | Составьте обращение в службу поддержки
|
UNKNOWN | Состояние кластера неизвестно. | Составьте обращение в службу поддержки
|
Статусы кластера
Статус | Описание | Предлагаемые действия |
---|---|---|
CREATING | Идет подготовка к первому запуску | Подождите немного и приступайте к работе. Время создания кластера зависит от класса хостов. |
RUNNING | Кластер работает в штатном режиме | Действий не требуется. |
STOPPING | Кластер останавливается | Через некоторое время кластеру будет присвоен статус STOPPED , и он будет выведен из работы. Действий не требуется. |
STOPPED | Кластер остановлен | Запустите кластер, чтобы вернуть его в работу. |
STARTING | Остановленный ранее кластер запускается | Через некоторое время кластеру будет присвоен статус RUNNING . Подождите немного и приступайте к работе. |
UPDATING | Выполняется обновление состояния кластера | По завершении обновления ему будет присвоен статус RUNNING . Подождите немного и приступайте к работе. |
ERROR | Произошла ошибка, которая не позволяет кластеру продолжить работу | Выполните начальную диагностику:
|
STATUS_UNKNOWN | Кластер не может определить свой статус | Выполните начальную диагностику:
|