Мониторинг состояния кластера Elasticsearch и хостов
Важно
Сервис Yandex Managed Service for Elasticsearch недоступен с 11 апреля 2024 года.
Вы можете создать кластер OpenSearch в Yandex Cloud в качестве альтернативы Elasticsearch.
Данные о состоянии кластера и его хостов доступны в консоли управления. Их можно посмотреть на вкладке Мониторинг страницы управления кластером или в сервисе Yandex Monitoring.
Диагностическая информация о состоянии кластера представлена в виде графиков.
Новые данные для графиков поступают каждые 15 секунд.
Примечание
На графиках автоматически применяются наиболее подходящие кратные единицы измерения (мегабайты, гигабайты и т. д.).
Вы можете настроить алерты в сервисе Yandex Monitoring для получения уведомлений о сбоях в работе кластера. В Yandex Monitoring используются два порога срабатывания алерта: Warning
и Alarm
. При превышении заданного порога вы получите оповещения через настроенные каналы уведомлений.
Мониторинг состояния кластера
Для просмотра детальной информации о состоянии кластера Managed Service for Elasticsearch:
-
В консоли управления
перейдите на страницу каталога и выберите сервис Managed Service for Elasticsearch. -
Нажмите на имя нужного кластера и выберите вкладку Мониторинг.
-
Чтобы перейти к работе с метриками, дашбордами или алертами в сервисе Yandex Monitoring, нажмите кнопку Открыть в Monitoring на панели сверху.
На странице отображаются следующие графики:
-
Active shards — количество активных первичных шардов и общее количество активных шардов в кластере.
-
Deletion rate — количество операций удаления в секунду, для каждого хоста.
-
Disk space usage percent — использование дискового пространства, для каждого хоста (в процентах).
-
Flushes — количество операций сохранения лога транзакций (flush), для каждого хоста.
-
Health status — уровень работоспособности и техническое состояние кластера:
- 0 —
красный
: неработоспособное или частично работоспособное состояние. Хотя бы один из первичных шардов недоступен. Если кластер отвечает на запросы, результаты поиска в ответах будут неполными. - 1 —
желтый
: работоспособное состояние. Нет доступа хотя бы к одному из шардов-реплик. Результаты поиска в ответах кластера полные, но если появятся еще недоступные шарды, работоспособность кластера нарушится. - 2 —
зеленый
: исправное состояние. Все шарды кластера доступны.
- 0 —
-
Indexing rate — интенсивность индексирования, для каждого хоста (операций/с).
-
JVM heap — использование памяти кучи JVM, для каждого хоста (в байтах).
-
JVM heap pressure — использование пула долгоживущих объектов JVM, для каждого хоста (в процентах).
-
JVM old collections — количество циклов сборки мусора в пуле долгоживущих объектов JVM, для каждого хоста.
-
JVM young collections — количество циклов сборки мусора в пуле новых объектов JVM, для каждого хоста.
-
Merges — количество слияний сегментов индексов, для каждого хоста.
-
Nodes — количество хостов с ролью
Data node
и общее количество хостов в кластере. -
Open file descriptors — количество открытых файловых дескрипторов, для каждого хоста.
-
Other shards — количество неактивных шардов в каждом из состояний:
- Delayed unassigned — назначение хоста отложено;
- Unassigned — нет назначенного хоста;
- Relocating — перемещаются на другой хост;
- Initializing — инициализируются.
-
Process CPU — загрузка процессорных ядер, которую создает процесс JVM Elasticsearch, для каждого хоста.
-
Query cache — количество запросов в кеше, для каждого хоста.
-
Read bytes — скорость чтения с диска, для каждого хоста (байт/с).
-
Read operations — интенсивность чтения с диска, для каждого хоста (операций/с).
-
Refreshes — количество операций обновления сегментов индексов (refresh), для каждого хоста.
-
Search queries — количество запросов поиска в секунду, для каждого хоста.
-
Segments — количество сегментов индексов, для каждого хоста.
-
Store size — размер хранилища индексов на диске (в байтах).
-
Write bytes — скорость записи на диск, для каждого хоста (байт/с).
-
Write operations — интенсивность записи на диск, для каждого хоста (операций/с).
Примечание
Чтобы перейти к работе с метриками, дашбордами или алертами в сервисе Monitoring, нажмите кнопку Открыть в Monitoring на панели сверху.
Мониторинг состояния хостов
Для просмотра детальной информации о состоянии отдельных хостов Managed Service for Elasticsearch:
- В консоли управления
перейдите на страницу каталога и выберите сервис Managed Service for Elasticsearch. - Нажмите на имя нужного кластера и выберите вкладку Хосты.
- Выберите вкладку Мониторинги.
- Выберите нужный хост из выпадающего списка.
На этой странице выводятся графики, показывающие нагрузку на отдельный хост кластера:
- CPU — загрузка процессорных ядер. При повышении нагрузки значение
Idle
уменьшается. - Disk Bytes — скорость дисковых операций (байт/с).
- Disk IOPS — интенсивность дисковых операций (операций/с).
- Memory — использование оперативной памяти (в байтах). При высоких нагрузках значение параметра
Free
уменьшается, а значения остальных — растут. - Network Bytes — скорость обмена данными по сети (байт/с).
- Network Packets — интенсивность обмена данными по сети (пакетов/с).
Настройка алертов в Yandex Monitoring
-
В консоли управления
выберите каталог с кластером, для которого нужно настроить алерты. -
В списке сервисов выберите
Monitoring. -
В блоке Сервисные дашборды выберите:
- Managed Service for Elasticsearch для настройки алертов кластера;
- Managed Service for Elasticsearch — Host Overview для настройки алертов хостов.
-
На нужном графике нажмите на значок
и выберите пункт Создать алерт. -
Если на графике несколько показателей, выберите запрос данных для формирования метрики и нажмите Продолжить. Подробнее о языке запросов см. документацию Yandex Monitoring.
-
Задайте значения порогов
Alarm
иWarning
для срабатывания алерта. -
Нажмите кнопку Создать алерт.
Чтобы настроить автоматический мониторинг других показателей состояния кластера:
- Создайте алерт.
- Добавьте метрику состояния.
- Задайте значения порогов для оповещения в параметрах алерта.
Рекомендуемые значения порогов для некоторых метрик:
Метрика | Обозначение | Формула | Alarm |
Warning |
---|---|---|---|---|
Статус кластера | elasticsearch_status |
bottom_last(1) |
равно 0 |
равно 1 |
Число неназначенных шардов | elasticsearch_unassigned_shards |
top_last(1) |
больше 0 |
|
Число перемещаемых шардов | elasticsearch_relocating_shards |
top_last(1) |
больше 0 |
|
Число инициализируемых шардов | elasticsearch_initializing_shards |
top_last(1) |
больше 0 |
|
Число отложенных к назначению шардов | elasticsearch_delayed_unassigned_shards |
top_last(1) |
больше 0 |
|
Объем использованной памяти кучи JVM | elasticsearch_jvm_mem_heap_used_percent |
top_last(1) |
больше 90% от объема RAM на хосте | |
Объем использованного хранилища | elasticsearch_fs_total_used_percent |
top_last(1) |
больше 90% от размера хранилища | больше 85% от размера хранилища |
Использование пула долгоживущих объектов JVM | elasticsearch_jvm_mem_heap_pressure |
top_last(1) |
больше 90% от объема RAM на хосте | больше 75% от объема RAM на хосте |
Размер использованного хранилища | disk.used_bytes |
— | 90% от размера хранилища | 80% от размера хранилища |
Для метрики disk.used_bytes
значения порогов Alarm
и Warning
задаются только в байтах. Например, рекомендуемые значения для диска размером в 100 ГБ:
Alarm
—96636764160
байтов (90%).Warning
—85899345920
байтов (80%).
Текущий размер хранилища и объем RAM на хостах можно посмотреть в детальной информации о кластере.
Состояние и статус кластера
Состояние кластера указывает на исправность его хостов, а Статус показывает, запущен кластер, остановлен или находится в промежуточном состоянии.
Для просмотра состояния и статуса кластера:
- В консоли управления
перейдите на страницу каталога и выберите Managed Service for Elasticsearch. - Наведите курсор на индикатор в столбце Доступность в строке нужного кластера.
Воспользуйтесь методом REST API get для ресурса Cluster или вызовом gRPC API ClusterService/Get и передайте в запросе идентификатор требуемого кластера в параметре clusterId
.
Состояние и статус кластера будут указаны в параметрах health
и status
.
Идентификатор кластера можно получить со списком кластеров в каталоге.
Состояния кластера
Состояние | Описание | Предлагаемые действия |
---|---|---|
ALIVE | Кластер работает в штатном режиме. | Действий не требуется. |
DEGRADED | Кластер работает не на полную мощность: минимум один из хостов имеет состояние, отличное от ALIVE . |
Выполните диагностику:
|
DEAD | Кластер неработоспособен: ни один его хост не работает. | Составьте обращение в службу поддержки
|
UNKNOWN | Состояние кластера неизвестно. | Составьте обращение в службу поддержки
|
Статусы кластера
Статус | Описание | Предлагаемые действия |
---|---|---|
CREATING | Идет подготовка к первому запуску | Подождите немного и приступайте к работе. Время создания кластера зависит от класса хостов. |
RUNNING | Кластер работает в штатном режиме | Действий не требуется. |
STOPPING | Кластер останавливается | Через некоторое время кластеру будет присвоен статус STOPPED , и он будет выведен из работы. Действий не требуется. |
STOPPED | Кластер остановлен | Запустите кластер, чтобы вернуть его в работу. |
STARTING | Остановленный ранее кластер запускается | Через некоторое время кластеру будет присвоен статус RUNNING . Подождите немного и приступайте к работе. |
UPDATING | Выполняется обновление состояния кластера | По завершении обновления ему будет присвоен статус RUNNING . Подождите немного и приступайте к работе. |
ERROR | Произошла ошибка, которая не позволяет кластеру продолжить работу | Выполните начальную диагностику:
|
STATUS_UNKNOWN | Кластер не может определить свой статус | Выполните начальную диагностику:
|