Мониторинг состояния кластера Managed Service for YTsaurus
Данные о состоянии кластера и его хостов доступны в консоли управления
Диагностическая информация о состоянии кластера представлена в виде графиков.
Графики обновляются раз в 15 секунд.
Примечание
На графиках автоматически применяются наиболее подходящие кратные единицы измерения (мегабайты, гигабайты и т. д.).
Вы можете настроить алерты в сервисе Yandex Monitoring для получения уведомлений о сбоях в работе кластера. В Yandex Monitoring используются два порога срабатывания алерта: Warning и Alarm. При превышении заданного порога вы получите оповещения через настроенные каналы уведомлений.
Мониторинг состояния кластера
Для просмотра детальной информации о состоянии кластера Managed Service for YTsaurus:
- В консоли управления
перейдите в нужный каталог. - В списке сервисов выберите Managed Service for YTsaurus.
- Нажмите на имя нужного кластера и выберите вкладку Мониторинг.
- Чтобы перейти к работе с метриками, дашбордами или алертами, выберите в списке сервисов Yandex Monitoring.
На странице отображаются две вкладки Cluster и Master с графиками:
- Automaton thread CPU usage — загрузка CPU потоком Automaton, основным исполняющим потоком мастера (в процентах).
- TOTAL — суммарная загрузка по всем master-нодам.
- ms-N — загрузка потоком Automaton на master-ноде N.
- User write time — время, затраченное на операции записи от пользователя.
- root — время, затраченное на операции записи от пользователя root.
- robot-odin — время, затраченное на операции записи от пользователя robot-odin.
- scheduler — время, затраченное на операции записи от планировщика.
- tablet_cell_changelogger — время, затраченное на операции записи от tablet_cell_changelogger.
- User read time — время, затраченное на операции чтения от пользователя.
- tablet_cell_changelogger — время, затраченное на операции чтения от tablet_cell_changelogger.
- root — время, затраченное на операции чтения от пользователя root.
- operations_client — время, затраченное на операции чтения от клиентского пользователя.
- Master memory usage — использование памяти мастером (в ГБ).
- ms-N — использование памяти на master-ноде N.
- LocalRead thread CPU usage — загрузка CPU потоком LocalRead.
- TOTAL — суммарная загрузка по всем master-нодам (в процентах).
- ms-N — загрузка потока LocalRead на master-ноде N.
- User write request rate — частота запросов на запись от пользователя (записей в секунду).
- root — частота запросов на запись от пользователя root.
- robot-odin — частота запросов на запись от пользователя robot-odin.
- scheduler — частота запросов на запись от планировщика.
- tablet_cell_changelogger — частота запросов на запись от tablet_cell_changelogger.
- User read request rate — частота запросов на чтение от пользователя (чтений в секунду).
- root — частота запросов на чтение от пользователя root.
- queue_agent — частота запросов на чтение от пользователя queue_agent.
- operations_client — частота запросов на чтение от клиентского пользователя.
- Create chunk requests — количество запросов на создание чанков (запросов в секунду).
- TOTAL — суммарное количество запросов на создание чанков от всех пользователей.
- root — количество запросов на создание чанков от пользователя root.
- robot-odin — количество запросов на создание чанков от пользователя robot-odin.
- scheduler — количество запросов на создание чанков от планировщика.
- tablet_cell_snapshotter — количество запросов на создание чанков от пользователя tablet_cell_snapshotter.
- В блоке Compute resources:
- CPU distributed vs total — общее и распределенное количество ресурсов CPU в кластере.
- distributes_resources — количество распределенных ресурсов CPU.
- total_cluster_resources — общее количество ресурсов CPU в кластере.
- GPU distributed vs total — общее и распределенное количество ресурсов GPU в кластере..
- distributes_resources — количество распределенных ресурсов GPU.
- total_cluster_resources — общее количество ресурсов GPU в кластере.
- Memory distributed vs total — общее и распределенное количество ресурсов памяти в кластере.
- distributes_resources — количество распределенных ресурсов памяти.
- total_cluster_resources — общее количество ресурсов памяти в кластере.
- Undistributed resources — количество нераспределенных ресурсов.
- memory — количество нераспределенных ресурсов памяти.
- cpu — количество нераспределенных ресурсов CPU.
- CPU distributed vs total — общее и распределенное количество ресурсов CPU в кластере.
- В блоке Scheduler pools:
- CPU: usage, demand, guarantee — использование, запрос и гарантия ресурсов CPU.
- usage — количество используемых ресурсов CPU.
- demand — количество запрошенных ресурсов CPU.
- guarantee — количество гарантированных ресурсов CPU.
- RAM: usage, demand, guarantee — использование, запрос и гарантия ресурсов RAM.
- usage — количество используемой памяти.
- demand — количество запрошенной памяти.
- guarantee — количество гарантированной памяти.
- GPU: usage, demand, guarantee — использование, запрос и гарантия ресурсов GPU.
- usage — количество используемых ресурсов GPU.
- demand — количество запрошенных ресурсов GPU.
- guarantee — количество гарантированных ресурсов GPU.
- Running operation count — количество выполняющихся операций в статусе
running.- lightweight usage — количество lightweight-операций в статусе
running. - usage — количество операций в статусе
running.
- lightweight usage — количество lightweight-операций в статусе
- Total operation count — общее количество операций.
limit — максимально допустимое количество операций.
usage — количество используемых операций.
- CPU: usage, demand, guarantee — использование, запрос и гарантия ресурсов CPU.
- В блоке Problems:
- Offline nodes — ноды в статусе
offline. - Banned nodes — ноды в статусе
banned. - Decomissioned nodes — ноды в состоянии
decommissioned. - Alerts — количество активных предупреждений о проблемах на нодах кластера YTsaurus.
- Offline nodes — ноды в статусе
Настройка алертов в Yandex Monitoring
Чтобы настроить алерты показателей состояния кластера:
- В консоли управления
выберите каталог с кластером, для которого нужно настроить алерты. - В списке сервисов выберите
Monitoring. - В блоке Сервисные дашборды выберите Managed Service for YTsaurus — Cluster Resources.
- На нужном графике нажмите на значок
и выберите пункт Создать алерт. - Если на графике несколько показателей, выберите запрос данных для формирования метрики и нажмите Продолжить. Подробнее о языке запросов см. документацию Yandex Monitoring.
- Задайте пороговые значения
AlarmиWarningдля срабатывания алерта. - Нажмите кнопку Создать алерт.
Чтобы настроить автоматический мониторинг других показателей состояния кластера:
- Создайте алерт.
- Добавьте метрику состояния.
- В параметрах алерта задайте значения порогов для оповещения.
Полный список поддерживаемых метрик см. в документации Monitoring.
Статус кластера
Статус показывает, запущен кластер, остановлен или находится в промежуточном состоянии.
Для просмотра статуса кластера:
- Перейдите на страницу каталога и выберите Managed Service for YTsaurus.
- В строке нужного кластера найдите столбец Статус.
|
Статус |
Описание |
Предлагаемые действия |
|
CREATING |
Идет подготовка к первому запуску |
Подождите немного и приступайте к работе. Время создания кластера зависит от класса хостов. |
|
RUNNING |
Кластер работает в штатном режиме |
Действий не требуется. |
|
STOPPING |
Кластер останавливается |
Через некоторое время кластеру будет присвоен статус |
|
STOPPED |
Кластер остановлен |
Запустите кластер, чтобы вернуть его в работу. |
|
STARTING |
Остановленный ранее кластер запускается |
Через некоторое время кластеру будет присвоен статус |
|
UPDATING |
Обновляется конфигурация кластера |
По завершении обновления кластеру будет присвоен статус, который был до обновления: |
|
DELETING |
Кластер удаляется |
По завершении удаления кластера он будет выведен из работы. Действий не требуется. |
|
ERROR |
Произошла ошибка при выполнении операции с кластером или во время окна технического обслуживания |
Если кластер долго находится в этом статусе, обратитесь в службу поддержки |
|
STATUS_UNKNOWN |
Кластер не может определить свой статус |
Если кластер долго находится в этом статусе, обратитесь в службу поддержки |