Мониторинг состояния кластера ClickHouse® и его хостов
Данные о состоянии кластера и его хостов доступны в консоли управления. Их можно посмотреть на вкладке Мониторинг страницы управления кластером или в сервисе Yandex Monitoring.
Диагностическая информация о состоянии кластера представлена в виде графиков.
Период обновления графиков:
- Для хостов стандартной конфигурации и хостов с увеличенным соотношением количества гигабайт RAM к количеству vCPU (
memory-optimized
): 15 секунд. - Для хостов с гарантированной долей vCPU ниже 100% (
burstable
): 150 секунд.
Примечание
На графиках автоматически применяются наиболее подходящие кратные единицы измерения (мегабайты, гигабайты и т. д.).
Вы можете настроить алерты в сервисе Yandex Monitoring для получения уведомлений о сбоях в работе кластера. В Yandex Monitoring используются два порога срабатывания алерта: Warning
и Alarm
. При превышении заданного порога вы получите оповещения через настроенные каналы уведомлений.
Мониторинг состояния кластера
Для просмотра детальной информации о состоянии кластера Managed Service for ClickHouse®:
-
В консоли управления
перейдите на страницу каталога и выберите сервис Managed Service for ClickHouse. -
Нажмите на имя нужного кластера и выберите вкладку Мониторинг.
-
Чтобы перейти к работе с метриками, дашбордами или алертами в сервисе Yandex Monitoring, нажмите кнопку Открыть в Monitoring на панели сверху.
Если в кластере используется механизм репликации и распределения запросов с использованием ZooKeeper, на вкладке Мониторинг появляются две вкладки:
- ClickHouse — графики, которые показывают работу всего кластера и хостов ClickHouse®.
- ZooKeeper — графики, которые характеризуют работу хостов ZooKeeper.
Если репликация не используется или использует механизм ClickHouse® Keeper, графики с вкладки ClickHouse показываются на общей вкладке Мониторинг.
- Active locks per host — количество активных блокировок, для каждого хоста.
- Average insert query time per host — среднее время исполнения запросов вставки, для каждого хоста.
- Average query time per host — среднее время исполнения запросов, для каждого хоста.
- Average select query time per host — среднее время исполнения запросов выборки, для каждого хоста.
- Connections per host — количество подключений, для каждого хоста.
- Data parts — количество кусков данных.
- Databases — количество баз данных.
- CPU cores usage — количество занятых процессорных ядер.
- CPU cores usage per host — количество занятых процессорных ядер, для каждого хоста.
- CPU usage per host — загрузка процессорных ядер, для каждого хоста.
- Disk read per host — скорость чтения с диска, для каждого хоста (байт/с).
- Disk space usage — занятое дисковое пространство (в байтах).
- Disk space usage per host — занятое дисковое пространство, для каждого хоста (выводится два графика: в байтах и в процентах).
- Disk usage per host — скорость дисковых операций, для каждого хоста (байт/с).
- Disk write per host — скорость записи на диск, для каждого хоста (байт/с).
- Failed insert queries per host — процент неуспешных запросов вставки в секунду, для каждого хоста.
- Failed queries per host — общий процент неуспешных запросов в секунду, для каждого хоста.
- Failed select queries per host — процент неуспешных запросов выборки в секунду, для каждого хоста.
- Inode usage — использованное количество inodes (выводится два графика: в штуках и в процентах).
- Insert queries — количество запросов вставки в секунду.
- Insert queries per host — количество запросов вставки в секунду, для каждого хоста.
- Inserted data — скорость вставки данных (байт/с).
- Inserted data per host — скорость вставки данных, для каждого хоста (байт/с).
- Inserted rows per host — скорость вставки данных, для каждого хоста (строк/с).
- Max data parts per partition — количество кусков данных в партиции, наибольшее среди всех таблиц. Лимит для этой величины определяется настройками СУБД. Приближение к лимиту указывает на чрезмерную нагрузку или низкую эффективность вставки данных.
- Max replication delay across tables — задержка репликации, наибольшая среди всех таблиц. Значения больше нескольких секунд могут указывать на чрезмерную нагрузку или проблемы в работе репликации.
- Memory usage — использование оперативной памяти (в байтах).
- Memory usage per host — использование оперативной памяти, для каждого хоста (выводится два графика: в байтах и в процентах).
- Merged data — скорость слияния данных (байт/с).
- Merged data per host — скорость слияния данных, для каждого хоста (байт/с).
- Merged rows per host — скорость слияния данных, для каждого хоста (строк/с).
- Network data received per host — скорость приема данных из сети, для каждого хоста (байт/с).
- Network data sent per host — скорость отправки данных в сеть, для каждого хоста (байт/с).
- Network usage per host — скорость обмена данными по сети, для каждого хоста (байт/с).
- Read data — скорость чтения данных (байт/с).
- Read data per host — скорость чтения данных, для каждого хоста (байт/с).
- Read rows per host — скорость чтения данных, для каждого хоста (строк/с).
- Replication queue — суммарная очередь репликации всех таблиц.
- Rows of MergeTree tables — количество строк в таблицах семейства MergeTree
. - Select queries — количество запросов выборки в секунду.
- Select queries per host — количество запросов выборки в секунду, для каждого хоста.
- Tables — количество таблиц.
- Total queries — общее количество запросов в секунду.
- Total queries per host — общее количество запросов в секунду, для каждого хоста.
- Waiting locks per host — количество ожидающих блокировок, для каждого хоста.
- Average latency per ZooKeeper host — средняя задержка ответа, для каждого хоста ZooKeeper.
- Average transaction time per ClickHouse® host — среднее время транзакции, для каждого хоста ClickHouse®. Характеризует время, затрачиваемое ClickHouse® на обращения к ZooKeeper.
- Connections per ZooKeeper host — количество подключений, для каждого хоста ZooKeeper.
- CPU cores usage — количество занятых процессорных ядер.
- CPU cores usage per host — количество занятых процессорных ядер, для каждого хоста.
- CPU usage per host — загрузка процессорных ядер, для каждого хоста.
- Disk read per host — скорость чтения с диска, для каждого хоста (байт/с).
- Disk space usage — занятое дисковое пространство (в байтах). Выводится два графика: для каждого хоста и для всех хостов.
- Disk space usage per host — использование дискового пространства, для каждого хоста (в процентах).
- Disk usage per host — скорость дисковых операций, для каждого хоста (байт/с).
- Disk write per host — скорость записи на диск, для каждого хоста (байт/с).
- Ephemeral nodes — количество объектов Ephemeral node.
Примечание
Подробнее об объектах Znode, Ephemeral node и Watch см. в документации ZooKeeper
- Memory usage — использование оперативной памяти (в байтах).
- Memory usage per host — использование оперативной памяти, для каждого хоста (выводится два графика: в байтах и в процентах).
- Network data received per host — скорость приема данных из сети, для каждого хоста (байт/с).
- Network data sent per host — скорость отправки данных в сеть, для каждого хоста (байт/с).
- Network usage per host — скорость обмена данными по сети, для каждого хоста (байт/с).
- Outstanding requests per ZooKeeper host — количество запросов, находящихся в обработке, для каждого хоста ZooKeeper.
- Transactions — количество транзакций в секунду.
- Transactions per ClickHouse® host — количество транзакций в секунду, для каждого хоста ClickHouse®.
- Watches — количество объектов Watch.
- Znodes — количество объектов Znode.
Мониторинг состояния хостов
Для просмотра детальной информации о состоянии отдельных хостов Managed Service for ClickHouse®:
- В консоли управления
перейдите на страницу каталога и выберите сервис Managed Service for ClickHouse. - Нажмите на имя нужного кластера и выберите вкладку Хосты.
- Выберите вкладку Мониторинги.
- Выберите нужный хост из выпадающего списка. Возле имени хоста будет показан его тип:
CLICKHOUSE
илиZOOKEEPER
.
На этой странице выводятся графики, показывающие нагрузку на отдельный хост кластера:
- CPU usage — загрузка процессорных ядер. При повышении нагрузки значение Idle уменьшается.
- Disk read/write bytes — скорость дисковых операций (байт/с).
- Disk IOPS — интенсивность дисковых операций (операций/с).
- Memory usage — использование оперативной памяти (в байтах). При высоких нагрузках значение параметра Free уменьшается, остальные — растут.
- Network bytes — скорость обмена данными по сети (байт/с).
- Network packets — интенсивность обмена данными по сети (пакетов/с).
Настройка алертов в Yandex Monitoring
- В консоли управления
выберите каталог с кластером, для которого нужно настроить алерты. - В списке сервисов выберите
Monitoring. - В блоке Сервисные дашборды выберите:
- Managed Service for ClickHouse® — Cluster Overview для настройки алертов кластера;
- Managed Service for ClickHouse® — ZooKeeper для настройки алертов хостов ZooKeeper.
- Managed Service for ClickHouse® — Host Overview для настройки алертов хостов.
- На нужном графике с показателями нажмите на значок
и выберите Создать алерт. - Если на графике несколько показателей, выберите запрос данных для формирования метрики и нажмите Продолжить. Подробнее о языке запросов см. в документации Yandex Monitoring.
- Задайте значения порогов
Alarm
иWarning
для срабатывания алерта. - Нажмите кнопку Создать алерт.
Чтобы настроить автоматический мониторинг других показателей состояния кластера:
- Создайте алерт.
- Добавьте метрику состояния.
- Задайте значения порогов для оповещения в параметрах алерта.
Рекомендуемые значения порогов для некоторых метрик:
Метрика | Обозначение | Alarm |
Warning |
---|---|---|---|
Максимальное число кусков данных в разделе | ch_system_async_metrics_MaxPartCountForPartition |
250 |
150 |
Количество запросов, завершившихся с ошибкой | ch_system_events_FailedQuery_rate |
20% от общего числа запросов | 10% от общего числа запросов |
Размер использованного хранилища | disk.used_bytes |
95% от размера хранилища | 80% от размера хранилища |
Количество работоспособных хостов | is_alive |
<количество_хостов> - 2 |
<количество_хостов> - 1 |
Чтобы определить пороговые значения метрики ch_system_events_FailedQuery_rate
, используйте значение показателя Total queries
для кластера.
Для метрики disk.used_bytes
значения порогов Alarm
и Warning
задаются только в байтах. Например, рекомендуемые значения для диска размером в 100 ГБ:
Alarm
—102005473280
байт (95%).Warning
—85899345920
байт (80%).
Текущий размер хранилища можно посмотреть в детальной информации о кластере. Полный список поддерживаемых метрик см. в документации Monitoring.
Состояние и статус кластера
Состояние кластера указывает на исправность его хостов, а Статус показывает, запущен кластер, остановлен или находится в промежуточном состоянии.
Для просмотра состояния и статуса кластера:
- В консоли управления
перейдите на страницу каталога и выберите Managed Service for ClickHouse. - Наведите курсор на индикатор в столбце Доступность в строке нужного кластера.
Состояния кластера
Состояние | Описание | Предлагаемые действия |
---|---|---|
ALIVE | Кластер работает в штатном режиме. | Действий не требуется. |
DEGRADED | Кластер работает не на полную мощность: минимум один из хостов имеет состояние, отличное от ALIVE . |
Выполните диагностику:
|
DEAD | Кластер неработоспособен: ни один его хост не работает. | Составьте обращение в службу поддержки
|
UNKNOWN | Состояние кластера неизвестно. | Составьте обращение в службу поддержки
|
Статусы кластера
Статус | Описание | Предлагаемые действия |
---|---|---|
CREATING | Идет подготовка к первому запуску | Подождите немного и приступайте к работе. Время создания кластера зависит от класса хостов. |
RUNNING | Кластер работает в штатном режиме | Действий не требуется. |
STOPPING | Кластер останавливается | Через некоторое время кластеру будет присвоен статус STOPPED , и он будет выведен из работы. Действий не требуется. |
STOPPED | Кластер остановлен | Запустите кластер, чтобы вернуть его в работу. |
STARTING | Остановленный ранее кластер запускается | Через некоторое время кластеру будет присвоен статус RUNNING . Подождите немного и приступайте к работе. |
UPDATING | Выполняется обновление состояния кластера | По завершении обновления ему будет присвоен статус RUNNING . Подождите немного и приступайте к работе. |
ERROR | Произошла ошибка, которая не позволяет кластеру продолжить работу | Выполните начальную диагностику:
|
STATUS_UNKNOWN | Кластер не может определить свой статус | Выполните начальную диагностику:
|
ClickHouse® является зарегистрированным товарным знаком ClickHouse, Inc