Мониторинг состояния кластера Yandex MPP Analytics for PostgreSQL и хостов
Данные о состоянии кластера и его хостов доступны в консоли управления
Диагностическая информация о состоянии кластера представлена в виде графиков.
Новые данные для графиков поступают каждые 15 секунд.
Примечание
На графиках автоматически применяются наиболее подходящие кратные единицы измерения (мегабайты, гигабайты и т. д.).
Принципы построения мониторинга
Для упрощения поиска проблем в консоль управления добавлены инструменты визуальной диагностики (дашборды), основанные на следующих принципах:
- Иерархичность: диагностика строится от общего к частному. Сначала вы видите агрегированные сигналы состояния всего кластера, а при обнаружении проблем можете углубиться в детали по конкретным компонентам (кластер, пулер, гибридное хранилище) или потребляемым ресурсам
- Прагматичность: вместо сотен графиков вам предлагаются только ключевые индикаторы. Особое внимание уделено сигналам — метрикам с четкими граничными значениями, которые сразу показывают наличие проблемы.
- Автономность: документация и дашборды спроектированы так, чтобы вы могли самостоятельно выявить причину деградации без обращения в поддержку.
- Итеративность: развитие инструментов диагностики ведется поэтапно на основе реального пользовательского опыта. Анализ поступивших запросов на улучшение инструментов позволяет сделать диагностику более точной и удобной.
Система сигналов
В верхней части дашборда расположены составные сигналы, которые агрегируют состояние множества метрик. Они работают в режиме «светофора»:
| Статус | Значение | Описание |
|---|---|---|
| 🟢 OK | 2 |
Все важные индикаторы в норме. Кластер и компоненты работают штатно. |
| 🟠 Warn | 1 |
Обнаружены незначительные отклонения. Кластер работает, но требуется внимание для предотвращения ухудшения (например, рост очереди подключений или повышенная задержка). |
| 🔴 Crit | 0 |
Критическая деградация. Наблюдается нестабильная работа, недоступность компонентов или исчерпание ресурсов. Требуется немедленное вмешательство. |
| ⚪ Unknown | -1 |
Данные отсутствуют или статус не определен. |
Дашборд Cluster
Основным инструментом диагностики является дашборд Cluster. Он предоставляет единую панель управления состоянием кластера.
-
Перейдите на страницу каталога
. -
Перейдите в сервис Yandex MPP Analytics for PostgreSQL.
-
Нажмите на имя нужного кластера и выберите вкладку
Мониторинг.На открывшейся странице будет отображен дашборд с графиками и сигналами работы кластера Yandex MPP Analytics for PostgreSQL.
-
Чтобы перейти к работе с метриками, дашбордами или алертами в сервисе Yandex Monitoring, нажмите кнопку Открыть в Monium на панели сверху.
Дашборд состоит из следующих секций:
-
Составные сигналы (верхний уровень):
- Cluster — общий статус кластера.
- Pooler — статус пулера соединений.
- Connections — статус подключений.
- Resources — статус ресурсов хостов.
- Queries — статус выполнения тестовых запросов на чтение и запись.
-
Cluster:
- Read availability — доступность кластера на чтение за последние 5 минут.
- Write availability — доступность кластера на запись за последние 5 минут.
- Master switch history — история переключений роли мастера (FQDN текущего мастера).
- XID utilization — процент использования счетчика транзакций
. - Segments down — количество сегментов в состоянии
down. - Segments not in preferred role — количество сегментов, не находящихся в предпочтительной роли.
- Segments not synchronised — количество несинхронизированных сегментов.
- Log events — количество событий в логах типов
WARNING,ERROR,FATAL.
-
Pooler:
- Availability — доступность пулера за последние 5 минут.
- CPU usage — утилизация CPU процессом пулера.
- Memory usage — потребление памяти процессом пулера.
- Network usage — объем отправленных и полученных данных.
- Server connections — количество активных и свободных серверных соединений.
- Client connections — количество активных клиентских соединений.
- Query timings — распределение длительности запросов по перцентилям.
-
Connections:
- Total master connections utilization — общая утилизация подключений к мастеру.
- Idle in transaction master connections utilization — утилизация подключений, простаивающих в транзакции.
- Master connections — детализация подключений к мастеру по состояниям:
active,idle,idle in transaction,waiting,aborted, суммарное число по всем состояниямtotalи ограничениеmax. - Total segments connections utilization — утилизация подключений по сегментам.
-
Resources:
- Секция разделена на подгруппы Master hosts и Segment hosts.
- Load Average — средняя нагрузка за 15 минут.
- CPU utilization — утилизация процессора.
- Virtual memory consumption — потребление виртуальной памяти.
- Physical memory consumption — потребление физической памяти.
- Network packets — количество отправленных и полученных пакетов в секунду.
- Network packets in queues — количество пакетов в очередях сетевого интерфейса.
- Network traffic — объем отправленного и полученного трафика.
- Disk space utilization — процент занятого дискового пространства.
- Disk IO — объем чтения и записи с диска в байтах в секунду.
- Interconnect retransmits ratio (только для сегментов) — отношение переотправленных пакетов межсегментного взаимодействия к общему числу отправленных.
-
Queries:
- Read test query duration — время выполнения тестового запроса на чтение.
- Write test query duration — время выполнения тестового запроса на запись.
- Read duration from each segment — время выполнения тестового запроса на чтение в разрезе сегментов.
- Queries sent to the cluster — количество новых и завершенных с ошибкой запросов.
- Queries execution time distribution — гистограмма длительности завершенных запросов.
- Running queries execution time distribution — гистограмма распределения длительности выполнения запросов.
- Spill files count — количество временных файлов (всего и по хостам).
- Spill files size — размер временных файлов (всего и по хостам).
-
Resource groups:
- Графики в данной секции отображают информацию в разрезе по группам процессов:
- admin_group — в административной группе;
- default_group — в группе по умолчанию.
- Connections utilization by resource group — утилизация подключений.
- CPU usage by resource group — потребление CPU.
- Memory utilization by resource group — процент утилизации памяти:
- Memory usage by resource group — абсолютное значение использованной и доступной памяти.
- Running transactions by resource group — количество выполняемых транзакций.
- Executed transactions by resource group — частота транзакций.
- Queueing transactions by resource group — количество транзакций в очереди.
- Графики в данной секции отображают информацию в разрезе по группам процессов:
-
Background activities:
- Vacuum: catalog:
- Catalog size — размер системного каталога в разрезе по базам данных.
- Catalog percent of dead tuples — процент «мертвых» кортежей в каталоге в разрезе по базам данных.
- Vacuum: pg_attribute:
- pg_attribute size — размер таблицы
pg_attributeв разрезе по базам данных. - pg_attribute percent of dead tuples — процент «мертвых» кортежей в таблице
pg_attributeв разрезе по базам данных.
- pg_attribute size — размер таблицы
- Vacuum/analyze: user tables:
- Tables vacuum age — распределение таблиц по числу дней с момента последнего выполнения очистки (
VACUUM). - Tables analyze age — распределение таблиц по числу дней с момента последнего сбора статистики (
ANALYZE).
- Tables vacuum age — распределение таблиц по числу дней с момента последнего выполнения очистки (
- Vacuum: catalog:
-
Hybrid storage:
- CPU usage per host — потребление CPU компонентом
yproxyв разрезе по хостам кластера. - Memory usage per host — потребление памяти компонентом
yproxyв разрезе по хостам кластера. - Storage requests — количество запросов к хранилищу (всего, успешных, с ошибками).
- Storage objects count — общее количество объектов в хранилище.
- Storage objects size — суммарный размер объектов в хранилище.
- CPU usage per host — потребление CPU компонентом
Мониторинг состояния хостов
Для просмотра детальной информации о состоянии отдельных хостов Yandex MPP Analytics for PostgreSQL:
-
Перейдите на страницу каталога
. -
Перейдите в сервис Yandex MPP Analytics for PostgreSQL.
-
Нажмите на имя нужного кластера и выберите вкладку
Мониторинг → Хосты. -
Выберите нужный хост.
На открывшейся странице будут отображены графики состояния конкретного хоста кластера.
-
Чтобы перейти к работе с метриками, дашбордами или алертами в сервисе Yandex Monitoring, нажмите кнопку Открыть в Monium на панели сверху.
На странице отображаются следующие графики:
- Disk usage — объем занятого дискового пространства (в байтах).
- Load Average — средняя нагрузка процессорных ядер за 1 минуту, 5 минут и 15 минут.
- CPU — загрузка процессорных ядер. При повышении нагрузки значение
Idleуменьшается. - Virtual memory usage — использование вирутуальной памяти (в байтах).
- Disk Await — среднее время дисковых операций.
- Memory usage — использование оперативной памяти (в байтах). При высоких нагрузках значение параметра
Freeуменьшается, а значения остальных — растут. - Disk IOPS — количество дисковых операций в секунду.
- Network Bytes — скорость обмена данными по сети.
- Disk IOPS in progress — количество незавершенных дисковых операций.
- Network Packets — интенсивность обмена данными по сети.
- Disk Metrics Details:
- Disk used quota — использование квоты для дисковых операций.
- Disk write throttler latency (percentiles) — задержка записи, внесенная при превышении квоты диска, по процентилям.
- Disk read throttler latency (percentiles) — задержка чтения, внесенная при превышении квоты диска, по процентилям.
- Disk read latency (percentiles) — время чтения с диска, по процентилям.
- Disk write latency (percentiles) — время записи на диск, по процентилям.
- Disk read operations — среднее и максимальное количество операций чтения в секунду.
- Disk write operations — среднее и максимальное количество операций записи в секунду.
- Disk read bytes — средняя и максимальная скорость чтения с диска.
- Disk write bytes — средняя и максимальная скорость записи на диск.
Мониторинг состояния сети
Для просмотра детальной информации о состоянии сети каждого хоста кластера Yandex MPP Analytics for PostgreSQL:
-
Перейдите на страницу каталога
. -
Перейдите в сервис Yandex MPP Analytics for PostgreSQL.
-
Нажмите на имя нужного кластера и выберите вкладку
Мониторинг → Сеть.На открывшейся странице будут отображены графики состояния сети каждого хоста кластера.
Примечание
Вы можете выбрать хост, чтобы посмотреть графики состояния сети только одного хоста.
-
Чтобы перейти к работе с метриками, дашбордами или алертами в сервисе Yandex Monitoring, нажмите кнопку Открыть в Monium на панели сверху.
На странице отображаются следующие графики:
-
Interfaces:
- Сlient Interface Packets — число полученных и отправленных пакетов на клиентском сетевом интерфейсе.
- Service Interface Packets — число полученных и отправленных пакетов на сервисном сетевом интерфейсе.
- Сlient Interface Bytes — объем полученных и отправленных данных на клиентском сетевом интерфейсе (в байтах).
- Service Interface Bytes — объем полученных и отправленных данных на сервисном сетевом интерфейсе (в байтах).
- Client Interface Drops and Errors — число ошибок и отброшенных пакетов при отправке и передаче на клиентском сетевом интерфейсе.
- Service Interface Drops and Errors — число ошибок и отброшенных пакетов при отправке и передаче на сервисном сетевом интерфейсе.
-
CPU:
- Cpu Usage — использование процессорных ядер (в процентах).
-
Ping and SSH response time:
- Host Ping Average Response — среднее время ответа пинга (в миллисекундах).
- Host SSH Response Time — время ответа при подключении через SSH (в миллисекундах).
- Host Ping Packet Loss — потерянные пакеты пинга (в процентах).
-
TCP counters:
- TcpActiveConnection — число активных TCP-соединений в состоянии
ESTABLISHEDилиCLOSE-WAIT. - TcpEstabResets — число раз, когда TCP-соединения совершали прямой переход в состояние
CLOSEDлибо из состоянияESTABLISHED, либо из состоянияCLOSE-WAIT. - TCP Errors — число ошибок при передаче TCP-пакетов.
- TCP Retransmission — число TCP-пакетов, переданных повторно.
- TcpActiveConnection — число активных TCP-соединений в состоянии
-
ICMP Counters:
- IcmpErrors — число ICMP-сообщений об ошибках.
- IcmpDestUnreached — число ICMP- и ICMPv6-сообщений о недоступности назначения.
- Icmp6PacketsTooBig — число ICMPv6-сообщений о слишком больших пакетах.
-
UDP counters:
- UdpSndbufErrors — число ошибок буфера при отправке UDP-пакетов.
- UdpRcvbufErrors — число ошибок буфера при приеме UDP-пакетов.
- UDP Datagrams — число UDP-пакетов.
- UDP NoPorts — число принятых UDP-пакетов, для которых на порте назначения не было слушателя.
-
IP:
- IpMulticastPackets — число полученных и отправленных многоадресных пакетов.
- IpBroadcastPackets — число полученных и отправленных широковещательных пакетов.
- Ip6 Neighbor Discovery — число отправленных запросов и объявлений маршрутизаторов.
- Ip6NoRoutes — число IPv6-пакетов, сброшенных из-за отсутствия маршрута.
Мониторинг PXF
Для просмотра детальной информации о состоянии PXF:
-
Перейдите на страницу каталога
. -
Перейдите в сервис Yandex MPP Analytics for PostgreSQL.
-
Нажмите на имя нужного кластера и выберите вкладку
Мониторинг → PXF.На открывшейся странице будут отображены графики состояния PXF.
-
Чтобы перейти к работе с метриками, дашбордами или алертами в сервисе Yandex Monitoring, нажмите кнопку Открыть в Monium на панели сверху.
На странице отображаются следующие графики:
- Liveness — состояние PXF на хостах.
- JVM memory — использование памяти JVM PXF (в ГБ).
- JVM Threads — число потоков JVM PXF.
- Connections — число подключений.
- PXF threads — число потоков PXF.
- PXF Busy threads — число занятых потоков PXF.
- Log messages — число сообщений типа
warn,trace,info,fatal,errorиdebug. - Sent data — объем отправленных данных.
- Received data — объем полученных данных.
- File handles — число файлов, открытых в процессе PXF.
- Sent records — число записей, отправленных PXF.
- Received records — число записей, полученных PXF.
Мониторинг через дашборд
Для просмотра дашборда кластера Yandex MPP Analytics for PostgreSQL:
-
Перейдите на страницу каталога
. -
Перейдите в сервис Yandex MPP Analytics for PostgreSQL.
-
Нажмите на имя нужного кластера и выберите вкладку
Мониторинг → Дашборд.На открывшейся странице будут отображены графики дашборда кластера.
-
Чтобы перейти к работе с метриками, дашбордами или алертами в сервисе Yandex Monitoring, нажмите кнопку Открыть в Monium на панели сверху.
На странице отображаются следующие графики:
-
Running queries:
- Test write query — время выполнения тестовой записи с использованием политики
DISTRIBUTED REPLICATED. - Test read query — время выполнения тестового запроса на чтение со случайного сегмента.
- Overall cluster's query execution time — гистограмма времени выполнения запросов в кластере.
- Test write query — время выполнения тестовой записи с использованием политики
-
Cluster liveliness:
- Cluster sessions — количество сессий в состояниях:
- active — выполняют запрос;
- waiting — ожидают команды;
- idle in transaction — транзакция начата, но выполнение запроса не происходит (например, не сделали
COMMIT).
- Number of live segments — количество запущенных экземпляров сегментов, включая зеркала.
- Queries sent to the cluster — количество принятых и прерванных (отмененных) запросов.
- Cluster sessions — количество сессий в состояниях:
-
Segments health:
- Idle CPU — неиспользуемый ресурс CPU по хостам-сегментам. Чем меньше значение, тем выше загрузка хостов.
- Reserved memory — использование оперативной памяти (в байтах) по хостам-сегментам. Во избежание ошибок необходимо поддерживать значение в пределах лимита.
- IOPS — объем дисковых операций (в байтах) суммарно со всех хостов-сегментов.
- Number of network packets — количество полученных и отправленных пакетов на сетевых интерфейсах по хостам-сегментам. Приближение к лимиту может привести к задержке в выполнении запросов.
- Number of network packets in queues — количество пакетов в очереди на сетевых интерфейсах по хостам-сегментам. Приближение к лимиту может привести к задержке в выполнении запросов.
- Network traffic — утилизация пропускной способности входящего сетевого потока по хостам-сегментам. Приближение к лимиту может привести к задержке в выполнении запросов.
- Ping time — время выполнения пинга с хоста-мастера к хостам-сегментам кластера.
- Query execution time per segment — суммарное время, потраченное на выполнение фрагментов (slice) запросов на каждом из хостов-сегментов кластера.
-
Database internal metrics:
- Free memory for resource groups — доступная оперативная память по ресурсным группам.
- Summary CPU usage for resource groups — суммарное использование CPU ресурсными группами на кластере. Может быть больше 100%, т. к. собирается со всех хостов кластера.
- CPU throttle time for cgroups — время, в течение которого процессам ресурсной группы не выделяется время CPU из-за его полной утилизации (по хостам). При возрастании показателя на порядки (с миллисекунд до минут) может привести к задержке в выполнении запросов.
- Summary spill size — суммарный размер временных (spill) файлов, образованных в результате нехватки RAM.
- Interconnect quality — процент повторных передач пакетов между сегментами (трафик Greenplum® Interconnect
) в общем объеме отправляемых пакетов с каждого хоста-сегмента. Чем больше показатель, тем менее стабильно работает сеть. - Background activity - the number of sessions — количество системных сессий на каждом сегменте в состояниях:
- active — выполняют запрос;
- idle — ожидают команды;
- aborted — завершились ошибкой.
- Background activity - the longest query — время выполнения самого долгого системного запроса на каждом из сегментов.
Мониторинг ресурсных групп
Для просмотра информации по ресурсным группам Yandex MPP Analytics for PostgreSQL:
-
Перейдите на страницу каталога
. -
Перейдите в сервис Yandex MPP Analytics for PostgreSQL.
-
Нажмите на имя нужного кластера и выберите вкладку
Мониторинг → Ресурсные группы.На открывшейся странице будут отображены графики работы ресурсных групп.
-
Чтобы перейти к работе с метриками, дашбордами или алертами в сервисе Yandex Monitoring, нажмите кнопку Открыть в Monium на панели сверху.
На странице отображаются следующие графики:
- CPU Usage — суммарная по всем хостам утилизация CPU в ресурсной группе.
- Memory Usage — суммарная по всем хостам утилизация памяти в ресурсной группе.
- Running queries — текущее количество активных транзакций, выполняющихся в ресурсной группе.
- Queueing queries — текущее количество транзакций, находящихся в очереди для данной ресурсной группы.
- Executed queries — общее количество транзакций, выполненных в ресурсной группе с момента последнего запуска кластера (за исключением Running queries).
- Queued queries — общее количество транзакций, которые были поставлены в очередь для данной ресурсной группы с момента последнего запуска кластера (за исключением Queueing queries).
Также для просмотра доступна информация по ресурсным группам в разрезе хостов кластера Yandex MPP Analytics for PostgreSQL:
-
Перейдите на страницу каталога
. -
Перейдите в сервис Yandex MPP Analytics for PostgreSQL.
-
Нажмите на имя нужного кластера и выберите вкладку
Мониторинг → Ресурсные группы по хостам.На открывшейся странице будут отображены графики работы ресурсных групп по хостам.
-
Чтобы перейти к работе с метриками, дашбордами или алертами в сервисе Yandex Monitoring, нажмите кнопку Открыть в Monium на панели сверху.
На странице отображаются следующие графики:
- CPU Usage — суммарная утилизация CPU в ресурсной группе в рамках хоста.
- Memory Usage — суммарная утилизация памяти в ресурсной группе в рамках хоста.
Интеграция с Yandex Monitoring
Чтобы настроить алерты показателей состояния кластера и хостов:
- В консоли управления
выберите каталог с кластером, для которого нужно настроить алерты. - Перейдите в сервис
Monitoring. - В блоке Сервисные дашборды выберите:
- Yandex MPP Analytics for PostgreSQL — Cluster Overview для настройки алертов кластера;
- Yandex MPP Analytics for PostgreSQL — Host Overview для настройки алертов хостов.
- На нужном графике с показателями нажмите на значок
и выберите пункт Создать алерт. - Если показателей на графике больше одного, выберите запрос данных для формирования метрики и нажмите Продолжить. Подробнее о языке запросов см. в документации Yandex Monitoring.
- Задайте значения порогов
AlarmиWarningдля оповещения. - Нажмите кнопку Создать алерт.
- Для составных сигналов рекомендуется устанавливать алерты на переход в статус
Crit(значение0) илиWarn(значение1).
Чтобы настроить автоматический мониторинг других показателей состояния кластера:
- Создайте алерт.
- Добавьте метрику состояния.
- В параметрах алерта задайте значения порогов для оповещения.
Полный список поддерживаемых метрик см. в документации Monitoring.
Состояние и статус кластера
Состояние кластера указывает на исправность его хостов, а Статус показывает, запущен кластер, остановлен или находится в промежуточном состоянии.
Для просмотра состояния и статуса кластера:
- Перейдите на страницу каталога
. - Перейдите в сервис Yandex MPP Analytics for PostgreSQL.
- Наведите курсор на индикатор в столбце Доступность в строке нужного кластера.
Состояния кластера
| Состояние | Описание | Предлагаемые действия |
|---|---|---|
| ALIVE | Кластер работает в штатном режиме. | Действий не требуется. |
| DEGRADED | Кластер работает не на полную мощность: минимум один из хостов имеет состояние, отличное от ALIVE. |
Выполните диагностику:
|
| DEAD | Кластер неработоспособен: ни один его хост не работает. | Составьте обращение в службу поддержки
|
| UNKNOWN | Состояние кластера неизвестно. | Составьте обращение в службу поддержки
|
Статусы кластера
| Статус | Описание | Предлагаемые действия |
|---|---|---|
| CREATING | Идет подготовка к первому запуску | Подождите немного и приступайте к работе. Время создания кластера зависит от класса хостов. |
| RUNNING | Кластер работает в штатном режиме | Действий не требуется. |
| STOPPING | Кластер останавливается | Через некоторое время кластеру будет присвоен статус STOPPED, и он будет выведен из работы. Действий не требуется. |
| STOPPED | Кластер остановлен | Запустите кластер, чтобы вернуть его в работу. |
| STARTING | Остановленный ранее кластер запускается | Через некоторое время кластеру будет присвоен статус RUNNING. Подождите немного и приступайте к работе. |
| UPDATING | Обновляется конфигурация кластера | По завершении обновления кластеру будет присвоен статус, который был до обновления: RUNNING или STOPPED. |
| ERROR | Произошла ошибка при выполнении операции с кластером или во время окна технического обслуживания | Если кластер долго находится в этом статусе, обратитесь в службу поддержки |
| STATUS_UNKNOWN | Кластер не может определить свой статус | Если кластер долго находится в этом статусе, обратитесь в службу поддержки |
Greenplum® и Greenplum Database® являются зарегистрированными товарными знаками или товарными знаками Broadcom Inc в США и/или других странах.