Мониторинг состояния кластера Yandex MPP Analytics for PostgreSQL и хостов
Данные о состоянии кластера и его хостов доступны в консоли управления
Диагностическая информация о состоянии кластера представлена в виде графиков.
Новые данные для графиков поступают каждые 15 секунд.
Примечание
На графиках автоматически применяются наиболее подходящие кратные единицы измерения (мегабайты, гигабайты и т. д.).
Принципы построения мониторинга
Для упрощения поиска проблем в консоль управления добавлены инструменты визуальной диагностики (дашборды), основанные на следующих принципах:
- Иерархичность: диагностика строится от общего к частному. Сначала вы видите агрегированные сигналы состояния всего кластера, а при обнаружении проблем можете углубиться в детали по конкретным компонентам (кластер, пулер, гибридное хранилище) или потребляемым ресурсам
- Прагматичность: вместо сотен графиков вам предлагаются только ключевые индикаторы. Особое внимание уделено сигналам — метрикам с четкими граничными значениями, которые сразу показывают наличие проблемы.
- Автономность: документация и дашборды спроектированы так, чтобы вы могли самостоятельно выявить причину деградации без обращения в поддержку.
- Итеративность: развитие инструментов диагностики ведется поэтапно на основе реального пользовательского опыта. Анализ поступивших запросов на улучшение инструментов позволяет сделать диагностику более точной и удобной.
Система сигналов
В верхней части дашборда расположены сигналы, которые агрегируют состояние множества метрик. Они работают в режиме «светофора»:
| Статус | Значение | Описание |
|---|---|---|
| 🟢 OK | 2 |
Все важные индикаторы в норме. Кластер и компоненты работают штатно. |
| 🟠 Warn | 1 |
Обнаружены незначительные отклонения. Кластер работает, но требуется внимание для предотвращения ухудшения (например, рост очереди подключений или повышенная задержка). |
| 🔴 Crit | 0 |
Критическая деградация. Наблюдается нестабильная работа, недоступность компонентов или исчерпание ресурсов. Требуется немедленное вмешательство. |
| ⚪ Unknown | -1 |
Данные отсутствуют или статус не определен. |
Дашборд Кластер
Основным инструментом диагностики является дашборд Кластер. Он предоставляет единую панель управления состоянием кластера.
-
Перейдите на страницу каталога
. -
Перейдите в сервис Yandex MPP Analytics for PostgreSQL.
-
Нажмите на имя нужного кластера и выберите вкладку
Мониторинг.На открывшейся странице будет отображен дашборд с графиками и сигналами работы кластера Yandex MPP Analytics for PostgreSQL.
-
Чтобы перейти к работе с метриками, дашбордами или алертами в сервисе Yandex Monitoring, нажмите кнопку Открыть в Monium на панели сверху.
Дашборд состоит из следующих секций:
-
Сигналы:
- Cluster — общий статус кластера.
- Pooler — статус пулера соединений.
- Connections — статус подключений.
- Resources — статус ресурсов хостов.
- Queries — статус выполнения тестовых запросов на чтение и запись.
-
Cluster:
- Read availability — доступность кластера на чтение за последние 5 минут.
- Write availability — доступность кластера на запись за последние 5 минут.
- Master switch history — история переключений роли мастера (FQDN текущего мастера).
- XID utilization — процент использования счетчика транзакций
. - Segments down — количество сегментов в состоянии
down. - Segments not in preferred role — количество сегментов, не находящихся в предпочтительной роли.
- Segments not synchronised — количество несинхронизированных сегментов.
- Log events — количество событий в логах типов
WARNING,ERROR,FATAL.
-
Pooler:
- Availability — доступность пулера за последние 5 минут.
- CPU usage — утилизация CPU процессом пулера.
- Memory usage — потребление памяти процессом пулера.
- Network usage — объем отправленных и полученных данных.
- Server connections — количество активных и свободных серверных соединений.
- Client connections — количество активных клиентских соединений.
- Query timings — распределение длительности запросов по перцентилям.
-
Connections:
- Total master connections utilization — общая утилизация подключений к мастеру.
- Idle in transaction master connections utilization — утилизация подключений, простаивающих в транзакции.
- Master connections — детализация подключений к мастеру по состояниям:
active,idle,idle in transaction,waiting,aborted, суммарное число по всем состояниямtotalи ограничениеmax. - Total segments connections utilization — утилизация подключений по сегментам.
-
Resources:
- Секция разделена на подгруппы Master hosts и Segment hosts.
- Load Average — средняя нагрузка за 15 минут.
- CPU utilization — утилизация процессора.
- Virtual memory consumption — потребление виртуальной памяти.
- Physical memory consumption — потребление физической памяти.
- Network packets — количество отправленных и полученных пакетов в секунду.
- Network packets in queues — количество пакетов в очередях сетевого интерфейса.
- Network traffic — объем отправленного и полученного трафика.
- Disk space utilization — процент занятого дискового пространства.
- Disk IO — объем чтения и записи с диска в байтах в секунду.
- Interconnect retransmits ratio (только для сегментов) — отношение переотправленных пакетов межсегментного взаимодействия к общему числу отправленных.
-
Queries:
- Read test query duration — время выполнения тестового запроса на чтение.
- Write test query duration — время выполнения тестового запроса на запись.
- Read duration from each segment — время выполнения тестового запроса на чтение в разрезе сегментов.
- Queries sent to the cluster — количество новых и завершенных с ошибкой запросов.
- Queries execution time distribution — гистограмма длительности завершенных запросов.
- Running queries execution time distribution — гистограмма распределения длительности выполнения запросов.
- Spill files count — количество временных файлов (всего и по хостам).
- Spill files size — размер временных файлов (всего и по хостам).
-
Resource groups:
- Графики в данной секции отображают информацию в разрезе по группам процессов:
- admin_group — в административной группе;
- default_group — в группе по умолчанию.
- Connections utilization by resource group — утилизация подключений.
- CPU usage by resource group — потребление CPU.
- Memory utilization by resource group — процент утилизации памяти:
- Memory usage by resource group — абсолютное значение использованной и доступной памяти.
- Running transactions by resource group — количество выполняемых транзакций.
- Executed transactions by resource group — частота транзакций.
- Queueing transactions by resource group — количество транзакций в очереди.
- Графики в данной секции отображают информацию в разрезе по группам процессов:
-
Background activities:
- Vacuum: catalog:
- Catalog size — размер системного каталога в разрезе по базам данных.
- Catalog percent of dead tuples — процент «мертвых» кортежей в каталоге в разрезе по базам данных.
- Vacuum: pg_attribute:
- pg_attribute size — размер таблицы
pg_attributeв разрезе по базам данных. - pg_attribute percent of dead tuples — процент «мертвых» кортежей в таблице
pg_attributeв разрезе по базам данных.
- pg_attribute size — размер таблицы
- Vacuum/analyze: user tables:
- Tables vacuum age — распределение таблиц по числу дней с момента последнего выполнения очистки (
VACUUM). - Tables analyze age — распределение таблиц по числу дней с момента последнего сбора статистики (
ANALYZE).
- Tables vacuum age — распределение таблиц по числу дней с момента последнего выполнения очистки (
- Vacuum: catalog:
-
Hybrid storage:
- CPU usage per host — потребление CPU компонентом
yproxyв разрезе по хостам кластера. - Memory usage per host — потребление памяти компонентом
yproxyв разрезе по хостам кластера. - Storage requests — количество запросов к хранилищу (всего, успешных, с ошибками).
- Storage objects count — общее количество объектов в хранилище.
- Storage objects size — суммарный размер объектов в хранилище.
- CPU usage per host — потребление CPU компонентом
Дашборд Хосты
Для просмотра детальной информации о состоянии отдельных хостов Yandex MPP Analytics for PostgreSQL используется дашборд Хосты. В верхней части дашборда расположены сигналы состояния ресурсов (CPU, Memory, Disk), ниже — детальные графики по категориям.
-
Перейдите на страницу каталога
. -
Перейдите в сервис Yandex MPP Analytics for PostgreSQL.
-
Нажмите на имя нужного кластера и выберите вкладку
Мониторинг → Хосты. -
Выберите нужный хост.
На открывшейся странице будут отображены графики состояния конкретного хоста кластера.
-
Чтобы перейти к работе с метриками, дашбордами или алертами в сервисе Yandex Monitoring, нажмите кнопку Открыть в Monium на панели сверху.
Дашборд состоит из следующих секций:
-
Сигналы:
- CPU — нагрузка на процессор.
- Memory — использование и доступность виртуальной памяти.
- Disk — заполненность диска данных.
-
CPU:
- Load average 15 min — средняя нагрузка на процессор за 15 минут.
- Load average 5 min — средняя нагрузка на процессор за 5 минут.
- Load average 1 min — средняя нагрузка на процессор за 1 минуту.
- CPU utilization — процент загрузки процессорных ядер.
- CPU pressure time — время в микросекундах, в течение которого процессы ожидали доступа к процессору.
- CPU — распределение времени процессора по различным состояниям (
user,system,idle,iowaitи другие). - Process statuses — количество процессов в различных состояниях:
running,idle,interruptible sleep,uninterruptible sleep,zombie.
-
Memory:
- Virtual memory utilization — процент использования виртуальной памяти.
- Virtual memory usage — объем использованной виртуальной памяти в байтах.
- Out of memory count — количество событий нехватки памяти.
- Memory utilization — процент использования физической оперативной памяти.
- Memory usage — объем использованной физической памяти в байтах.
- Memory pressure time — время, в течение которого процессы ожидали доступа к памяти.
-
Disk:
- Disk usage percent — процент занятого места на диске данных.
- Disk usage — объем занятых данных на диске в байтах.
- Disk read/write operations — количество операций чтения и записи в секунду.
- Disk read/write bytes — объем данных в байтах, прочитанных и записанных за секунду.
- Disk read and write time — среднее время выполнения операций чтения и записи.
-
Disk Metrics Details:
- Disk read latency (percentiles) — распределение времени операций чтения с диска по процентилям.
- Disk write latency (percentiles) — распределение времени операций записи на диск по процентилям.
- Disk read throttler latency (percentiles) — распределение задержек операций чтения с диска, вносимых механизмом ограничения при превышении квоты, по процентилям.
- Disk write throttler latency (percentiles) — распределение задержек операций записи на диск, вносимых механизмом ограничения при превышении квоты, по процентилям.
- Disk read operations — среднее и максимальное количество операций чтения с диска в секунду.
- Disk write operations — среднее и максимальное количество операций записи на диск в секунду.
- Disk used quota — процент использования квоты на дисковые операции.
- Disk read bytes — среднее и максимальное количество прочитанных байт с диска.
- Disk write bytes — среднее и максимальное количество записанных байт на диск.
-
Network:
- Client network reliability — индикатор надежности сетевого интерфейса.
- Client network packets sent — количество отправленных пакетов в секунду на интерфейсе.
- Client network packets received — количество полученных пакетов в секунду на интерфейсе.
- Client network errors — количество ошибок при отправке и получении пакетов.
- Client network drops — количество отброшенных пакетов.
- Client network interface errors/drops — детализация ошибок и потерь по интерфейсу.
- Client network bytes — объем трафика (байт в секунду) на интерфейсе.
Мониторинг PXF
Для просмотра детальной информации о состоянии PXF:
-
Перейдите на страницу каталога
. -
Перейдите в сервис Yandex MPP Analytics for PostgreSQL.
-
Нажмите на имя нужного кластера и выберите вкладку
Мониторинг → PXF.На открывшейся странице будут отображены графики состояния PXF.
-
Чтобы перейти к работе с метриками, дашбордами или алертами в сервисе Yandex Monitoring, нажмите кнопку Открыть в Monium на панели сверху.
На странице отображаются следующие графики:
- Liveness — состояние PXF на хостах.
- JVM memory — использование памяти JVM PXF (в ГБ).
- JVM Threads — число потоков JVM PXF.
- Connections — число подключений.
- PXF threads — число потоков PXF.
- PXF Busy threads — число занятых потоков PXF.
- Log messages — число сообщений типа
warn,trace,info,fatal,errorиdebug. - Sent data — объем отправленных данных.
- Received data — объем полученных данных.
- File handles — число файлов, открытых в процессе PXF.
- Sent records — число записей, отправленных PXF.
- Received records — число записей, полученных PXF.
Мониторинг ресурсных групп
Для просмотра информации по ресурсным группам Yandex MPP Analytics for PostgreSQL:
-
Перейдите на страницу каталога
. -
Перейдите в сервис Yandex MPP Analytics for PostgreSQL.
-
Нажмите на имя нужного кластера и выберите вкладку
Мониторинг → Ресурсные группы.На открывшейся странице будут отображены графики работы ресурсных групп.
-
Чтобы перейти к работе с метриками, дашбордами или алертами в сервисе Yandex Monitoring, нажмите кнопку Открыть в Monium на панели сверху.
На странице отображаются следующие графики:
- CPU Usage — суммарная по всем хостам утилизация CPU в ресурсной группе.
- Memory Usage — суммарная по всем хостам утилизация памяти в ресурсной группе.
- Running queries — текущее количество активных транзакций, выполняющихся в ресурсной группе.
- Queueing queries — текущее количество транзакций, находящихся в очереди для данной ресурсной группы.
- Executed queries — общее количество транзакций, выполненных в ресурсной группе с момента последнего запуска кластера (за исключением Running queries).
- Queued queries — общее количество транзакций, которые были поставлены в очередь для данной ресурсной группы с момента последнего запуска кластера (за исключением Queueing queries).
Также для просмотра доступна информация по ресурсным группам в разрезе хостов кластера Yandex MPP Analytics for PostgreSQL:
-
Перейдите на страницу каталога
. -
Перейдите в сервис Yandex MPP Analytics for PostgreSQL.
-
Нажмите на имя нужного кластера и выберите вкладку
Мониторинг → Ресурсные группы по хостам.На открывшейся странице будут отображены графики работы ресурсных групп по хостам.
-
Чтобы перейти к работе с метриками, дашбордами или алертами в сервисе Yandex Monitoring, нажмите кнопку Открыть в Monium на панели сверху.
На странице отображаются следующие графики:
- CPU Usage — суммарная утилизация CPU в ресурсной группе в рамках хоста.
- Memory Usage — суммарная утилизация памяти в ресурсной группе в рамках хоста.
Интеграция с Yandex Monitoring
Чтобы настроить алерты показателей состояния кластера и хостов:
- В консоли управления
выберите каталог с кластером, для которого нужно настроить алерты. - Перейдите в сервис
Monitoring. - В блоке Сервисные дашборды выберите:
- Yandex MPP Analytics for PostgreSQL — Cluster Overview для настройки алертов кластера;
- Yandex MPP Analytics for PostgreSQL — Host Overview для настройки алертов хостов.
- На нужном графике с показателями нажмите на значок
и выберите пункт Создать алерт. - Если показателей на графике больше одного, выберите запрос данных для формирования метрики и нажмите Продолжить. Подробнее о языке запросов см. в документации Yandex Monitoring.
- Задайте значения порогов
AlarmиWarningдля оповещения. - Нажмите кнопку Создать алерт.
- Для сигналов рекомендуется устанавливать алерты на переход в статус
Crit(значение0) илиWarn(значение1).
Чтобы настроить автоматический мониторинг других показателей состояния кластера:
- Создайте алерт.
- Добавьте метрику состояния.
- В параметрах алерта задайте значения порогов для оповещения.
Полный список поддерживаемых метрик см. в документации Monitoring.
Состояние и статус кластера
Состояние кластера указывает на исправность его хостов, а Статус показывает, запущен кластер, остановлен или находится в промежуточном состоянии.
Для просмотра состояния и статуса кластера:
- Перейдите на страницу каталога
. - Перейдите в сервис Yandex MPP Analytics for PostgreSQL.
- Наведите курсор на индикатор в столбце Доступность в строке нужного кластера.
Состояния кластера
| Состояние | Описание | Предлагаемые действия |
|---|---|---|
| ALIVE | Кластер работает в штатном режиме. | Действий не требуется. |
| DEGRADED | Кластер работает не на полную мощность: минимум один из хостов имеет состояние, отличное от ALIVE. |
Выполните диагностику:
|
| DEAD | Кластер неработоспособен: ни один его хост не работает. | Составьте обращение в службу поддержки
|
| UNKNOWN | Состояние кластера неизвестно. | Составьте обращение в службу поддержки
|
Статусы кластера
| Статус | Описание | Предлагаемые действия |
|---|---|---|
| CREATING | Идет подготовка к первому запуску | Подождите немного и приступайте к работе. Время создания кластера зависит от класса хостов. |
| RUNNING | Кластер работает в штатном режиме | Действий не требуется. |
| STOPPING | Кластер останавливается | Через некоторое время кластеру будет присвоен статус STOPPED, и он будет выведен из работы. Действий не требуется. |
| STOPPED | Кластер остановлен | Запустите кластер, чтобы вернуть его в работу. |
| STARTING | Остановленный ранее кластер запускается | Через некоторое время кластеру будет присвоен статус RUNNING. Подождите немного и приступайте к работе. |
| UPDATING | Обновляется конфигурация кластера | По завершении обновления кластеру будет присвоен статус, который был до обновления: RUNNING или STOPPED. |
| ERROR | Произошла ошибка при выполнении операции с кластером или во время окна технического обслуживания | Если кластер долго находится в этом статусе, обратитесь в службу поддержки |
| STATUS_UNKNOWN | Кластер не может определить свой статус | Если кластер долго находится в этом статусе, обратитесь в службу поддержки |
Greenplum® и Greenplum Database® являются зарегистрированными товарными знаками или товарными знаками Broadcom Inc в США и/или других странах.