Мониторинг состояния кластера Greenplum® и хостов
Данные о состоянии кластера и его хостов доступны в консоли управления
Диагностическая информация о состоянии кластера представлена в виде графиков.
Новые данные для графиков поступают каждые 15 секунд.
Примечание
На графиках автоматически применяются наиболее подходящие кратные единицы измерения (мегабайты, гигабайты и т. д.).
Мониторинг состояния кластера
Для просмотра детальной информации о состоянии кластера Greenplum®:
-
Перейдите на страницу каталога
и выберите сервис Yandex MPP Analytics for PostgreSQL. -
Нажмите на имя нужного кластера и выберите вкладку
Мониторинг.На открывшейся странице будут отображены графики работы кластера Greenplum®.
-
Чтобы перейти к работе с метриками, дашбордами или алертами в сервисе Yandex Monitoring, нажмите кнопку Открыть в Monitoring на панели сверху.
На странице отображаются следующие графики:
-
Connections — количество подключений к БД в каждом из состояний:
- Active — активные;
- Waiting — ожидают;
- Idle — простаивают;
- Idle in transaction — простаивают в транзакции;
- Aborted — прерванные.
-
Segment health — количество сегментов с различной работоспособностью:
- total — все;
- not sync — несинхронизированные;
- down — недоступные;
- not prefer role — непредпочтительные.
-
Xid wraparound — использование последовательности идентификаторов транзакций
(в процентах). -
Master replication lag — отставание репликации мастера (в байтах).
-
Master replication state — работоспособность репликации мастера.
-
Spill files size — суммарный размер временных файлов (в байтах).
-
Spill files count — количество временных файлов.
-
Group resource memory — использование оперативной памяти (в байтах) по группам процессов:
- admin_group — в административной группе;
- default_group — в группе по умолчанию.
-
Group resource cpu — загрузка процессорных ядер по группам процессов:
- admin_group — в административной группе;
- default_group — в группе по умолчанию.
-
Master — определение первичного хоста-мастера.
-
Alive hosts — работоспособность хостов кластера.
-
Alive segments — работоспособность первичного и резервного мастеров, основных и зеркальных сегментов.
-
Connection pooler:
- Client connections — количество свободных и занятых клиентских соединений в пуле.
- Server connections — количество свободных и занятых серверных соединений в пуле.
- TCP connections — количество TCP-соединений в пуле.
-
Background activities:
-
Обслуживание таблиц:
-
Tables vacuum age — количество пользовательских таблиц, очистка которых выполнялась N дней назад.
-
Tables analyze age — количество пользовательских таблиц, сбор статистики для которых выполнялся N дней назад.
-
Expansion progress — ход процесса перераспределения данных при расширении кластера:
- Tables — процент обработанных таблиц.
- Bytes — процент перераспределенных байт данных.
Примечание
Этот график показывает ход процесса, даже если перераспределение данных было запущено не в виде фонового процесса.
-
-
Статистика bloat системного каталога:
- Total catalog size — размер каталога по всем сегментам.
- Number of dead tuples for segments — количество
dead_tupleв таблицеpg_attributeпо всем сегментам. - Interval from the last vacuum time for segments — время с последнего vacuum таблицы
pg_attributeсреди всех сегментов.
На графиках показаны не все метрики bloat. Графики для остальных метрик вы можете построить самостоятельно.
Например, чтобы получить количество
live_tupleв каталоге на мастере, выполните запрос:alias(series_max("gp_vacuum.pg_attribute_live_tuples_master"{folderId = "b1g4unjqq856********", service = "managed-greenplum", resource_id = "c9q35r4odgeb********"}), "{{ database }}")Список доступных метрик см. в разделе Метрики bloat.
-
-
Test Queries Execution Time:
- Read from cluster — скорость чтения данных.
- Write to cluster — скорость записи данных.
- Read from each segment — скорость чтения для каждого сегмента кластера.
-
Hybrid Storage:
- Objects count — количество объектов в базе данных.
- Total objects size, bytes — суммарный размер объектов в базе данных (в байтах).
Мониторинг состояния хостов
Для просмотра детальной информации о состоянии отдельных хостов Greenplum®:
- Перейдите на страницу каталога
и выберите сервис Yandex MPP Analytics for PostgreSQL. - Нажмите на имя нужного кластера и выберите вкладку
Хосты → Мониторинги. - Выберите нужный хост из выпадающего списка.
На этой странице выводятся графики, показывающие нагрузку на отдельный хост кластера (мастер или сегмент):
- CPU — загрузка процессорных ядер. При повышении нагрузки значение
Idleуменьшается. - Disk IOPS in progress — количество незавершенных дисковых операций.
- Disk io time — длительность дисковых операций.
- Disk read and write — объем дисковых операций (в байтах).
- Disk read and write time — длительность дисковых операций чтения и записи.
- Disk usage — использование дискового пространства (выводится два графика: в байтах и в процентах).
- Memory usage — использование оперативной памяти (в байтах). При высоких нагрузках значение параметра
Freeуменьшается, а значения остальных — растут. - Network — объем данных, переданных по сети (в байтах).
Мониторинг состояния сети
Для просмотра детальной информации о состоянии сети кластера Greenplum®:
- Перейдите на страницу каталога
и выберите сервис Yandex MPP Analytics for PostgreSQL. - Нажмите на имя нужного кластера и выберите вкладку
Мониторинг → Сеть.
На этой странице отображаются следующие графики:
-
Interfaces:
- Сlient Interface Packets — число полученных и отправленных пакетов на клиентском сетевом интерфейсе.
- Сlient Interface Bytes — объем полученных и отправленных данных на клиентском сетевом интерфейсе (в байтах).
- Client Interface Drops and Errors — число ошибок и отброшенных пакетов при отправке и передаче на клиентском сетевом интерфейсе.
- Service Interface Packets — число полученных и отправленных пакетов на сервисном сетевом интерфейсе.
- Service Interface Bytes — объем полученных и отправленных данных на сервисном сетевом интерфейсе (в байтах).
- Service Interface Drops and Errors — число ошибок и отброшенных пакетов при отправке и передаче на сервисном сетевом интерфейсе.
-
CPU:
- Cpu Usage — использование процессорных ядер (в процентах).
-
Ping and SSH response time:
- Host Ping Average Response — среднее время ответа пинга (в миллисекундах).
- Host Ping Packet Loss — потерянные пакеты пинга (в процентах).
- Host SSH Response Time — время ответа при подключении через SSH (в миллисекундах).
-
TCP counters:
- TcpActiveConnection — число активных TCP-соединений в состоянии
ESTABLISHEDилиCLOSE-WAIT. - TCP Errors — число ошибок при передаче TCP-пакетов.
- TcpEstabResets — число раз, когда TCP-соединения совершали прямой переход в состояние
CLOSEDлибо из состоянияESTABLISHED, либо из состоянияCLOSE-WAIT. - TCP Retransmission — число TCP-пакетов, переданных повторно.
- TcpActiveConnection — число активных TCP-соединений в состоянии
-
ICMP Counters:
- IcmpErrors — число ICMP-сообщений об ошибках.
- Icmp6PacketsTooBig — число ICMPv6-сообщений о слишком больших пакетах.
- IcmpDestUnreached — число ICMP- и ICMPv6-сообщений о недоступности назначения.
-
UDP counters:
- UdpSndbufErrors — число ошибок буфера при отправке UDP-пакетов.
- UDP Datagrams — число UDP-пакетов.
- UdpRcvbufErrors — число ошибок буфера при приеме UDP-пакетов.
- UDP NoPorts — число принятых UDP-пакетов, для которых на порте назначения не было слушателя.
-
IP:
- IpMulticastPackets — число полученных и отправленных многоадресных пакетов.
- Ip6 Neighbor Discovery — число отправленных запросов и объявлений маршрутизаторов.
- IpBroadcastPackets — число полученных и отправленных широковещательных пакетов.
- Ip6NoRoutes — число IPv6-пакетов, сброшенных из-за отсутствия маршрута.
Мониторинг PXF
Для просмотра детальной информации о состоянии PXF:
- Перейдите на страницу каталога
и выберите сервис Yandex MPP Analytics for PostgreSQL. - Нажмите на имя нужного кластера и выберите вкладку
Мониторинг → PXF.
На этой странице отображаются следующие графики:
-
Liveness — состояние PXF на хостах.
-
Connections — число подключений.
-
Log messages — число сообщений типа
warn,trace,info,fatal,errorиdebug. -
File handles — число файлов, открытых в процессе PXF.
-
JVM memory — использование памяти JVM PXF (в ГБ).
-
PXF threads — число потоков PXF.
-
Sent data — объем отправленных данных.
-
Sent records — число записей, отправленных PXF.
-
JVM Threads — число потоков JVM PXF.
-
PXF Busy threads — число занятых потоков PXF.
-
Received data — объем полученных данных.
-
Received records — число записей, полученных PXF.
Мониторинг через дашборд
Для просмотра дашборда кластера Greenplum®:
- Перейдите на страницу каталога
и выберите сервис Yandex MPP Analytics for PostgreSQL. - Нажмите на имя нужного кластера и выберите вкладку
Мониторинг → Дашборд.
На этой странице отображаются следующие графики:
-
Running queries:
- Test write query — измеряет время выполнения тестовой записи с использованием политики
DISTRIBUTED REPLICATED. - Test read query — измеряет время выполнения тестового запроса на чтение со случайного сегмента.
- Overall cluster's query execution time — показывает гистограмму времени выполнения запросов в кластере.
- Test write query — измеряет время выполнения тестовой записи с использованием политики
-
Cluster liveliness:
- Cluster sessions — показывает количество сессий в состояниях:
- active — выполняют запрос;
- waiting — ожидают команды;
- idle in transaction — транзакция начата, но выполнение запроса не происходит (например, не сделали
COMMIT).
- Number of live segments — показывает количество запущенных экземпляров сегментов, включая зеркала.
- Queries sent to the cluster — показывает количество принятых и прерванных (отмененных) запросов.
- Cluster sessions — показывает количество сессий в состояниях:
-
Segments health:
- Idle CPU — показывает неиспользуемый ресурс CPU по хостам-сегментам. Чем меньше значение, тем выше загрузка хостов.
- Reserved memory — показывает использование оперативной памяти (в байтах) по хостам-сегментам. Во избежание ошибок необходимо поддерживать значение в пределах лимита.
- IOPS — показывает объем дисковых операций (в байтах) суммарно со всех хостов-сегментов.
- Number of network packets — показывает количество полученных и отправленных пакетов на сетевых интерфейсах по хостам-сегментам. Приближение к лимиту может привести к задержке в выполнении запросов.
- Number of network packets in queues — показывает количество пакетов в очереди на сетевых интерфейсах по хостам-сегментам. Приближение к лимиту может привести к задержке в выполнении запросов.
- Network traffic — измеряет утилизацию пропускной способности входящего сетевого потока по хостам-сегментам. Приближение к лимиту может привести к задержке в выполнении запросов.
- Ping time — показывает время выполнения пинга с хоста-мастера к хостам-сегментам кластера.
- Query execution time per segment — измеряет суммарное время, потраченное на выполнение фрагментов (slice) запросов на каждом из хостов-сегментов кластера.
-
Database internal metrics:
- Free memory for resource groups — показывает доступную оперативную память по ресурсным группам.
- Summary CPU usage for resource groups — показывает суммарное использование CPU ресурсными группами на кластере. Может быть больше 100%, т. к. собирается со всех хостов кластера.
- CPU throttle time for cgroups — показывает, как долго процессам ресурсной группы не выделяется время CPU из-за его полной утилизации (по хостам). При возрастании показателя на порядки (с миллисекунд до минут) может привести к задержке в выполнении запросов.
- Summary spill size — показывает суммарный размер временных (spill) файлов, образованных в результате нехватки RAM.
- Interconnect quality — показывает процент повторных передач пакетов между сегментами (трафик Greenplum® Interconnect
) в общем объеме отправляемых пакетов с каждого хоста-сегмента. Чем больше показатель, тем менее стабильно работает сеть. - Background activity - the number of sessions — показывает количество системных сессий на каждом сегменте в состояниях:
- active — выполняют запрос;
- idle — ожидают команды;
- aborted — завершились ошибкой.
- Background activity - the longest query — показывает время выполнения самого долгого системного запроса на каждом из сегментов.
Интеграция с Yandex Monitoring
Чтобы настроить алерты показателей состояния кластера и хостов:
- В консоли управления
выберите каталог с кластером, для которого нужно настроить алерты. - В списке сервисов выберите
Monitoring. - В блоке Сервисные дашборды выберите:
- Yandex MPP Analytics for PostgreSQL — Cluster Overview для настройки алертов кластера;
- Yandex MPP Analytics for PostgreSQL — Host Overview для настройки алертов хостов.
- На нужном графике с показателями нажмите на значок
и выберите пункт Создать алерт. - Если показателей на графике больше одного, выберите запрос данных для формирования метрики и нажмите Продолжить. Подробнее о языке запросов см. в документации Yandex Monitoring.
- Задайте значения порогов
AlarmиWarningдля оповещения. - Нажмите кнопку Создать алерт.
Чтобы настроить автоматический мониторинг других показателей состояния кластера:
- Создайте алерт.
- Добавьте метрику состояния.
- В параметрах алерта задайте значения порогов для оповещения.
Полный список поддерживаемых метрик см. в документации Monitoring.
Состояние и статус кластера
Состояние кластера указывает на исправность его хостов, а Статус показывает, запущен кластер, остановлен или находится в промежуточном состоянии.
Для просмотра состояния и статуса кластера:
- Перейдите на страницу каталога
и выберите сервис Yandex MPP Analytics for PostgreSQL. - Наведите курсор на индикатор в столбце Доступность в строке нужного кластера.
Состояния кластера
| Состояние | Описание | Предлагаемые действия |
|---|---|---|
| ALIVE | Кластер работает в штатном режиме. | Действий не требуется. |
| DEGRADED | Кластер работает не на полную мощность: минимум один из хостов имеет состояние, отличное от ALIVE. |
Выполните диагностику:
|
| DEAD | Кластер неработоспособен: ни один его хост не работает. | Составьте обращение в службу поддержки
|
| UNKNOWN | Состояние кластера неизвестно. | Составьте обращение в службу поддержки
|
Статусы кластера
| Статус | Описание | Предлагаемые действия |
|---|---|---|
| CREATING | Идет подготовка к первому запуску | Подождите немного и приступайте к работе. Время создания кластера зависит от класса хостов. |
| RUNNING | Кластер работает в штатном режиме | Действий не требуется. |
| STOPPING | Кластер останавливается | Через некоторое время кластеру будет присвоен статус STOPPED, и он будет выведен из работы. Действий не требуется. |
| STOPPED | Кластер остановлен | Запустите кластер, чтобы вернуть его в работу. |
| STARTING | Остановленный ранее кластер запускается | Через некоторое время кластеру будет присвоен статус RUNNING. Подождите немного и приступайте к работе. |
| UPDATING | Обновляется конфигурация кластера | По завершении обновления кластеру будет присвоен статус, который был до обновления: RUNNING или STOPPED. |
| ERROR | Произошла ошибка при выполнении операции с кластером или во время окна технического обслуживания | Если кластер долго находится в этом статусе, обратитесь в службу поддержки |
| STATUS_UNKNOWN | Кластер не может определить свой статус | Если кластер долго находится в этом статусе, обратитесь в службу поддержки |
Greenplum® и Greenplum Database® являются зарегистрированными товарными знаками или товарными знаками Broadcom Inc в США и/или других странах.