Yandex Cloud
Поиск
Связаться с экспертомПопробовать бесплатно
  • Кейсы
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
  • Marketplace
    • Популярные
    • Инфраструктура и сеть
    • Платформа данных
    • Искусственный интеллект
    • Безопасность
    • Инструменты DevOps
    • Бессерверные вычисления
    • Управление ресурсами
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Облако для интеграторов
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Контент-программа
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Калькулятор цен
    • Тарифы
    • Акции и free tier
  • Кейсы
  • Документация
  • Блог
Создавайте контент и получайте гранты!Готовы написать своё руководство? Участвуйте в контент-программе и получайте гранты на работу с облачными сервисами!
Подробнее о программе
Проект Яндекса
© 2026 ООО «Яндекс.Облако»
Yandex MPP Analytics for PostgreSQL
  • Начало работы
    • Все инструкции
    • Подключение к внешнему файловому серверу (gpfdist)
      • Просмотр логов кластера
      • Просмотр операций кластера
      • Мониторинг состояния кластера и хостов
      • Передача логов кластера в Yandex Cloud Logging
      • Чтение логов через SQL
    • Вспомогательные утилиты
  • Управление доступом
  • Правила тарификации
  • Справочник Terraform
  • Метрики Monitoring
  • Аудитные логи Audit Trails
  • Публичные материалы
  • История изменений
  • Обучающие курсы

В этой статье:

  • Принципы построения мониторинга
  • Система сигналов
  • Дашборд Кластер
  • Дашборд Хосты
  • Мониторинг PXF
  • Мониторинг ресурсных групп
  • Интеграция с Yandex Monitoring
  • Состояние и статус кластера
  • Состояния кластера
  • Статусы кластера
  1. Пошаговые инструкции
  2. Логи и мониторинг
  3. Мониторинг состояния кластера и хостов

Мониторинг состояния кластера Yandex MPP Analytics for PostgreSQL и хостов

Статья создана
Yandex Cloud
Улучшена
Alex
Обновлена 1 июня 2026 г.
  • Принципы построения мониторинга
  • Система сигналов
  • Дашборд Кластер
  • Дашборд Хосты
  • Мониторинг PXF
  • Мониторинг ресурсных групп
  • Интеграция с Yandex Monitoring
  • Состояние и статус кластера
    • Состояния кластера
    • Статусы кластера

Данные о состоянии кластера и его хостов доступны в консоли управления. Их можно посмотреть на вкладке Мониторинг страницы управления кластером или в сервисе Yandex Monitoring.

Диагностическая информация о состоянии кластера представлена в виде графиков.

Новые данные для графиков поступают каждые 15 секунд.

Примечание

На графиках автоматически применяются наиболее подходящие кратные единицы измерения (мегабайты, гигабайты и т. д.).

Принципы построения мониторингаПринципы построения мониторинга

Для упрощения поиска проблем в консоль управления добавлены инструменты визуальной диагностики (дашборды), основанные на следующих принципах:

  • Иерархичность: диагностика строится от общего к частному. Сначала вы видите агрегированные сигналы состояния всего кластера, а при обнаружении проблем можете углубиться в детали по конкретным компонентам (кластер, пулер, гибридное хранилище) или потребляемым ресурсам
  • Прагматичность: вместо сотен графиков вам предлагаются только ключевые индикаторы. Особое внимание уделено сигналам — метрикам с четкими граничными значениями, которые сразу показывают наличие проблемы.
  • Автономность: документация и дашборды спроектированы так, чтобы вы могли самостоятельно выявить причину деградации без обращения в поддержку.
  • Итеративность: развитие инструментов диагностики ведется поэтапно на основе реального пользовательского опыта. Анализ поступивших запросов на улучшение инструментов позволяет сделать диагностику более точной и удобной.

Система сигналовСистема сигналов

В верхней части дашборда расположены сигналы, которые агрегируют состояние множества метрик. Они работают в режиме «светофора»:

Статус Значение Описание
🟢 OK 2 Все важные индикаторы в норме. Кластер и компоненты работают штатно.
🟠 Warn 1 Обнаружены незначительные отклонения. Кластер работает, но требуется внимание для предотвращения ухудшения (например, рост очереди подключений или повышенная задержка).
🔴 Crit 0 Критическая деградация. Наблюдается нестабильная работа, недоступность компонентов или исчерпание ресурсов. Требуется немедленное вмешательство.
⚪ Unknown -1 Данные отсутствуют или статус не определен.

Дашборд КластерДашборд Кластер

Основным инструментом диагностики является дашборд Кластер. Он предоставляет единую панель управления состоянием кластера.

Консоль управления
  1. Перейдите на страницу каталога.

  2. Перейдите в сервис Yandex MPP Analytics for PostgreSQL.

  3. Нажмите на имя нужного кластера и выберите вкладку Мониторинг.

    На открывшейся странице будет отображен дашборд с графиками и сигналами работы кластера Yandex MPP Analytics for PostgreSQL.

  4. Чтобы перейти к работе с метриками, дашбордами или алертами в сервисе Yandex Monitoring, нажмите кнопку Открыть в Monium на панели сверху.

Дашборд состоит из следующих секций:

  • Сигналы:

    • Cluster — общий статус кластера.
    • Pooler — статус пулера соединений.
    • Connections — статус подключений.
    • Resources — статус ресурсов хостов.
    • Queries — статус выполнения тестовых запросов на чтение и запись.
  • Cluster:

    • Read availability — доступность кластера на чтение за последние 5 минут.
    • Write availability — доступность кластера на запись за последние 5 минут.
    • Master switch history — история переключений роли мастера (FQDN текущего мастера).
    • XID utilization — процент использования счетчика транзакций.
    • Segments down — количество сегментов в состоянии down.
    • Segments not in preferred role — количество сегментов, не находящихся в предпочтительной роли.
    • Segments not synchronised — количество несинхронизированных сегментов.
    • Log events — количество событий в логах типов WARNING, ERROR, FATAL.
  • Pooler:

    • Availability — доступность пулера за последние 5 минут.
    • CPU usage — утилизация CPU процессом пулера.
    • Memory usage — потребление памяти процессом пулера.
    • Network usage — объем отправленных и полученных данных.
    • Server connections — количество активных и свободных серверных соединений.
    • Client connections — количество активных клиентских соединений.
    • Query timings — распределение длительности запросов по перцентилям.
  • Connections:

    • Total master connections utilization — общая утилизация подключений к мастеру.
    • Idle in transaction master connections utilization — утилизация подключений, простаивающих в транзакции.
    • Master connections — детализация подключений к мастеру по состояниям: active, idle, idle in transaction, waiting, aborted, суммарное число по всем состояниям total и ограничение max.
    • Total segments connections utilization — утилизация подключений по сегментам.
  • Resources:

    • Секция разделена на подгруппы Master hosts и Segment hosts.
    • Load Average — средняя нагрузка за 15 минут.
    • CPU utilization — утилизация процессора.
    • Virtual memory consumption — потребление виртуальной памяти.
    • Physical memory consumption — потребление физической памяти.
    • Network packets — количество отправленных и полученных пакетов в секунду.
    • Network packets in queues — количество пакетов в очередях сетевого интерфейса.
    • Network traffic — объем отправленного и полученного трафика.
    • Disk space utilization — процент занятого дискового пространства.
    • Disk IO — объем чтения и записи с диска в байтах в секунду.
    • Interconnect retransmits ratio (только для сегментов) — отношение переотправленных пакетов межсегментного взаимодействия к общему числу отправленных.
  • Queries:

    • Read test query duration — время выполнения тестового запроса на чтение.
    • Write test query duration — время выполнения тестового запроса на запись.
    • Read duration from each segment — время выполнения тестового запроса на чтение в разрезе сегментов.
    • Queries sent to the cluster — количество новых и завершенных с ошибкой запросов.
    • Queries execution time distribution — гистограмма длительности завершенных запросов.
    • Running queries execution time distribution — гистограмма распределения длительности выполнения запросов.
    • Spill files count — количество временных файлов (всего и по хостам).
    • Spill files size — размер временных файлов (всего и по хостам).
  • Resource groups:

    • Графики в данной секции отображают информацию в разрезе по группам процессов:
      • admin_group — в административной группе;
      • default_group — в группе по умолчанию.
    • Connections utilization by resource group — утилизация подключений.
    • CPU usage by resource group — потребление CPU.
    • Memory utilization by resource group — процент утилизации памяти:
    • Memory usage by resource group — абсолютное значение использованной и доступной памяти.
    • Running transactions by resource group — количество выполняемых транзакций.
    • Executed transactions by resource group — частота транзакций.
    • Queueing transactions by resource group — количество транзакций в очереди.
  • Background activities:

    • Vacuum: catalog:
      • Catalog size — размер системного каталога в разрезе по базам данных.
      • Catalog percent of dead tuples — процент «мертвых» кортежей в каталоге в разрезе по базам данных.
    • Vacuum: pg_attribute:
      • pg_attribute size — размер таблицы pg_attribute в разрезе по базам данных.
      • pg_attribute percent of dead tuples — процент «мертвых» кортежей в таблице pg_attribute в разрезе по базам данных.
    • Vacuum/analyze: user tables:
      • Tables vacuum age — распределение таблиц по числу дней с момента последнего выполнения очистки (VACUUM).
      • Tables analyze age — распределение таблиц по числу дней с момента последнего сбора статистики (ANALYZE).
  • Hybrid storage:

    • CPU usage per host — потребление CPU компонентом yproxy в разрезе по хостам кластера.
    • Memory usage per host — потребление памяти компонентом yproxy в разрезе по хостам кластера.
    • Storage requests — количество запросов к хранилищу (всего, успешных, с ошибками).
    • Storage objects count — общее количество объектов в хранилище.
    • Storage objects size — суммарный размер объектов в хранилище.

Дашборд ХостыДашборд Хосты

Для просмотра детальной информации о состоянии отдельных хостов Yandex MPP Analytics for PostgreSQL используется дашборд Хосты. В верхней части дашборда расположены сигналы состояния ресурсов (CPU, Memory, Disk), ниже — детальные графики по категориям.

Консоль управления
  1. Перейдите на страницу каталога.

  2. Перейдите в сервис Yandex MPP Analytics for PostgreSQL.

  3. Нажмите на имя нужного кластера и выберите вкладку Мониторинг → Хосты.

  4. Выберите нужный хост.

    На открывшейся странице будут отображены графики состояния конкретного хоста кластера.

  5. Чтобы перейти к работе с метриками, дашбордами или алертами в сервисе Yandex Monitoring, нажмите кнопку Открыть в Monium на панели сверху.

Дашборд состоит из следующих секций:

  • Сигналы:

    • CPU — нагрузка на процессор.
    • Memory — использование и доступность виртуальной памяти.
    • Disk — заполненность диска данных.
  • CPU:

    • Load average 15 min — средняя нагрузка на процессор за 15 минут.
    • Load average 5 min — средняя нагрузка на процессор за 5 минут.
    • Load average 1 min — средняя нагрузка на процессор за 1 минуту.
    • CPU utilization — процент загрузки процессорных ядер.
    • CPU pressure time — время в микросекундах, в течение которого процессы ожидали доступа к процессору.
    • CPU — распределение времени процессора по различным состояниям (user, system, idle, iowait и другие).
    • Process statuses — количество процессов в различных состояниях: running, idle, interruptible sleep, uninterruptible sleep, zombie.
  • Memory:

    • Virtual memory utilization — процент использования виртуальной памяти.
    • Virtual memory usage — объем использованной виртуальной памяти в байтах.
    • Out of memory count — количество событий нехватки памяти.
    • Memory utilization — процент использования физической оперативной памяти.
    • Memory usage — объем использованной физической памяти в байтах.
    • Memory pressure time — время, в течение которого процессы ожидали доступа к памяти.
  • Disk:

    • Disk usage percent — процент занятого места на диске данных.
    • Disk usage — объем занятых данных на диске в байтах.
    • Disk read/write operations — количество операций чтения и записи в секунду.
    • Disk read/write bytes — объем данных в байтах, прочитанных и записанных за секунду.
    • Disk read and write time — среднее время выполнения операций чтения и записи.
  • Disk Metrics Details:

    • Disk read latency (percentiles) — распределение времени операций чтения с диска по процентилям.
    • Disk write latency (percentiles) — распределение времени операций записи на диск по процентилям.
    • Disk read throttler latency (percentiles) — распределение задержек операций чтения с диска, вносимых механизмом ограничения при превышении квоты, по процентилям.
    • Disk write throttler latency (percentiles) — распределение задержек операций записи на диск, вносимых механизмом ограничения при превышении квоты, по процентилям.
    • Disk read operations — среднее и максимальное количество операций чтения с диска в секунду.
    • Disk write operations — среднее и максимальное количество операций записи на диск в секунду.
    • Disk used quota — процент использования квоты на дисковые операции.
    • Disk read bytes — среднее и максимальное количество прочитанных байт с диска.
    • Disk write bytes — среднее и максимальное количество записанных байт на диск.
  • Network:

    • Client network reliability — индикатор надежности сетевого интерфейса.
    • Client network packets sent — количество отправленных пакетов в секунду на интерфейсе.
    • Client network packets received — количество полученных пакетов в секунду на интерфейсе.
    • Client network errors — количество ошибок при отправке и получении пакетов.
    • Client network drops — количество отброшенных пакетов.
    • Client network interface errors/drops — детализация ошибок и потерь по интерфейсу.
    • Client network bytes — объем трафика (байт в секунду) на интерфейсе.

Мониторинг PXFМониторинг PXF

Для просмотра детальной информации о состоянии PXF:

Консоль управления
  1. Перейдите на страницу каталога.

  2. Перейдите в сервис Yandex MPP Analytics for PostgreSQL.

  3. Нажмите на имя нужного кластера и выберите вкладку Мониторинг → PXF.

    На открывшейся странице будут отображены графики состояния PXF.

  4. Чтобы перейти к работе с метриками, дашбордами или алертами в сервисе Yandex Monitoring, нажмите кнопку Открыть в Monium на панели сверху.

На странице отображаются следующие графики:

  • Liveness — состояние PXF на хостах.
  • JVM memory — использование памяти JVM PXF (в ГБ).
  • JVM Threads — число потоков JVM PXF.
  • Connections — число подключений.
  • PXF threads — число потоков PXF.
  • PXF Busy threads — число занятых потоков PXF.
  • Log messages — число сообщений типа warn, trace, info, fatal, error и debug.
  • Sent data — объем отправленных данных.
  • Received data — объем полученных данных.
  • File handles — число файлов, открытых в процессе PXF.
  • Sent records — число записей, отправленных PXF.
  • Received records — число записей, полученных PXF.

Мониторинг ресурсных группМониторинг ресурсных групп

Для просмотра информации по ресурсным группам Yandex MPP Analytics for PostgreSQL:

Консоль управления
  1. Перейдите на страницу каталога.

  2. Перейдите в сервис Yandex MPP Analytics for PostgreSQL.

  3. Нажмите на имя нужного кластера и выберите вкладку Мониторинг → Ресурсные группы.

    На открывшейся странице будут отображены графики работы ресурсных групп.

  4. Чтобы перейти к работе с метриками, дашбордами или алертами в сервисе Yandex Monitoring, нажмите кнопку Открыть в Monium на панели сверху.

На странице отображаются следующие графики:

  • CPU Usage — суммарная по всем хостам утилизация CPU в ресурсной группе.
  • Memory Usage — суммарная по всем хостам утилизация памяти в ресурсной группе.
  • Running queries — текущее количество активных транзакций, выполняющихся в ресурсной группе.
  • Queueing queries — текущее количество транзакций, находящихся в очереди для данной ресурсной группы.
  • Executed queries — общее количество транзакций, выполненных в ресурсной группе с момента последнего запуска кластера (за исключением Running queries).
  • Queued queries — общее количество транзакций, которые были поставлены в очередь для данной ресурсной группы с момента последнего запуска кластера (за исключением Queueing queries).

Также для просмотра доступна информация по ресурсным группам в разрезе хостов кластера Yandex MPP Analytics for PostgreSQL:

Консоль управления
  1. Перейдите на страницу каталога.

  2. Перейдите в сервис Yandex MPP Analytics for PostgreSQL.

  3. Нажмите на имя нужного кластера и выберите вкладку Мониторинг → Ресурсные группы по хостам.

    На открывшейся странице будут отображены графики работы ресурсных групп по хостам.

  4. Чтобы перейти к работе с метриками, дашбордами или алертами в сервисе Yandex Monitoring, нажмите кнопку Открыть в Monium на панели сверху.

На странице отображаются следующие графики:

  • CPU Usage — суммарная утилизация CPU в ресурсной группе в рамках хоста.
  • Memory Usage — суммарная утилизация памяти в ресурсной группе в рамках хоста.

Интеграция с Yandex MonitoringИнтеграция с Yandex Monitoring

Чтобы настроить алерты показателей состояния кластера и хостов:

Консоль управления
  1. В консоли управления выберите каталог с кластером, для которого нужно настроить алерты.
  2. Перейдите в сервис  Monitoring.
  3. В блоке Сервисные дашборды выберите:
    • Yandex MPP Analytics for PostgreSQL — Cluster Overview для настройки алертов кластера;
    • Yandex MPP Analytics for PostgreSQL — Host Overview для настройки алертов хостов.
  4. На нужном графике с показателями нажмите на значок и выберите пункт Создать алерт.
  5. Если показателей на графике больше одного, выберите запрос данных для формирования метрики и нажмите Продолжить. Подробнее о языке запросов см. в документации Yandex Monitoring.
  6. Задайте значения порогов Alarm и Warning для оповещения.
  7. Нажмите кнопку Создать алерт.
  8. Для сигналов рекомендуется устанавливать алерты на переход в статус Crit (значение 0) или Warn (значение 1).

Чтобы настроить автоматический мониторинг других показателей состояния кластера:

Консоль управления
  1. Создайте алерт.
  2. Добавьте метрику состояния.
  3. В параметрах алерта задайте значения порогов для оповещения.

Полный список поддерживаемых метрик см. в документации Monitoring.

Состояние и статус кластераСостояние и статус кластера

Состояние кластера указывает на исправность его хостов, а Статус показывает, запущен кластер, остановлен или находится в промежуточном состоянии.

Для просмотра состояния и статуса кластера:

  1. Перейдите на страницу каталога.
  2. Перейдите в сервис Yandex MPP Analytics for PostgreSQL.
  3. Наведите курсор на индикатор в столбце Доступность в строке нужного кластера.

Состояния кластераСостояния кластера

Состояние Описание Предлагаемые действия
ALIVE Кластер работает в штатном режиме. Действий не требуется.
DEGRADED Кластер работает не на полную мощность: минимум один из хостов имеет состояние, отличное от ALIVE. Выполните диагностику:
  • Перейдите на вкладку Хосты и посмотрите, какие из них в нерабочем состоянии.
  • Перейдите на вкладку Операции и убедитесь, что все операции завершились.
  • Убедитесь, что кластер не находится в процессе технического обслуживания.
Если причины не удалось выяснить самостоятельно, обратитесь в службу поддержки.
DEAD Кластер неработоспособен: ни один его хост не работает. Составьте обращение в службу поддержки, указав:
  • Идентификатор кластера.
  • Идентификаторы последних операций, которые на нем выполнялись.
  • Время по графикам доступности, когда кластер перешел в состояние DEAD.
UNKNOWN Состояние кластера неизвестно. Составьте обращение в службу поддержки, указав:
  • Идентификатор кластера.
  • Идентификаторы последних операций, которые на нем выполнялись.
  • Время по графикам доступности, когда кластер перешел в состояние UNKNOWN.

Статусы кластераСтатусы кластера

Статус Описание Предлагаемые действия
CREATING Идет подготовка к первому запуску Подождите немного и приступайте к работе. Время создания кластера зависит от класса хостов.
RUNNING Кластер работает в штатном режиме Действий не требуется.
STOPPING Кластер останавливается Через некоторое время кластеру будет присвоен статус STOPPED, и он будет выведен из работы. Действий не требуется.
STOPPED Кластер остановлен Запустите кластер, чтобы вернуть его в работу.
STARTING Остановленный ранее кластер запускается Через некоторое время кластеру будет присвоен статус RUNNING. Подождите немного и приступайте к работе.
UPDATING Обновляется конфигурация кластера По завершении обновления кластеру будет присвоен статус, который был до обновления: RUNNING или STOPPED.
ERROR Произошла ошибка при выполнении операции с кластером или во время окна технического обслуживания Если кластер долго находится в этом статусе, обратитесь в службу поддержки. Доступность кластера можно определить по его состоянию.
STATUS_UNKNOWN Кластер не может определить свой статус Если кластер долго находится в этом статусе, обратитесь в службу поддержки.

Greenplum® и Greenplum Database® являются зарегистрированными товарными знаками или товарными знаками Broadcom Inc в США и/или других странах.

Была ли статья полезна?

Предыдущая
Просмотр операций кластера
Следующая
Передача логов кластера в Yandex Cloud Logging
Создавайте контент и получайте гранты!Готовы написать своё руководство? Участвуйте в контент-программе и получайте гранты на работу с облачными сервисами!
Подробнее о программе
Проект Яндекса
© 2026 ООО «Яндекс.Облако»