Yandex Cloud
Поиск
Связаться с экспертомПопробовать бесплатно
  • Кейсы
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
  • Marketplace
    • Популярные
    • Инфраструктура и сеть
    • Платформа данных
    • Искусственный интеллект
    • Безопасность
    • Инструменты DevOps
    • Бессерверные вычисления
    • Управление ресурсами
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Облако для интеграторов
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Контент-программа
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Калькулятор цен
    • Тарифы
    • Акции и free tier
  • Кейсы
  • Документация
  • Блог
Создавайте контент и получайте гранты!Готовы написать своё руководство? Участвуйте в контент-программе и получайте гранты на работу с облачными сервисами!
Подробнее о программе
Проект Яндекса
© 2026 ООО «Яндекс.Облако»
Yandex Managed Service for YTsaurus
  • Начало работы
    • Все инструкции
    • Информация об имеющихся кластерах
    • Создание кластера
    • Подключение к кластеру
    • Изменение кластера
    • Остановка и запуск кластера
    • Удаление кластера
    • Мониторинг состояния кластера
  • Управление доступом
  • Правила тарификации
  • Справочник Terraform
  • Метрики Yandex Monitoring
  • Аудитные логи Audit Trails
  • История изменений

В этой статье:

  • Мониторинг состояния кластера
  • Настройка алертов в Yandex Monitoring
  • Статус кластера
  1. Пошаговые инструкции
  2. Мониторинг состояния кластера

Мониторинг состояния кластера Managed Service for YTsaurus

Статья создана
Yandex Cloud
Обновлена 8 апреля 2026 г.
  • Мониторинг состояния кластера
  • Настройка алертов в Yandex Monitoring
  • Статус кластера

Данные о состоянии кластера и его хостов доступны в консоли управления. Их можно посмотреть на вкладке Мониторинг страницы управления кластером или в сервисе Yandex Monitoring.

Диагностическая информация о состоянии кластера представлена в виде графиков.

Графики обновляются раз в 15 секунд.

Примечание

На графиках автоматически применяются наиболее подходящие кратные единицы измерения (мегабайты, гигабайты и т. д.).

Вы можете настроить алерты в сервисе Yandex Monitoring для получения уведомлений о сбоях в работе кластера. В Yandex Monitoring используются два порога срабатывания алерта: Warning и Alarm. При превышении заданного порога вы получите оповещения через настроенные каналы уведомлений.

Мониторинг состояния кластераМониторинг состояния кластера

Для просмотра детальной информации о состоянии кластера Managed Service for YTsaurus:

Консоль управления
  1. В консоли управления перейдите в нужный каталог.
  2. В списке сервисов выберите Managed Service for YTsaurus.
  3. Нажмите на имя нужного кластера и выберите вкладку Мониторинг.
  4. Чтобы перейти к работе с метриками, дашбордами или алертами, выберите в списке сервисов Yandex Monitoring.

На странице отображаются две вкладки Cluster и Master с графиками:

  • Automaton thread CPU usage — загрузка CPU потоком Automaton, основным исполняющим потоком мастера (в процентах).
    • TOTAL — суммарная загрузка по всем master-нодам.
    • ms-N — загрузка потоком Automaton на master-ноде N.
  • User write time — время, затраченное на операции записи от пользователя.
    • root — время, затраченное на операции записи от пользователя root.
    • robot-odin — время, затраченное на операции записи от пользователя robot-odin.
    • scheduler — время, затраченное на операции записи от планировщика.
    • tablet_cell_changelogger — время, затраченное на операции записи от tablet_cell_changelogger.
  • User read time — время, затраченное на операции чтения от пользователя.
    • tablet_cell_changelogger — время, затраченное на операции чтения от tablet_cell_changelogger.
    • root — время, затраченное на операции чтения от пользователя root.
    • operations_client — время, затраченное на операции чтения от клиентского пользователя.
  • Master memory usage — использование памяти мастером (в ГБ).
    • ms-N — использование памяти на master-ноде N.
  • LocalRead thread CPU usage — загрузка CPU потоком LocalRead.
    • TOTAL — суммарная загрузка по всем master-нодам (в процентах).
    • ms-N — загрузка потока LocalRead на master-ноде N.
  • User write request rate — частота запросов на запись от пользователя (записей в секунду).
    • root — частота запросов на запись от пользователя root.
    • robot-odin — частота запросов на запись от пользователя robot-odin.
    • scheduler — частота запросов на запись от планировщика.
    • tablet_cell_changelogger — частота запросов на запись от tablet_cell_changelogger.
  • User read request rate — частота запросов на чтение от пользователя (чтений в секунду).
    • root — частота запросов на чтение от пользователя root.
    • queue_agent — частота запросов на чтение от пользователя queue_agent.
    • operations_client — частота запросов на чтение от клиентского пользователя.
  • Create chunk requests — количество запросов на создание чанков (запросов в секунду).
    • TOTAL — суммарное количество запросов на создание чанков от всех пользователей.
    • root — количество запросов на создание чанков от пользователя root.
    • robot-odin — количество запросов на создание чанков от пользователя robot-odin.
    • scheduler — количество запросов на создание чанков от планировщика.
    • tablet_cell_snapshotter — количество запросов на создание чанков от пользователя tablet_cell_snapshotter.
  • В блоке Compute resources:
    • CPU distributed vs total — общее и распределенное количество ресурсов CPU в кластере.
      • distributes_resources — количество распределенных ресурсов CPU.
      • total_cluster_resources — общее количество ресурсов CPU в кластере.
    • GPU distributed vs total — общее и распределенное количество ресурсов GPU в кластере..
      • distributes_resources — количество распределенных ресурсов GPU.
      • total_cluster_resources — общее количество ресурсов GPU в кластере.
    • Memory distributed vs total — общее и распределенное количество ресурсов памяти в кластере.
      • distributes_resources — количество распределенных ресурсов памяти.
      • total_cluster_resources — общее количество ресурсов памяти в кластере.
    • Undistributed resources — количество нераспределенных ресурсов.
      • memory — количество нераспределенных ресурсов памяти.
      • cpu — количество нераспределенных ресурсов CPU.
  • В блоке Scheduler pools:
    • CPU: usage, demand, guarantee — использование, запрос и гарантия ресурсов CPU.
      • usage — количество используемых ресурсов CPU.
      • demand — количество запрошенных ресурсов CPU.
      • guarantee — количество гарантированных ресурсов CPU.
    • RAM: usage, demand, guarantee — использование, запрос и гарантия ресурсов RAM.
      • usage — количество используемой памяти.
      • demand — количество запрошенной памяти.
      • guarantee — количество гарантированной памяти.
    • GPU: usage, demand, guarantee — использование, запрос и гарантия ресурсов GPU.
      • usage — количество используемых ресурсов GPU.
      • demand — количество запрошенных ресурсов GPU.
      • guarantee — количество гарантированных ресурсов GPU.
    • Running operation count — количество выполняющихся операций в статусе running.
      • lightweight usage — количество lightweight-операций в статусе running.
      • usage — количество операций в статусе running.
    • Total operation count — общее количество операций.
      limit — максимально допустимое количество операций.
      usage — количество используемых операций.
  • В блоке Problems:
    • Offline nodes — ноды в статусе offline.
    • Banned nodes — ноды в статусе banned.
    • Decomissioned nodes — ноды в состоянии decommissioned.
    • Alerts — количество активных предупреждений о проблемах на нодах кластера YTsaurus.

Настройка алертов в Yandex MonitoringНастройка алертов в Yandex Monitoring

Чтобы настроить алерты показателей состояния кластера:

Консоль управления
  1. В консоли управления выберите каталог с кластером, для которого нужно настроить алерты.
  2. В списке сервисов выберите Monitoring.
  3. В блоке Сервисные дашборды выберите Managed Service for YTsaurus — Cluster Resources.
  4. На нужном графике нажмите на значок и выберите пункт Создать алерт.
  5. Если на графике несколько показателей, выберите запрос данных для формирования метрики и нажмите Продолжить. Подробнее о языке запросов см. документацию Yandex Monitoring.
  6. Задайте пороговые значения Alarm и Warning для срабатывания алерта.
  7. Нажмите кнопку Создать алерт.

Чтобы настроить автоматический мониторинг других показателей состояния кластера:

Консоль управления
  1. Создайте алерт.
  2. Добавьте метрику состояния.
  3. В параметрах алерта задайте значения порогов для оповещения.

Полный список поддерживаемых метрик см. в документации Monitoring.

Статус кластераСтатус кластера

Статус показывает, запущен кластер, остановлен или находится в промежуточном состоянии.

Для просмотра статуса кластера:

  1. Перейдите на страницу каталога и выберите Managed Service for YTsaurus.
  2. В строке нужного кластера найдите столбец Статус.

Статус

Описание

Предлагаемые действия

CREATING

Идет подготовка к первому запуску

Подождите немного и приступайте к работе. Время создания кластера зависит от класса хостов.

RUNNING

Кластер работает в штатном режиме

Действий не требуется.

STOPPING

Кластер останавливается

Через некоторое время кластеру будет присвоен статус STOPPED, и он будет выведен из работы. Действий не требуется.

STOPPED

Кластер остановлен

Запустите кластер, чтобы вернуть его в работу.

STARTING

Остановленный ранее кластер запускается

Через некоторое время кластеру будет присвоен статус RUNNING. Подождите немного и приступайте к работе.

UPDATING

Обновляется конфигурация кластера

По завершении обновления кластеру будет присвоен статус, который был до обновления: RUNNING или STOPPED.

DELETING

Кластер удаляется

По завершении удаления кластера он будет выведен из работы. Действий не требуется.

ERROR

Произошла ошибка при выполнении операции с кластером или во время окна технического обслуживания

Если кластер долго находится в этом статусе, обратитесь в службу поддержки.

STATUS_UNKNOWN

Кластер не может определить свой статус

Если кластер долго находится в этом статусе, обратитесь в службу поддержки.

Была ли статья полезна?

Предыдущая
Удаление кластера
Следующая
Запуск PySpark-задания
Создавайте контент и получайте гранты!Готовы написать своё руководство? Участвуйте в контент-программе и получайте гранты на работу с облачными сервисами!
Подробнее о программе
Проект Яндекса
© 2026 ООО «Яндекс.Облако»