О платформе Monium

Статья создана

Обновлена 8 июля 2026 г.

Виды телеметрии
Передача телеметрии
Распределение телеметрии
Обзор возможностей платформы

Monium — платформа для наблюдения и анализа работы сервисов Yandex Cloud или вашей инфраструктуры и приложений.

Наблюдение и анализ систем строятся на сборе телеметрии, ее визуализации на дашбордах и настройке алертов для автоматического оповещения о проблемах и аномалиях. Использование единого инструмента помогает переходить от аномалии на графике к логам с ошибками и трейсам конкретных запросов и быстрее находить причины инцидентов.

Виды телеметрии

Monium поддерживает сбор телеметрии приложений и ресурсов Yandex Cloud:

Метрики — числовые показатели, измеряемые во времени (например, RPS, загрузка CPU). Используются для графиков и оповещений (алертов).

Метрики ресурсов Yandex Cloud передаются в Monium автоматически. Также многие сервисы предоставляют сервисные дашборды с набором готовых виджетов, которые отображают состояние ваших облачных ресурсов.
Логи — структурированные записи о событиях в приложении или инфраструктуре (например, сообщения о запуске и ошибках). Используются для диагностики системы.

Для сбора логов ресурсов Yandex Cloud потребуется включить логирование при создании или изменении ресурса.
Трейсы — связанная цепочка операций по конкретному запросу, которая показывает путь и время выполнения каждого шага. Используется для наблюдения за распределенными системами.

Передача телеметрии

Если для ресурсов Yandex Cloud передача телеметрии преднастроена, то поставку данных ваших приложений и сторонней инфраструктуры потребуется настроить вручную.

Формат поставки данных в Monium — OpenTelemetry (OTLP).

Для передачи телеметрии можно использовать:

Совместимые с OpenTelemetry агенты, например: OTel Collector (для всех видов телеметрии) — рекомендуется, Fluent Bit (для логов и метрик).
Unified Agent — агент от Яндекса для сбора и отправки данных (пока работает только с метриками).

Примечание

Сейчас Unified Agent поддерживает только работу с метриками. Позднее будет добавлен формат OpenTelemetry для метрик, логов и трейсов.
Отправку напрямую из приложения через OpenTelemetry SDK.

Для сбора метрик Prometheus поддерживается интеграция через Yandex Managed Service for Prometheus®.

В дальнейшем планируется расширение платформы другими инструментами Observability.

Распределение телеметрии

В Monium для логического разделения данных телеметрии используются следующие понятия:

Проект — логическая сущность верхнего уровня. Проект позволяет объединить телеметрию связанных приложений, микросервисов и ограничить права доступа к данным для команд разработки. Например: интернет-магазин, биллинг, сервисы безопасности. Проект, соответствующий каталогу в Yandex Cloud, создается автоматически. Также можно создавать собственные проекты для логического разделения телеметрии внутри одного каталога.
Кластер — позволяет выделить окружение, независимые инсталляции, в которых работают сервисы. Например, боевой и тестовый кластеры, кластеры в различных регионах.
Сервис — отдельное клиентское приложение, которое генерирует данные телеметрии. Это может быть микросервис или компонент внутри микросервиса, например Nginx, Envoy, ВМ Compute Cloud.
Шард — контейнер для хранения данных конкретной пары «сервис и кластер» и настройки хранения данных, например TTL.

Объекты «проект», «кластер» и «сервис» определяют источник данных, а «шард» — правила хранения.

Описание других объектов и понятий Monium приведено в разделе Основные понятия.

Обзор возможностей платформы

Платформа предоставляет полный цикл работы с телеметрией: от сбора данных до визуализации и оповещений.

Поставка данных

Платформа поддерживает гибкую настройку поставки телеметрии:

Автоматический сбор метрик для ресурсов Yandex Cloud.
Интеграция с приложениями через OpenTelemetry.
Поддержка Prometheus через Yandex Managed Service for Prometheus®.

Подробнее о передаче телеметрии

Метрики

Метрики — числовые показатели производительности системы в реальном времени. Примеры использования метрик:

Мониторинг загрузки CPU, памяти, сети.
Анализ трендов и производительности.
Выявление аномалий и узких мест.

Подробнее о метриках

Логи

Структурированные записи событий и сообщений, которые помогают:

Исследовать детали конкретных инцидентов.
Анализировать ошибки и исключения.
Проводить аудит действий пользователей и системы.

Подробнее о логах

Трейсы

Визуализация пути запросов в распределенных приложениях для решения задач:

Поиск узких мест в цепочках микросервисов.
Анализ задержек между компонентами.
Понимание зависимостей в сложных архитектурах.
Исследование запросов и ответов при мониторинге LLM-агентов.

Подробнее о трейсах

Алерты

Автоматические уведомления о критических событиях, для которых можно настроить:

Правила срабатывания события, например, резкое изменение какой-либо метрики.
Оповещения в мессенджеры, почту, телефонный звонок или выполнение облачной функции.

Алерты позволяют реагировать на проблемы до влияния на пользователей или минимизировать это влияние.

Подробнее об алертах