О платформе Monium
Monium — платформа для наблюдения и анализа работы сервисов Yandex Cloud или вашей инфраструктуры и приложений.
Наблюдение и анализ систем строятся на сборе телеметрии, ее визуализации на дашбордах и настройке алертов для автоматического оповещения о проблемах и аномалиях. Использование единого инструмента помогает переходить от аномалии на графике к логам с ошибками и трейсам конкретных запросов и быстрее находить причины инцидентов.
Виды телеметрии
Monium поддерживает сбор телеметрии приложений и ресурсов Yandex Cloud:
-
Метрики — числовые показатели, измеряемые во времени (например, RPS, загрузка CPU). Используются для графиков и оповещений (алертов).
Метрики ресурсов Yandex Cloud передаются в Monium автоматически. Также многие сервисы предоставляют сервисные дашборды с набором готовых виджетов, которые отображают состояние ваших облачных ресурсов.
-
Логи — структурированные записи о событиях в приложении или инфраструктуре (например, сообщения о запуске и ошибках). Используются для диагностики системы.
Для сбора логов ресурсов Yandex Cloud потребуется включить логирование при создании или изменении ресурса.
-
Трейсы — связанная цепочка операций по конкретному запросу, которая показывает путь и время выполнения каждого шага. Используется для наблюдения за распределенными системами.
Передача телеметрии
Если для ресурсов Yandex Cloud передача телеметрии преднастроена, то поставку данных ваших приложений и сторонней инфраструктуры потребуется настроить вручную.
Формат поставки данных в Monium — OpenTelemetry (OTLP)
Для передачи телеметрии можно использовать:
-
Совместимые с OpenTelemetry агенты, например: OTel Collector (для всех видов телеметрии) — рекомендуется, Fluent Bit (для логов и метрик).
-
Unified Agent — агент от Яндекса для сбора и отправки данных (пока работает только с метриками).
Примечание
Сейчас Unified Agent поддерживает только работу с метриками. Позднее будет добавлен формат OpenTelemetry для метрик, логов и трейсов.
-
Отправку напрямую из приложения через OpenTelemetry SDK.
Для сбора метрик Prometheus поддерживается интеграция через Yandex Managed Service for Prometheus®.
В дальнейшем планируется расширение платформы другими инструментами Observability.
Распределение телеметрии
В Monium для логического разделения данных телеметрии используются следующие понятия:
-
Проект — логическая сущность верхнего уровня. Проект позволяет объединить телеметрию связанных приложений, микросервисов и ограничить права доступа к данным для команд разработки. Например: интернет-магазин, биллинг, сервисы безопасности.
-
Кластер — позволяет выделить окружение, независимые инсталляции, в которых работают сервисы. Например, боевой и тестовый кластеры, кластеры в различных регионах.
-
Сервис — отдельное клиентское приложение, которое генерирует данные телеметрии. Это может быть микросервис или компонент внутри микросервиса, например Nginx, Envoy, ВМ Compute Cloud
-
Шард — контейнер для хранения данных конкретной пары «сервис и кластер» и настройки хранения данных, например TTL
.
Объекты «проект», «кластер» и «сервис» определяют источник данных, а «шард» — правила хранения.
Описание других объектов и понятий Monium см. в разделе Основные понятия.
Обзор возможностей платформы
Платформа предоставляет полный цикл работы с телеметрией: от сбора данных до визуализации и оповещений.
Поставка данных
Платформа поддерживает гибкую настройку поставки телеметрии:
- Автоматический сбор метрик для ресурсов Yandex Cloud.
- Интеграция с приложениями через OpenTelemetry.
- Поддержка Prometheus через Yandex Managed Service for Prometheus®.
Подробнее о передаче телеметрии
Метрики
Метрики — числовые показатели производительности системы в реальном времени. Примеры использования метрик:
- Мониторинг загрузки CPU, памяти, сети.
- Анализ трендов и производительности.
- Выявление аномалий и узких мест.
Логи
Структурированные записи событий и сообщений, которые помогают:
- Исследовать детали конкретных инцидентов.
- Анализировать ошибки и исключения.
- Проводить аудит действий пользователей и системы.
Трейсы
Визуализация пути запросов в распределенных приложениях для решения задач:
- Поиск узких мест в цепочках микросервисов.
- Анализ задержек между компонентами.
- Понимание зависимостей в сложных архитектурах.
- Исследование запросов и ответов при мониторинге LLM-агентов.
Алерты
Автоматические уведомления о критических событиях, для которых можно настроить:
- Правила срабатывания события, например, резкое изменение какой-либо метрики.
- Оповещения в мессенджеры, почту, телефонный звонок или выполнение облачной функции.
Алерты позволяют реагировать на проблемы до влияния на пользователей или минимизировать это влияние.
Визуализация
Создавайте дашборды для мониторинга состояния системы:
- Объединяйте метрики, логи и трейсы на одном дашборде.
- Используйте готовые сервисные дашборды для ресурсов Yandex Cloud.
- Настраивайте графики, таблицы и другие виджеты.
- Применяйте drill-down для детального анализа проблем.
Интеграция данных
Связывайте разные типы телеметрии для комплексного анализа:
- Переходите от метрик к логам и трейсам через единый интерфейс.
- Используйте
trace_idиspan_idдля связи логов с трейсами. - Анализируйте инциденты, объединяя данные из разных источников.