О платформе Monium
Monium — платформа для наблюдения и анализа работы сервисов Yandex Cloud или вашей инфраструктуры и приложений.
Виды телеметрии
Monium поддерживает сбор телеметрии:
-
Метрики — числовые показатели, измеряемые во времени (например, RPS, загрузка CPU). Используются для графиков и оповещений (алертов).
-
Логи — структурированные записи о событиях в приложении или инфраструктуре (например, сообщения о запуске и ошибках). Используются для диагностики системы.
-
Трейсы — связанная цепочка операций по конкретному запросу, которая показывает путь и время выполнения каждого шага. Используется для наблюдения за распределенными системами.
Передача телеметрии
Для передачи телеметрии можно использовать:
-
Совместимые с OpenTelemetry агенты, например: OTel Collector (для всех видов телеметрии) — рекомендуется, Fluent Bit (для логов).
-
Unified Agent — агент от Яндекса для сбора и отправки данных.
Примечание
Сейчас Unified Agent поддерживает только работу с метриками. Позднее будет добавлен формат OpenTelemetry для метрик, логов и трейсов.
-
Отправку напрямую из приложения через OpenTelemetry SDK.
Для сбора метрик Prometheus поддерживается интеграция через Yandex Managed Service for Prometheus®.
На данный момент Monium принимает данные только в формате OpenTelemetry (OTLP)
В дальнейшем планируется расширение платформы другими инструментами Observability.
Метрики ресурсов Yandex Cloud передаются в Monium автоматически. Также многие сервисы предоставляют сервисные дашборды с набором готовых виджетов, которые отображают состояние ваших облачных ресурсов.
Распределение телеметрии
В Monium для логического разделения данных телеметрии используются следующие понятия:
-
Проект — логическая сущность верхнего уровня. Проект позволяет объединить телеметрию связанных приложений, микросервисов и ограничить права доступа к данным для команд разработки. Например: интернет-магазин, биллинг, сервисы безопасности.
-
Кластер — позволяет выделить окружение, независимые инсталляции, в которых работают сервисы. Например, боевой и тестовый кластеры, кластеры в различных регионах.
-
Сервис — отдельное клиентское приложение, которое генерирует данные телеметрии. Это может быть микросервис или компонент внутри микросервиса, например Nginx, Envoy, ВМ Compute Cloud
-
Шард — контейнер для хранения данных конкретной пары «сервис и кластер» и настройки хранения данных, например TTL
.
Объекты «проект», «кластер» и «сервис» определяют источник данных, а «шард» — правила хранения.
Описание других объектов и понятий Monium см. в разделе Основные понятия.
Обзор возможностей платформы
Метрики
Метрики — числовые показатели производительности системы в реальном времени. Примеры использования метрик:
- Мониторинг загрузки CPU, памяти, сети.
- Анализ трендов и производительности.
- Выявление аномалий и узких мест.
Логи
Структурированные записи событий и сообщений, которые помогают:
- Исследовать детали конкретных инцидентов.
- Анализировать ошибки и исключения.
- Проводить аудит действий пользователей и системы.
При необходимости можно на время отключать уведомления по алертам — создать мьют.
Трейсы
Визуализация пути запросов в распределенных приложениях для решения задач:
- Поиск узких мест в цепочках микросервисов.
- Анализ задержек между компонентами.
- Понимание зависимостей в сложных архитектурах.
- Исследование запросов и ответов при мониторинге LLM-агентов.
Алерты
Автоматические уведомления о критических событиях, для которых можно настроить:
- Правила срабатывания события, например, резкое изменение какой-либо метрики.
- Оповещения в мессенджеры, почту, телефонный звонок или выполнение облачной функции.
Алерты позволяют реагировать на проблемы до влияния на пользователей или минимизировать это влияние.
Дашборды и обзор метрик
Визуализация данных и важных показателей системы в реальном времени. Визуализация помогает:
- Создать единую картину состояния системы.
- Собрать данные из разных источников.
- Анализировать производительность и строить прогнозы.
- Исследовать проблемы и причины проблем, переходя от общих данных к частной, детальной информации (механизм Drill down).
Подробнее о дашбордах и обзоре метрик.
Monium обеспечивает сквозную видимость работы ваших систем, сокращая время на диагностику проблем и помогая принимать обоснованные решения на основе данных.