Как защитить бизнес от простоев с помощью Yandex Monitoring

Как отслеживать состояние облачных ресурсов, настраивать оповещения о сбоях и анализировать работу инфраструктуры в Yandex Cloud.

Чтобы избежать критических ошибок в сервисе, нужен постоянный мониторинг IT‑инфраструктуры. Monitoring круглосуточно следит за работой серверов и приложений. Система первой заметит проблемы и поможет быстро их устранить.

Что умеет Monitoring:

  • Предупреждать о проблемах. Благодаря механизму алертинга система моментально оповестит о неполадках: позвонит на телефон, отправит СМС, напишет в Telegram или на электронную почту. Вы сразу узнаете, если на диске заканчивается место или сайт начал тормозить. Также доступна настройка оповещений через Yandex Cloud Functions — можно выбирать любой удобный способ.

  • Управлять эскалацией проблем. Многоуровневые эскалации — это развитие механизма алертинга. При критическом сбое система запустит настроенную последовательность уведомлений. Сначала отправит сообщение в Telegram или на электронную почту дежурному инженеру. Если нет ответа, сделает телефонный звонок. Если инженер не отвечает, то система оповестит руководителя группы. Эскалация будет работать, пока проблему не заметят и не начнут решать.

  • Автоматически собирать данные. Все сервисы Yandex Cloud передают информацию о своей работе в систему мониторинга. На дашбордах вы увидите, как работают серверы, базы и другие компоненты облака. Достаточно подключить мониторинг, никаких дополнительных настроек не требуется.

Базовая функциональность Monitoring, включая метрики сервисов Yandex Cloud, доступна бесплатно. Запись собственных метрик в систему оплачивается по отдельным тарифам. Если вы работаете в другой экосистеме, можно выгрузить метрики в формате Prometheus®.

Как работает Monitoring

Monitoring автоматически собирает данные о состоянии виртуальных машин (ВМ), баз данных и других компонентов облака. Для сбора метрик из собственных приложений есть два варианта: установить Unified Agent или использовать Yandex Managed Service for Prometheus®.

Для точного анализа метрик нужно правильно настроить их сбор. Monitoring позволяет выбрать оптимальную частоту получения данных с серверов и автоматически удалять устаревшую информацию. Чтобы снизить нагрузку на систему, можно применять агрегацию: вместо детальных данных о каждой операции видеть сводные показатели. Например, общее количество успешно обработанных транзакций в час или среднее время загрузки веб‑страниц интернет‑магазина за день.

Monitoring тесно интегрирован с другими сервисами Yandex Cloud и получает от них детальную информацию о работе:

  • В управляемых базах данных PostgreSQL, ClickHouse®, MongoDB и MySQL® сервис отслеживает нагрузку, количество активных подключений, скорость выполнения запросов и объём свободного места в хранилище.

  • В кластерах Kubernetes® система контролирует состояние контейнеров, работу узлов и потребление ресурсов. Это критически важно для проектов с микросервисной архитектурой.

  • Yandex Certificate Manager информирует о состоянии TLS‑сертификатов: сроках действия, работоспособности и использовании квоты. В консоли Monitoring можно настроить уведомления об истекающих сертификатах с двумя порогами: более длительный для предварительных предупреждений, и короткий — для критических.

Всю собранную информацию удобно просматривать на интерактивных дашбордах. Здесь можно группировать связанные показатели, добавлять к графикам пояснения и в реальном времени следить за работой инфраструктуры. При обнаружении отклонений от нормы Monitoring сразу отобразит их на дашбордах. Пользователь узнает о недоступности сайта, ошибках в работе сервисов или перегрузке серверов. Более того, она предупредит о потенциальных рисках: нехватке места на диске, увеличении времени отклика или истечении срока действия сертификатов.

Monitoring оповещает команду о проблемах через систему алертинга. При настройке алертов можно задать разные пороговые значения: предупреждающие или критические. Это позволяет отличать потенциальные риски от серьёзных сбоев и правильно распределять ресурсы команды.

Рассмотрим на конкретных примерах, как эти возможности помогают бизнесу избежать потерь. Monitoring помогает следить за работой облачной инфраструктуры в режиме реального времени. Для особо важных ситуаций доступен механизм многоуровневой эскалации, который гарантирует, что критические проблемы не останутся без внимания.

Возьмём, к примеру, интернет‑магазин. Если клиенты не могут оплатить заказы, компания теряет деньги. Monitoring сразу покажет проблемы в работе платёжной системы, например количество неуспешных транзакций. По графикам легко определить, где именно произошёл сбой — на стороне магазина или банка.

В «чёрную пятницу» количество посетителей магазина может вырасти в десятки раз. Сервис поможет проверить готовность инфраструктуры к наплыву клиентов. На дашбордах будет видно, сколько запросов обрабатывает система, как быстро загружаются страницы, достаточно ли ресурсов у серверов. При первых признаках перегрузки система пришлёт уведомление. Вы можете заранее настроить автоматическое масштабирование ресурсов через Cloud Functions или использовать встроенные механизмы автомасштабирования для ВМ.

Каждый заказ должен быть обработан без сбоев. С помощью Monitoring команда в реальном времени видит состояние очереди и скорость обработки заказов. Если возникают задержки, сервис поможет найти узкие места в процессе и предотвратить перегрузку системы.

Как подключить Monitoring: короткая инструкция

Полное описание сервиса доступно в документации, а сейчас коротко расскажем о быстром старте.

Создайте ВМ в консоли Yandex Cloud (раздел Virtual machines) и дайте ей имя. В интерфейсе машины откройте раздел Мониторинг, там уже доступны базовые дашборды с ключевыми метриками: загрузкой процессора, использованием памяти и диска, сетевой активностью. Чтобы собирать больше данных о работе системы, установите Unified Agent: найдите в меню пункт Additional, нажмите Monitoring и выберите Install Agent for delivering metrics.

Консоль Yandex Cloud. Создайте сервисный аккаунт в каталоге для записи метрик и назначьте ему роль monitoring.editor. О настройке Unified Agent и базовом наборе метрик мы рассказали в видео Агент мониторинга и метрики ВМ. А о дополнительных деталях по сбору данных — в ролике Сбор метрик через Unified Agent

Если вы уже используете Prometheus для сбора метрик, Monitoring может получать данные напрямую через Yandex Managed Service for Prometheus. Это позволяет сохранить привычные инструменты и процессы, добавив долгосрочное хранение метрик в облаке.

Консоль Yandex Cloud. Откройте раздел Monitoring, выберите пункт Prometheus и создайте workspace — изолированный контейнер для хранения метрик. В открывшемся интерфейсе workspace появится подробная инструкция по настройке

О том, как настроить Managed Service for Prometheus и использовать все его возможности, мы рассказали в этом коротком видео.

Как создать свой дашборд в Monitoring

Откройте раздел Дашборды, нажмите Создать дашборд и введите его название.

Готовые виджеты с метриками разместите на дашборде в удобном порядке. Можно добавить и новые графики с помощью кнопки График. Например, если нужно отслеживать свободное место в кластере Yandex Managed Service for ClickHouse®, то в конструкторе запроса вам нужно:

  1. Выбрать метрику disk.free_bytes, которая отображает объём свободного места на дисках

  2. Указать следующие параметры‑метки, чтобы сузить выборку данных:

  • service=Managed Service for ClickHouse

  • name=disk.free_bytes

  • host=*

  • resource_id=*

  • resource_type=cluster

О тонкостях визуализации метрик мы рассказывали в видео Дашборды.

Как настроить алертинг Monitoring

Настройте алертинг в разделе Alerts консоли облака. Нажмите Новый и создайте алерт: укажите название, добавьте описание. В настройках выберите источник метрик: это могут быть как сервисы Yandex Cloud (ВМ, управляемые базы данных), так и пользовательские метрики. Unified Agent, который устанавливается на ВМ одним щелчком при её создании, автоматически начинает собирать метрики и отправляет их в раздел Custom Metrics.

Консоль Yandex Cloud. Задайте параметры мониторинга: значение агрегации, пороги для предупреждений и критических ситуаций.Укажите окно вычисления и его задержку. Задержка помогает корректно агрегировать данные, учитывая возможную разницу во времени поступления метрик. Нажмите Создать алерт. Настройте способ оповещения в разделе Каналы уведомлений. Выберите тип уведомлений и укажите пользователей облака, которые будут их получать

Подробнее о других возможностях алертинга — в коротком видео.

Monitoring круглосуточно следит за работой вашей инфраструктуры, помогает избежать простоев и сохранить доверие клиентов. Вы можете начать с готовых дашбордов, а затем настроить мониторинг именно под ваш бизнес.

author
Команда Yandex Cloud

Напишите нам

Начать пользоваться Yandex Cloud

Тарифы

Узнать цены и рассчитать стоимость

Мероприятия

Календарь событий Yandex Cloud
Как защитить бизнес от простоев с помощью Yandex Monitoring
Войдите, чтобы сохранить пост