Настройка дашбордов и алертов в Yandex Monitoring
Из руководства вы узнаете, как отслеживать состояние трейлов с помощью дашбордов и алертов Yandex Monitoring.
Руководство предполагает, что у вас уже развернута инфраструктура:
- Есть ресурсы Yandex Cloud, для которых вы собираете события безопасности.
- Создан трейл Audit Trails для сбора событий.
- Настроен приемник для хранения и управления событиями: бакет или лог-группа
Чтобы начать отслеживать статус трейлов:
Если ресурсы вам больше не нужны, удалите их.
Настройте алерты
Создайте канал уведомлений
Чтобы получать уведомления о срабатывании алерта:
- В консоли управления
перейдите в каталог, в котором хотите создать канал уведомлений. - Выберите сервис Monitoring.
- На панели слева выберите Каналы уведомлений.
- В правом верхнем углу нажмите кнопку Создать канал.
- Укажите параметры канала:
- В поле Имя укажите
alerts-channel. - В поле Метод укажите метод уведомлений.
- В поле Получатели перечислите получателей уведомлений.
- В поле Имя укажите
- Нажмите кнопку Создать.
Канал появится в списке.
Добавьте алерты
Вы можете настроить один или несколько алертов.
Более подробная информация о порядке создания алерта и о параметрах алерта приведена в документации Yandex Monitoring.
Переход трейла в неактивное состояние
Алерт отправит уведомление о том, что трейл переходит в неактивный статус.
- В консоли управления
перейдите в каталог, в котором хотите создать алерт. - Выберите сервис Monitoring.
- На панели слева выберите Алерты.
- В правом верхнем углу нажмите кнопку Создать алерт.
- В поле Название укажите
deactivating-trail-alert. - В блоке Метрики справа от имени каталога нажмите
и укажите:service = Audit Trails.name = trail.status.status != ACTIVE.trail = <имя_трейла>.
- В блоке Настройки алерта укажите:
- Условие срабатывания —
Не равно. - Alarm —
0.
- Условие срабатывания —
- В блоке Каналы уведомлений нажмите кнопку Добавить канал и выберите канал уведомления, созданный ранее.
- Нажмите кнопку Создать алерт.
Алерт создан.
Прекращение доставки аудитных логов в объект назначения
Алерт отправит уведомление о том, что трейл прекратил загружать аудитные логи в объект назначения, например, по причине нехватки свободного места в бакете.
Параметр Окно вычисления зависит от конкретного трейла. В зависимости от типа и количества ресурсов в блоке сбора аудитных логов трейла, частота загрузки аудитных логов в объект назначения будет варьироваться.
- В консоли управления
перейдите в каталог, в котором хотите создать алерт. - Выберите сервис Monitoring.
- На панели слева выберите Алерты.
- В правом верхнем углу нажмите кнопку Создать алерт.
- В поле Название укажите
stopping-logs-alert. - В блоке Метрики справа от имени каталога нажмите
и укажите:service = Audit Trails.name = trail.delivered_events_count.trail = <имя_трейла>.
- В блоке Настройки алерта укажите:
- Условие срабатывания —
Равно. - Alarm —
0. - Окно вычисления —
<значение_для_трейла>.
- Условие срабатывания —
- В блоке Каналы уведомлений нажмите кнопку Добавить канал и выберите канал уведомления, созданный ранее.
- Нажмите кнопку Создать алерт.
Алерт создан.
Изменение числа трейлов
Алерт отправит уведомление о том, что число трейлов в облаке изменилось.
- В консоли управления
перейдите в каталог, в котором хотите создать алерт. - Выберите сервис Monitoring.
- На панели слева выберите Алерты.
- В правом верхнем углу нажмите кнопку Создать алерт.
- В поле Название укажите
number-trails-alert. - В блоке Метрики справа от имени каталога нажмите
и укажите:service = Audit Trails.name = quota.trails_count.usage.
- В блоке Настройки алерта укажите:
- Условие срабатывания —
Не равно. - Alarm —
<количество_трейлов>.
- Условие срабатывания —
- В блоке Каналы уведомлений нажмите кнопку Добавить канал и выберите канал уведомления, созданный ранее.
- Нажмите кнопку Создать алерт.
Израсходование квоты трейлов на облако
Алерт отправит уведомление о том, что квота на количество трейлов в облаке израсходована более чем на 80%.
- В консоли управления
перейдите в каталог, в котором хотите создать алерт. - Выберите сервис Monitoring.
- На панели слева выберите Алерты.
- В правом верхнем углу нажмите кнопку Создать алерт.
- В поле Название укажите
trail-quota-alert. - В блоке Метрики справа от имени каталога нажмите
и укажите:service = Audit Trails.name = quota.trails_count.usage.
- В блоке Настройки алерта укажите:
- Условие срабатывания —
Больше. - Alarm —
<число_равное_80%_от_квоты>.
- Условие срабатывания —
- В блоке Каналы уведомлений нажмите кнопку Добавить канал и выберите канал уведомления, созданный ранее.
- Нажмите кнопку Создать алерт.
Попытки неавторизованного доступа
Алерт отправит уведомление о том, что к одному из ресурсов трейла был отправлен неавторизованный запрос.
- В консоли управления
перейдите в каталог, в котором хотите создать алерт. - Выберите сервис Monitoring.
- На панели слева выберите Алерты.
- В правом верхнем углу нажмите кнопку Создать алерт.
- В поле Название укажите
unauthorized-access-alert. - В блоке Метрики справа от имени каталога нажмите
и укажите:service = Audit Trails.name = trail.unauthorized_events_count.
- В блоке Настройки алерта укажите:
- Условие срабатывания —
Больше. - Alarm —
0.
- Условие срабатывания —
- В блоке Каналы уведомлений нажмите кнопку Добавить канал и выберите канал уведомления, созданный ранее.
- Нажмите кнопку Создать алерт.
Настройте дашборд
Создайте дашборд
- В консоли управления
выберите каталог, в котором находятся нужные трейлы. - В списке сервисов выберите Monitoring.
- Перейдите на вкладку Дашборды.
- Нажмите Создать.
- Справа вверху нажмите Сохранить.
- В открывшемся окне введите название дашборда, например
missing-events, и нажмите Сохранить.
Создайте график для отслеживания пропущенных событий
Вы можете отслеживать пропущенные события по метрикам Audit Trails:
trail.processed_events_count— частота, с которой события принимаются в обработку.trail.delivered_events_count— частота, с которой события доставляются в объект назначения.
Скопируйте готовый график для отслеживания пропущенных событий на ваш дашборд:
-
Откройте дашборд трейла в Monitoring:
Консоль управления-
В консоли управления
выберите сервис Audit Trails. -
На панели слева выберите
Трейлы. -
Выберите нужный трейл.
-
Перейдите на панель
Мониторинг для выбранного трейла. -
Справа вверху нажмите Открыть в Monitoring.
Откроется интерфейс Monitoring.
-
-
Скопируйте график:
Интерфейс Monitoring-
Найдите график Processed versus delivered events.
-
Справа от названия графика нажмите
→ Копировать на другой дашборд. -
Укажите название, например
Processed versus delivered events — <имя_трейла>. -
Выберите облако, каталог и укажите дашборд, который вы создали ранее.
-
Нажмите Копировать и перейти к дашборду.
Откроется ваш дашборд с новым графиком на нем.
-
При необходимости аналогичным способом добавьте на дашборд графики из других трейлов.
Изучите график для отслеживания пропущенных событий
Обратите внимание на отставание Delivered events от Processed events. В норме могут встречаться кратковременные провалы с последующими всплесками. Если сохраняется устойчивое отставание в 1 час и более, проверьте статус и лог диагностики трейла.
Узнайте статус трейла
- В консоли управления
выберите сервис Audit Trails. - На панели слева выберите
Трейлы. - Выберите трейл. На странице Трейл отобразится подробная информация о трейле.
Статус Active при устойчивом отставании Delivered events от Processed events означает, что трейл работает нормально, но по каким-то причинам данные поступают в объект назначения с задержкой. В этом случае проверьте статус и логи объекта назначения:
Статус Error сообщает об ошибке в работе трейла. В этом случае изучите лог диагностики трейла.
Изучите лог диагностики трейла
- В консоли управления
выберите сервис Audit Trails. - На панели слева выберите
Трейлы. - Выберите трейл.
- Перейдите на панель
Лог диагностики и изучите лог. - Ознакомьтесь с рекомендациями по обработке ошибок.
Создайте график для объекта назначения
Дополнительно к графику для отслеживания пропущенных событий можно добавить график для объекта назначения:
-
Object Storage
Пропуск событий может быть связан с исчерпанием места, доступного для хранения логов. Это может произойти, если трейл отправляет логи в бакет с ограниченным размером. Чтобы отслеживать доступное место в бакете, создайте график по метрике
space_usageи добавьте метрикуmax-sizeв качестве порогового значения.Метрика
max-sizeнедоступна, если у бакета не задан максимальный размер. В таком случае необходимо самостоятельно контролировать исчерпание квоты на объем хранилища в одном облаке. -
Cloud Logging
Добавьте на дашборд график по метрике
group.service.ingested_records_per_second— она отображает реальную скорость записи логов в лог-группу. Сравнение этой величины с установленной квотойМаксимальная скорость записипомогает определить, не достигает ли поток логов максимально разрешенной скорости. Дополнительный график по метрикеgroup.service.ingest_requests_per_secondсо статусомERRORпозволит вовремя обнаружить ошибки при записи.