Метрики логов
Monium Logs публикует для каждого проекта набор стандартных метрик независимо от способа доставки логов.
Метрики позволяют оценить объем логов по сервисам и кластерам, задержку доставки, количество записей уровня ERROR по проекту и отдельным сервисам.
Метрики собраны в сервисный дашборд Logs overview:
- Дашборд создается автоматически в проекте после начала записи логов в систему.
- Дашборд доступен на уровне каталога, в который ведется запись логов.
- У метрик нет меток
hostиuser_cluster. - В метке
user_serviceуказывается лог-группа, для которой рассчитаны метрики.
Посмотреть дашборд с метриками логов
- На главной странице Monium
слева выберите Дашборды. - Перейдите на вкладку Сервисные дашборды.
- Найдите в списке и выберите Logs overview.
Описание графиков на дашборде
- Top services by logs — сервисы по количеству отправленных логов. Позволяет определить, какие сервисы генерируют наибольшее количество записей.
- Top services by traffic — сервисы по объему трафика в байтах. Показывает, какие сервисы создают наибольшую нагрузку по объему данных.
- Top services by bytes per log record — сервисы по среднему размеру записи лога. Помогает выявить сервисы с избыточно большими записями.
- Invalidated logs — логи, не прошедшие валидацию из-за несоответствия требованиям формата.
- Failed quota checks — запросы, отклоненные из-за превышения квот проекта.
- Failed authentications — неуспешные попытки авторизации.
- Attributes kind: Rows with dropped labels — строки с атрибутами, имеющими префикс
labels., которые отброшены или перемещены в метаинформацию. - Severity — распределение логов по уровням важности:
- Count info logs for services — количество информационных логов по сервисам.
- Count warn logs for services — количество предупреждений по сервисам.
- Count error logs for services — количество ошибок по сервисам.
- Latencies: Average latencies of write logs from service — время между отправкой лога приложением и записью в систему.
Описание метрик
ingest_processed_logs
Количество логов в секунду, которые прошли авторизацию и валидацию. Если количество логов превышает квоту, часть логов не обрабатывается.
Метки:
user_cluster— кластер, из которого были отправлены логи (можно указатьtotal, чтобы посмотреть сумму по всем кластерам).user_service— сервис, из которого были отправлены логи (можно указатьtotal, чтобы посмотреть сумму по всем сервисам).host— хост, с которого были отправлены логи (можно указатьcluster, чтобы посчитать сумму по всем ДЦ, или выбрать интересующий ДЦ).
ingest_processed_bytes
Количество байт в секунду, которые прошли авторизацию и валидацию. Если объем данных превышает квоту, часть логов не обрабатывается.
Метки:
user_cluster— кластер, из которого были отправлены логи (можно указатьtotal, чтобы посмотреть сумму по всем кластерам).user_service— сервис, из которого были отправлены логи (можно указатьtotal, чтобы посмотреть сумму по всем сервисам).host— хост, с которого были отправлены логи (можно указатьcluster, чтобы посчитать сумму по всем ДЦ, или выбрать интересующий ДЦ).
logsvalidator_invalidated_logs
Количество логов в секунду, не прошедших валидацию.
Метки:
user_cluster— кластер, из которого были отправлены логи (можно указатьtotal, чтобы посмотреть сумму по всем кластерам).user_service— сервис, из которого были отправлены логи (можно указатьtotal, чтобы посмотреть сумму по всем сервисам).host— хост, с которого были отправлены логи (можно указатьcluster, чтобы посчитать сумму по всем ДЦ, или выбрать интересующий ДЦ).reason— причина, по которой лог не прошел валидацию.
Ошибки валидации
res.attrs.project— не указан проект.res.attrs.service— не указан сервис.res.attrs.invalid— атрибуты на уровне ресурса не прошли валидацию.scope.name— длина имени скоупа 0 или больше 200 символов, или содержит символы не из Unicode.scope.attrs.invalid— атрибуты не прошли валидацию.log.attrs.invalid— атрибуты строки лога не прошли валидацию.log.body.not.string— в типе body не текст.severity.not.match.text—severityне соответствует текстовому названию severity (severityText).severity.0.text.not.empty—severity = 0и указанseverityText.severity.not.in.range—severity, указанный в логе, меньше 1 (Trace) или больше 24 (FATAL 4).ts.invalid—timestamp, указанный в логе, больше текущего времени + 5 минут.observed.ts.invalid—observed timestamp, указанный в логе, больше текущего времени + 5 минут.log.component.both.levels— компонент указан на уровне скоупа и лога.
severity_logs_user_ts
Количество логов по уровням важности (severity). Метрика использует время из записи лога, а не время записи в систему.
Метки:
user_cluster— кластер, из которого были отправлены логи (можно указатьtotal, чтобы посмотреть сумму по всем кластерам).user_service— сервис, из которого были отправлены логи (можно указатьtotal, чтобы посмотреть сумму по всем сервисам).host— хост, с которого были отправлены логи (можно указатьcluster, чтобы посчитать сумму по всем ДЦ или выбрать интересующий ДЦ).severity—levelлога (Error,Warn,Info).
receiver_auth_processed_logs
Количество логов в секунду до авторизации, валидации и проверки квот.
Метки:
user_cluster— кластер, из которого были отправлены логи (можно указатьtotal, чтобы посмотреть сумму по всем кластерам).user_service— сервис, из которого были отправлены логи (можно указатьtotal, чтобы посмотреть сумму по всем сервисам).host— хост, с которого были отправлены логи (можно указатьcluster, чтобы посчитать сумму по всем ДЦ или выбрать интересующий ДЦ).
receiver_auth_processed_logs_bytes
Количество байт в секунду до авторизации, валидации и проверки квот.
Метки:
user_cluster— кластер, из которого были отправлены логи (можно указатьtotal, чтобы посмотреть сумму по всем кластерам).user_service— сервис, из которого были отправлены логи (можно указатьtotal, чтобы посмотреть сумму по всем сервисам).host— хост, с которого были отправлены логи (можно указатьcluster, чтобы посчитать сумму по всем ДЦ или выбрать интересующий ДЦ).
receiver_auth_authorizations
Количество неуспешных попыток авторизации в секунду.
Метки:
user_cluster— кластер, из которого были отправлены логи (можно указатьtotal, чтобы посмотреть сумму по всем кластерам).user_service— сервис, из которого были отправлены логи (можно указатьtotal, чтобы посмотреть сумму по всем сервисам).host— хост, с которого были отправлены логи (можно указатьcluster, чтобы посчитать сумму по всем ДЦ или выбрать интересующий ДЦ).user_auth_result— результат авторизации (сейчас толькоfailure).user_auth_kind— тип авторизации.
lag_from_app_sec
Время от отправки лога приложением до записи в систему.
Метки:
user_cluster— кластер, из которого были отправлены логи (можно указатьtotal, чтобы посмотреть сумму по всем кластерам).user_service— сервис, из которого были отправлены логи (можно указатьtotal, чтобы посмотреть сумму по всем сервисам).host— хост, с которого были отправлены логи (можно указатьcluster, чтобы посчитать сумму по всем ДЦ или выбрать интересующий ДЦ).bin— бакеты в секундах (1, 30, 50, 60, 90, 120, 300, 900, inf).
lag_from_agent_sec
Время от отправки лога агентом до записи в систему.
Метки:
user_cluster— кластер, из которого были отправлены логи (можно указатьtotal, чтобы посмотреть сумму по всем кластерам).user_service— сервис, из которого были отправлены логи (можно указатьtotal, чтобы посмотреть сумму по всем сервисам).host— хост, с которого были отправлены логи (можно указатьcluster, чтобы посчитать сумму по всем ДЦ или выбрать интересующий ДЦ).bin— бакеты в секундах (1, 5, 60, 90, 300, inf).
project_logs_quota
Квота по количеству строк логов для проекта.
Метки:
host— указатьquota.
project_bytes_logs_quota
Квота по объему логов в байтах в секунду для проекта.
Метки:
host— указатьquota.
ingest_dropped_labels_count
Количество строк в секунду, где атрибут с префиксом labels. записан в метаинформацию или отброшен.
Метки:
user_cluster— кластер, из которого были отправлены логи (можно указатьtotal, чтобы посмотреть сумму по всем кластерам).user_service— сервис, из которого были отправлены логи (можно указатьtotal, чтобы посмотреть сумму по всем сервисам).host— хост, с которого были отправлены логи (можно указатьcluster, чтобы посчитать сумму по всем ДЦ или выбрать интересующий ДЦ).