Проверки состояния и мониторинг
Для инстансов нод можно включить проверки состояния — балансировщик будет отправлять проверочные запросы к эндпоинтам через определенные промежутки времени и ожидать ответа в течение определенного периода.
Проверки могут работать по протоколу HTTP или gRPC. Протокол должен соответствовать реализации проверки внутри контейнера в ноде.
Для проверок поддерживаются следующие настройки:
- Таймаут — время ожидания ответа.
- Интервал — интервал времени между проверочными запросами.
- Показатели состояния ресурса: пороги количества удачных или неудачных результатов проверок, при превышении которых проверка будет считаться пройденной или непройденной.
- Настройки HTTP-проверок:
- Путь в URI запроса к эндпоинту.
- Настройки gRPC-проверок:
- Имя проверяемого сервиса.
Мониторинг
Ноды поставляют метрики мониторинга в каталог сервиса Yandex Monitoring, который указан в настройках ноды. По умолчанию платформа собирает следующие метрики:
-
Для нод:
node_requests
— частота запросов в ноду, количество в секунду;node_grpc_codes
— частота кодов ответа для gRPC-эндпоинтов, количество в секунду для каждого кода;node_http_codes
— частота кодов ответа для HTTP-эндпоинтов, количество в секунду для каждого кода;node_requests_durations
— гистограмма времени выполнения запроса, в миллисекундах.
-
Для алиасов:
alias_requests
— частота запросов в алиас, количество в секунду;alias_grpc_codes
— частота кодов ответа для gRPC-эндпоинтов, количество в секунду для каждого кода;alias_http_codes
— частота кодов ответа для HTTP-эндпоинтов, количество в секунду для каждого кода;alias_requests_durations
— гистограмма времени выполнения запроса, в миллисекундах.
Метрики нод и алиасов содержат дополнительные метки:
node_id
— идентификатор ноды;node_path
— путь в URI запроса к эндпоинту;alias_name
— имя алиаса.
Стандартные метрики можно получить с помощью запросов в сервисе Monitoring или на сервисных дашбордах DataSphere на страницах ноды и алиаса.
Дополнительно для нод можно включить экспорт произвольных метрик в сервис Monitoring. Платформа будет периодически опрашивать все инстансы ноды по протоколу HTTP и собирать пользовательские метрики. Графики также будут доступны в каталоге сервиса Monitoring, который указан в настройках ноды.
Для сбора метрик мониторинга поддерживаются следующие настройки:
- Формат — текстовый формат Prometheus
или формат сервиса Monitoring. - HTTP-путь — путь, по которому будет выполняться GET-запрос.
- Порт — порт контейнера для HTTP-запросов.
Ко всем метрикам автоматически добавляются следующие метки:
node_id
— идентификатор ноды;instance_id
— идентификатор инстанса ноды.