Справочник метрик нод
В этом разделе описаны метрики, поставляемые в Monitoring. Помимо описанных метрик ноды могут поставлять в Monitoring метрики, указанные пользователем на этапе создания ноды.
Описанные метрики отражают состояние ресурсов сервисов, развернутых в нодах DataSphere.
Имя метрики пишется в метку name.
Все метрики сервиса DataSphere имеют общую метку service=datasphere.
Системные метрики
Системные метрики поставляются с прокси Yandex Cloud и описывают запросы к сервису.
Все системные метрики имеют метку node_path — эндпоинт ноды.
Системные метрики нод
Все системные метрики нод имеют метку node_id — идентификатор ноды.
| Имя метрики Тип, единицы измерения |
Описание Метки |
|---|---|
node_requestsRATE, запросы/с |
Частота запросов в ноду. |
node_grpc_codesRATE, запросы/с |
Частота запросов в ноду по gRPC-кодам ответа. Метка code — gRPC-код ответа. |
node_http_codesRATE, запросы/с |
Частота запросов в ноду по HTTP-кодам ответа. Метка code — HTTP-код ответа. |
node_request_durationsRATE, секунды |
Гистограмма распределения времени ответа на запрос в ноду. |
Системные метрики алиасов
Все системные метрики алиасов имеют метку alias_name — имя алиаса.
| Имя метрики Тип, единицы измерения |
Описание Метки |
|---|---|
alias_requestsRATE, запросы/с |
Частота запросов в алиас. |
alias_grpc_codesRATE, запросы/с |
Частота запросов в алиас по gRPC-кодам ответа. Метка code — gRPC-код ответа. |
alias_http_codesRATE, запросы/с |
Частота запросов в алиас по HTTP-кодам ответа. Метка code — HTTP-код ответа. |
alias_request_durationsRATE, секунды |
Гистограмма распределения времени ответа на запрос. |
Метрики Triton
Подробнее о метриках Triton см. в документации
Метрики инференса
Общие метки для всех метрик инференса:
| Метка | Значение |
|---|---|
| model | Имя модели. |
| version | Версия модели. |
| Имя метрики Тип, единицы измерения |
Описание |
|---|---|
nv_inference_request_successRATE, запросы/с |
Частота успешных запросов инференса. |
nv_inference_request_failureRATE, запросы/с |
Частота неудачных запросов инференса. |
nv_inference_countRATE, запросы/с |
Частота выполнения инференсов. |
nv_inference_exec_countRATE, запросы/с |
Частота выполнения вычислений для инференсов. |
nv_inference_pending_request_countDGAUGE, запросы |
Количество ожидающих запросов инференса. |
Метрики задержек
Общие метки для всех метрик задержек:
| Метка | Значение |
|---|---|
| model | Имя модели. |
| version | Версия модели. |
| Имя метрики Тип, единицы измерения |
Описание |
|---|---|
nv_inference_request_duration_usRATE, миллисекунды |
Средняя продолжительность запроса инференса. |
nv_inference_queue_duration_usRATE, миллисекунды |
Средняя продолжительность ожидания в очереди для выполнения инференса. |
nv_inference_compute_input_duration_usRATE, миллисекунды |
Средняя продолжительность обработки входных данных для инференса. |
nv_inference_compute_infer_duration_usRATE, миллисекунды |
Средняя продолжительность выполнения вычислений для инференса. |
nv_inference_compute_output_duration_usRATE, миллисекунды |
Средняя продолжительность обработки выходных данных для инференса. |
Сводные метрики
| Имя метрики Тип, единицы измерения |
Описание Метки |
|---|---|
nv_inference_request_summary_usRATE, микросекунды |
Суммарное время обработки запросов инференса от начала до конца (включая кешированные запросы). |
nv_inference_queue_summary_usRATE, микросекунды |
Суммарное время нахождения запросов в очереди на выполнение (включает кешированные запросы). |
nv_inference_compute_input_summary_usRATE, микросекунды |
Суммарное время обработки входных данных для запросов инференса (в бэкенде фреймворка, не включает кешированные запросы). |
nv_inference_compute_infer_summary_usRATE, микросекунды |
Суммарное время выполнения модели инференса для запросов (в бэкенде фреймворка, не включает кешированные запросы). |
nv_inference_compute_output_summary_usRATE, микросекунды |
Суммарное время обработки выходных данных для запросов инференса (в бэкенде фреймворка, не включает кешированные запросы). |
Метрики GPU
| Имя метрики Тип, единицы измерения |
Описание Метки |
|---|---|
nv_gpu_power_usageDGAUGE, ватты |
Мгновенное потребление мощности GPU. |
nv_gpu_power_limitDGAUGE, ватты |
Максимальный предел мощности GPU. |
nv_energy_consumptionDGAUGE, джоули |
Потребление энергии GPU с момента запуска Triton. |
nv_gpu_utilizationDGAUGE |
Уровень использования GPU ([0.0 - 1.0]). |
nv_gpu_memory_total_bytesDGAUGE, байты |
Общий объем памяти GPU. |
nv_gpu_memory_used_bytesDGAUGE, байты |
Использованный объем памяти GPU. |
Метрики CPU
| Имя метрики Тип, единицы измерения |
Описание |
|---|---|
nv_cpu_utilizationDGAUGE |
Уровень загрузки CPU ([0.0 - 1.0]). |
nv_cpu_memory_total_bytesDGAUGE, байты |
Общий объем памяти CPU. |
nv_cpu_memory_used_bytesDGAUGE, байты |
Объем используемой памяти CPU. |
Метрики закрепленной памяти
| Имя метрики Тип, единицы измерения |
Описание Метки |
|---|---|
nv_pinned_memory_pool_total_bytesDGAUGE, байты |
Общий объем закрепленной памяти для всех моделей. |
nv_pinned_memory_pool_used_bytesDGAUGE, байты |
Использованный объем закрепленной памяти для всех моделей. |
Метрики кеша ответов
| Имя метрики Тип, единицы измерения |
Описание |
|---|---|
nv_cache_num_hits_per_modelCOUNTER, штуки |
Количество попаданий в кеш ответов для каждой модели. |
nv_cache_num_misses_per_modelCOUNTER, штуки |
Количество пропущенных ответов в кеше для каждой модели. |
nv_cache_hit_duration_per_modelGAUGE, микросекунды |
Суммарное время, потраченное на получение ответа из кеша при попаданиях в кеш для каждой модели. |
nv_cache_miss_duration_per_modelGAUGE, микросекунды |
Суммарное время, потраченное на поиск и вставку ответов в кеш при сбое в работе кеша для каждой модели. |