Справочник метрик нод
В этом разделе описаны метрики, поставляемые в Monitoring. Помимо описанных метрик ноды могут поставлять в Monitoring метрики, указанные пользователем на этапе создания ноды.
Описанные метрики отражают состояние ресурсов сервисов, развернутых в нодах DataSphere.
Имя метрики пишется в метку name
.
Все метрики сервиса DataSphere имеют общую метку service=datasphere
.
Системные метрики
Системные метрики поставляются с прокси Yandex Cloud и описывают запросы к сервису.
Все системные метрики имеют метку node_path
— эндпоинт ноды.
Системные метрики нод
Все системные метрики нод имеют метку node_id
— идентификатор ноды.
Имя метрики Тип, единицы измерения |
Описание Метки |
---|---|
node_requests RATE , запросы/с |
Частота запросов в ноду. |
node_grpc_codes RATE , запросы/с |
Частота запросов в ноду по gRPC-кодам ответа. Метка code — gRPC-код ответа. |
node_http_codes RATE , запросы/с |
Частота запросов в ноду по HTTP-кодам ответа. Метка code — HTTP-код ответа. |
node_request_durations RATE , секунды |
Гистограмма распределения времени ответа на запрос в ноду. |
Системные метрики алиасов
Все системные метрики алиасов имеют метку alias_name
— имя алиаса.
Имя метрики Тип, единицы измерения |
Описание Метки |
---|---|
alias_requests RATE , запросы/с |
Частота запросов в алиас. |
alias_grpc_codes RATE , запросы/с |
Частота запросов в алиас по gRPC-кодам ответа. Метка code — gRPC-код ответа. |
alias_http_codes RATE , запросы/с |
Частота запросов в алиас по HTTP-кодам ответа. Метка code — HTTP-код ответа. |
alias_request_durations RATE , секунды |
Гистограмма распределения времени ответа на запрос. |
Метрики Triton
Подробнее о метриках Triton см. в документации
Метрики инференса
Общие метки для всех метрик инференса:
Метка | Значение |
---|---|
model | Имя модели. |
version | Версия модели. |
Имя метрики Тип, единицы измерения |
Описание |
---|---|
nv_inference_request_success RATE , запросы/с |
Частота успешных запросов инференса. |
nv_inference_request_failure RATE , запросы/с |
Частота неудачных запросов инференса. |
nv_inference_count RATE , запросы/с |
Частота выполнения инференсов. |
nv_inference_exec_count RATE , запросы/с |
Частота выполнения вычислений для инференсов. |
nv_inference_pending_request_count DGAUGE , запросы |
Количество ожидающих запросов инференса. |
Метрики задержек
Общие метки для всех метрик задержек:
Метка | Значение |
---|---|
model | Имя модели. |
version | Версия модели. |
Имя метрики Тип, единицы измерения |
Описание |
---|---|
nv_inference_request_duration_us RATE , миллисекунды |
Средняя продолжительность запроса инференса. |
nv_inference_queue_duration_us RATE , миллисекунды |
Средняя продолжительность ожидания в очереди для выполнения инференса. |
nv_inference_compute_input_duration_us RATE , миллисекунды |
Средняя продолжительность обработки входных данных для инференса. |
nv_inference_compute_infer_duration_us RATE , миллисекунды |
Средняя продолжительность выполнения вычислений для инференса. |
nv_inference_compute_output_duration_us RATE , миллисекунды |
Средняя продолжительность обработки выходных данных для инференса. |
Сводные метрики
Имя метрики Тип, единицы измерения |
Описание Метки |
---|---|
nv_inference_request_summary_us RATE , микросекунды |
Суммарное время обработки запросов инференса от начала до конца (включая кешированные запросы). |
nv_inference_queue_summary_us RATE , микросекунды |
Суммарное время нахождения запросов в очереди на выполнение (включает кешированные запросы). |
nv_inference_compute_input_summary_us RATE , микросекунды |
Суммарное время обработки входных данных для запросов инференса (в бэкенде фреймворка, не включает кешированные запросы). |
nv_inference_compute_infer_summary_us RATE , микросекунды |
Суммарное время выполнения модели инференса для запросов (в бэкенде фреймворка, не включает кешированные запросы). |
nv_inference_compute_output_summary_us RATE , микросекунды |
Суммарное время обработки выходных данных для запросов инференса (в бэкенде фреймворка, не включает кешированные запросы). |
Метрики GPU
Имя метрики Тип, единицы измерения |
Описание Метки |
---|---|
nv_gpu_power_usage DGAUGE , ватты |
Мгновенное потребление мощности GPU. |
nv_gpu_power_limit DGAUGE , ватты |
Максимальный предел мощности GPU. |
nv_energy_consumption DGAUGE , джоули |
Потребление энергии GPU с момента запуска Triton. |
nv_gpu_utilization DGAUGE |
Уровень использования GPU ([0.0 - 1.0] ). |
nv_gpu_memory_total_bytes DGAUGE , байты |
Общий объем памяти GPU. |
nv_gpu_memory_used_bytes DGAUGE , байты |
Использованный объем памяти GPU. |
Метрики CPU
Имя метрики Тип, единицы измерения |
Описание |
---|---|
nv_cpu_utilization DGAUGE |
Уровень загрузки CPU ([0.0 - 1.0] ). |
nv_cpu_memory_total_bytes DGAUGE , байты |
Общий объем памяти CPU. |
nv_cpu_memory_used_bytes DGAUGE , байты |
Объем используемой памяти CPU. |
Метрики закрепленной памяти
Имя метрики Тип, единицы измерения |
Описание Метки |
---|---|
nv_pinned_memory_pool_total_bytes DGAUGE , байты |
Общий объем закрепленной памяти для всех моделей. |
nv_pinned_memory_pool_used_bytes DGAUGE , байты |
Использованный объем закрепленной памяти для всех моделей. |
Метрики кеша ответов
Имя метрики Тип, единицы измерения |
Описание |
---|---|
nv_cache_num_hits_per_model COUNTER , штуки |
Количество попаданий в кеш ответов для каждой модели. |
nv_cache_num_misses_per_model COUNTER , штуки |
Количество пропущенных ответов в кеше для каждой модели. |
nv_cache_hit_duration_per_model GAUGE , микросекунды |
Суммарное время, потраченное на получение ответа из кеша при попаданиях в кеш для каждой модели. |
nv_cache_miss_duration_per_model GAUGE , микросекунды |
Суммарное время, потраченное на поиск и вставку ответов в кеш при сбое в работе кеша для каждой модели. |