Метрики дашборда NVIDIA DCGM

Статья создана

Обновлена 23 марта 2026 г.

Общая информация
Переменные дашборда
Панели и метрики
Рекомендации по мониторингу
Дополнительные ресурсы

Дашборд NVIDIA DCGM в Grafana предоставляет комплексный мониторинг графических ускорителей NVIDIA в кластере Stackland. Дашборд содержит метрики температуры, энергопотребления, загрузки GPU, использования памяти и других важных параметров работы графических ускорителей.

Чтобы открыть дашборд:

Откройте Grafana.
В списке дашбордов выберите NVIDIA DCGM official.

Откроется дашборд мониторинга GPU.

Общая информация

Название дашборда: NVIDIA DCGM official
UID: gpu-official
Интервал обновления: 30 секунд
Источник данных: Prometheus

Переменные дашборда

Дашборд использует следующие переменные для фильтрации данных:

DS_PROMETHEUS — источник данных Prometheus;
instance — выбор конкретного экземпляра DCGM Exporter (поддерживается множественный выбор);
gpu — выбор конкретного GPU или всех GPU (поддерживается множественный выбор, по умолчанию выбраны все).

Панели и метрики

1. GPU Temperature

Описание: Температура каждого GPU в градусах Цельсия. График отображает температуру для каждого GPU отдельно с расчетом среднего, последнего и максимального значений.

Метрика: DCGM_FI_DEV_GPU_TEMP

Единица измерения: градусы Цельсия

Пороговые значения:

Зеленый — нормальная температура;
Красный — температура выше 80°C.

2. GPU Avg. Temp

Описание: Средняя температура всех GPU. Панель типа gauge отображает текущее среднее значение температуры с цветовой индикацией.

Метрика: avg(DCGM_FI_DEV_GPU_TEMP)

Единица измерения: градусы Цельсия

Пороговые значения:

Зеленый — температура ниже 83°C;
Желтый — температура от 83°C до 87°C;
Красный — температура выше 87°C.

Рекомендации: При превышении 83°C проверьте систему охлаждения и загрузку GPU. Температура выше 87°C может привести к троттлингу и снижению производительности.

3. GPU Power Usage

Описание: Энергопотребление каждого GPU в ваттах. График показывает текущее потребление энергии для каждого GPU с расчетом среднего, последнего и максимального значений.

Метрика: DCGM_FI_DEV_POWER_USAGE

Единица измерения: ватты

4. GPU Power Total

Описание: Суммарное энергопотребление всех GPU. Панель типа gauge отображает общее потребление энергии всеми графическими ускорителями.

Метрика: sum(DCGM_FI_DEV_POWER_USAGE)

Единица измерения: ватты

Пороговые значения:

Зеленый — потребление ниже 1800 Вт;
Желтый — потребление от 1800 Вт до 2200 Вт;
Красный — потребление выше 2200 Вт.

Рекомендации: Следите за общим энергопотреблением, чтобы не превысить лимиты блока питания или выделенной мощности для стойки.

5. GPU SM Clocks

Описание: Частота работы потоковых мультипроцессоров (Streaming Multiprocessors) GPU в герцах. Метрика умножается на 1 000 000 для преобразования из МГц в Гц.

Метрика: DCGM_FI_DEV_SM_CLOCK * 1000000

Единица измерения: герцы

Описание: SM (Streaming Multiprocessor) — основной вычислительный блок архитектуры NVIDIA GPU, выполняющий параллельные вычисления. Частота SM определяет скорость выполнения вычислительных операций.

6. GPU Utilization

Описание: Процент загрузки GPU. Показывает, какая часть вычислительных ресурсов GPU используется в данный момент.

Метрика: DCGM_FI_DEV_GPU_UTIL

Единица измерения: проценты (0-100)

Рекомендации: Низкая загрузка GPU при активных задачах может указывать на узкие места в передаче данных или неоптимальный код. Высокая загрузка (близкая к 100%) — нормальное состояние при выполнении вычислительных задач.

7. GPU Framebuffer Mem Used

Описание: Объем используемой видеопамяти (framebuffer memory) каждого GPU. Framebuffer — это область памяти GPU, используемая для хранения данных, текстур и промежуточных результатов вычислений.

Метрика: DCGM_FI_DEV_FB_USED

Единица измерения: мегабайты

Рекомендации: Следите за использованием памяти GPU. Превышение доступного объема памяти приведет к ошибкам выполнения задач или снижению производительности из-за свопинга.

8. Tensor Core Utilization

Описание: Загрузка тензорных ядер (Tensor Cores) GPU. Тензорные ядра — это специализированные вычислительные блоки для операций с матрицами, используемые в задачах машинного обучения и искусственного интеллекта.

Метрика: DCGM_FI_PROF_PIPE_TENSOR_ACTIVE

Единица измерения: доля от 0 до 1 (0% до 100%)

Описание: Высокая загрузка тензорных ядер характерна для задач глубокого обучения, использующих операции с матрицами (например, обучение нейронных сетей). Низкая загрузка при выполнении ML-задач может указывать на неоптимальное использование возможностей GPU.

Метрики дашборда NVIDIA DCGM

Общая информация

Переменные дашборда

Панели и метрики

1. GPU Temperature

2. GPU Avg. Temp

3. GPU Power Usage

4. GPU Power Total

5. GPU SM Clocks

6. GPU Utilization

7. GPU Framebuffer Mem Used

8. Tensor Core Utilization

Рекомендации по мониторингу

Критические метрики

Метрики производительности

Метрики температуры и энергопотребления

Метрики памяти

Дополнительные ресурсы

Была ли статья полезна?

Метрики дашборда NVIDIA DCGM

Общая информацияОбщая информация

Переменные дашбордаПеременные дашборда

Панели и метрикиПанели и метрики

1. GPU Temperature1. GPU Temperature

2. GPU Avg. Temp2. GPU Avg. Temp

3. GPU Power Usage3. GPU Power Usage

4. GPU Power Total4. GPU Power Total

5. GPU SM Clocks5. GPU SM Clocks

6. GPU Utilization6. GPU Utilization

7. GPU Framebuffer Mem Used7. GPU Framebuffer Mem Used

8. Tensor Core Utilization8. Tensor Core Utilization

Рекомендации по мониторингуРекомендации по мониторингу

Критические метрикиКритические метрики

Метрики производительностиМетрики производительности

Метрики температуры и энергопотребленияМетрики температуры и энергопотребления

Метрики памятиМетрики памяти

Дополнительные ресурсыДополнительные ресурсы

Была ли статья полезна?

Общая информация

Переменные дашборда

Панели и метрики

1. GPU Temperature

2. GPU Avg. Temp

3. GPU Power Usage

4. GPU Power Total

5. GPU SM Clocks

6. GPU Utilization

7. GPU Framebuffer Mem Used

8. Tensor Core Utilization

Рекомендации по мониторингу

Критические метрики

Метрики производительности

Метрики температуры и энергопотребления

Метрики памяти

Дополнительные ресурсы