Метрики дашборда NVIDIA DCGM
Дашборд NVIDIA DCGM в Grafana предоставляет комплексный мониторинг графических ускорителей NVIDIA в кластере Stackland. Дашборд содержит метрики температуры, энергопотребления, загрузки GPU, использования памяти и других важных параметров работы графических ускорителей.
Чтобы открыть дашборд:
- Откройте Grafana.
- В списке дашбордов выберите NVIDIA DCGM official.
Откроется дашборд мониторинга GPU.
Общая информация
Название дашборда: NVIDIA DCGM official
UID: gpu-official
Интервал обновления: 30 секунд
Источник данных: Prometheus
Переменные дашборда
Дашборд использует следующие переменные для фильтрации данных:
- DS_PROMETHEUS — источник данных Prometheus;
- instance — выбор конкретного экземпляра DCGM Exporter (поддерживается множественный выбор);
- gpu — выбор конкретного GPU или всех GPU (поддерживается множественный выбор, по умолчанию выбраны все).
Панели и метрики
1. GPU Temperature
Описание: Температура каждого GPU в градусах Цельсия. График отображает температуру для каждого GPU отдельно с расчетом среднего, последнего и максимального значений.
Метрика: DCGM_FI_DEV_GPU_TEMP
Единица измерения: градусы Цельсия
Пороговые значения:
- Зеленый — нормальная температура;
- Красный — температура выше 80°C.
2. GPU Avg. Temp
Описание: Средняя температура всех GPU. Панель типа gauge отображает текущее среднее значение температуры с цветовой индикацией.
Метрика: avg(DCGM_FI_DEV_GPU_TEMP)
Единица измерения: градусы Цельсия
Пороговые значения:
- Зеленый — температура ниже 83°C;
- Желтый — температура от 83°C до 87°C;
- Красный — температура выше 87°C.
Рекомендации: При превышении 83°C проверьте систему охлаждения и загрузку GPU. Температура выше 87°C может привести к троттлингу и снижению производительности.
3. GPU Power Usage
Описание: Энергопотребление каждого GPU в ваттах. График показывает текущее потребление энергии для каждого GPU с расчетом среднего, последнего и максимального значений.
Метрика: DCGM_FI_DEV_POWER_USAGE
Единица измерения: ватты
4. GPU Power Total
Описание: Суммарное энергопотребление всех GPU. Панель типа gauge отображает общее потребление энергии всеми графическими ускорителями.
Метрика: sum(DCGM_FI_DEV_POWER_USAGE)
Единица измерения: ватты
Пороговые значения:
- Зеленый — потребление ниже 1800 Вт;
- Желтый — потребление от 1800 Вт до 2200 Вт;
- Красный — потребление выше 2200 Вт.
Рекомендации: Следите за общим энергопотреблением, чтобы не превысить лимиты блока питания или выделенной мощности для стойки.
5. GPU SM Clocks
Описание: Частота работы потоковых мультипроцессоров (Streaming Multiprocessors) GPU в герцах. Метрика умножается на 1 000 000 для преобразования из МГц в Гц.
Метрика: DCGM_FI_DEV_SM_CLOCK * 1000000
Единица измерения: герцы
Описание: SM (Streaming Multiprocessor) — основной вычислительный блок архитектуры NVIDIA GPU, выполняющий параллельные вычисления. Частота SM определяет скорость выполнения вычислительных операций.
6. GPU Utilization
Описание: Процент загрузки GPU. Показывает, какая часть вычислительных ресурсов GPU используется в данный момент.
Метрика: DCGM_FI_DEV_GPU_UTIL
Единица измерения: проценты (0-100)
Рекомендации: Низкая загрузка GPU при активных задачах может указывать на узкие места в передаче данных или неоптимальный код. Высокая загрузка (близкая к 100%) — нормальное состояние при выполнении вычислительных задач.
7. GPU Framebuffer Mem Used
Описание: Объем используемой видеопамяти (framebuffer memory) каждого GPU. Framebuffer — это область памяти GPU, используемая для хранения данных, текстур и промежуточных результатов вычислений.
Метрика: DCGM_FI_DEV_FB_USED
Единица измерения: мегабайты
Рекомендации: Следите за использованием памяти GPU. Превышение доступного объема памяти приведет к ошибкам выполнения задач или снижению производительности из-за свопинга.
8. Tensor Core Utilization
Описание: Загрузка тензорных ядер (Tensor Cores) GPU. Тензорные ядра — это специализированные вычислительные блоки для операций с матрицами, используемые в задачах машинного обучения и искусственного интеллекта.
Метрика: DCGM_FI_PROF_PIPE_TENSOR_ACTIVE
Единица измерения: доля от 0 до 1 (0% до 100%)
Описание: Высокая загрузка тензорных ядер характерна для задач глубокого обучения, использующих операции с матрицами (например, обучение нейронных сетей). Низкая загрузка при выполнении ML-задач может указывать на неоптимальное использование возможностей GPU.
Рекомендации по мониторингу
Критические метрики
Следующие метрики требуют немедленного внимания при отклонении от нормы:
- GPU Avg. Temp — должна быть ниже 83°C. Превышение 87°C критично;
- GPU Power Total — следите за общим энергопотреблением, не допускайте превышения 2200 Вт;
- GPU Framebuffer Mem Used — контролируйте использование памяти, чтобы избежать ошибок out-of-memory.
Метрики производительности
Для оценки эффективности использования GPU обращайте внимание на:
- GPU Utilization — загрузка GPU должна быть высокой при выполнении вычислительных задач;
- Tensor Core Utilization — для ML-задач загрузка тензорных ядер должна быть значительной;
- GPU SM Clocks — частота работы SM должна соответствовать спецификациям GPU.
Метрики температуры и энергопотребления
Для контроля теплового режима и энергопотребления:
- GPU Temperature — температура каждого GPU должна быть в пределах нормы;
- GPU Power Usage — энергопотребление должно соответствовать нагрузке;
- GPU Avg. Temp — средняя температура не должна превышать безопасные пороги.
Метрики памяти
Для контроля использования видеопамяти:
- GPU Framebuffer Mem Used — следите за объемом используемой памяти каждого GPU;
- Сравнивайте используемую память с общим объемом доступной памяти GPU.