Yandex Cloud
Поиск
Связаться с намиПопробовать бесплатно
  • Кейсы
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
  • Marketplace
    • Доступны в регионе
    • Инфраструктура и сеть
    • Платформа данных
    • Искусственный интеллект
    • Безопасность
    • Инструменты DevOps
    • Бессерверные вычисления
    • Управление ресурсами
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Партнёрская программа
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Калькулятор цен
    • Тарифы
    • Акции и free tier
  • Кейсы
  • Документация
  • Блог
Создавайте контент и получайте гранты!Готовы написать своё руководство? Участвуйте в контент-программе и получайте гранты на работу с облачными сервисами!
Подробнее о программе
Проект Яндекса
© 2026 ТОО «Облачные Сервисы Казахстан»
Yandex Cloud Stackland
  • Что нового
  • Установка
    • Все руководства
    • Установить Stackland на Yandex BareMetal
    • Настройка внешнего доступа к поду в кластере
    • Все инструкции
    • Проекты
    • Ресурсная модель
      • Мониторинг ClickHouse
      • Метрики дашборда NVIDIA® DCGM
      • Метрики дашборда NVIDIA® DCGM с MIG
      • Метрики дашборда NVIDIA® DCGM без MIG
      • Мониторинг оборудования
  • Управление доступом
  • Правила тарификации
  • Диагностика и устранение неполадок

В этой статье:

  • Общая информация
  • Переменные дашборда
  • Панели и метрики
  • 1. GPU Temperature
  • 2. GPU Avg. Temp
  • 3. GPU Power Usage
  • 4. GPU Power Total
  • 5. GPU SM Clocks
  • 6. GPU Utilization
  • 7. GPU Framebuffer Mem Used
  • 8. Tensor Core Utilization
  • Рекомендации по мониторингу
  • Критические метрики
  • Метрики производительности
  • Метрики температуры и энергопотребления
  • Метрики памяти
  • Дополнительные ресурсы
  1. Концепции
  2. Мониторинг кластера
  3. Метрики дашборда NVIDIA® DCGM

Метрики дашборда NVIDIA DCGM

Статья создана
Yandex Cloud
Обновлена 23 марта 2026 г.
  • Общая информация
  • Переменные дашборда
  • Панели и метрики
    • 1. GPU Temperature
    • 2. GPU Avg. Temp
    • 3. GPU Power Usage
    • 4. GPU Power Total
    • 5. GPU SM Clocks
    • 6. GPU Utilization
    • 7. GPU Framebuffer Mem Used
    • 8. Tensor Core Utilization
  • Рекомендации по мониторингу
    • Критические метрики
    • Метрики производительности
    • Метрики температуры и энергопотребления
    • Метрики памяти
  • Дополнительные ресурсы

Дашборд NVIDIA DCGM в Grafana предоставляет комплексный мониторинг графических ускорителей NVIDIA в кластере Stackland. Дашборд содержит метрики температуры, энергопотребления, загрузки GPU, использования памяти и других важных параметров работы графических ускорителей.

Чтобы открыть дашборд:

  1. Откройте Grafana.
  2. В списке дашбордов выберите NVIDIA DCGM official.

Откроется дашборд мониторинга GPU.

Общая информацияОбщая информация

Название дашборда: NVIDIA DCGM official
UID: gpu-official
Интервал обновления: 30 секунд
Источник данных: Prometheus

Переменные дашбордаПеременные дашборда

Дашборд использует следующие переменные для фильтрации данных:

  • DS_PROMETHEUS — источник данных Prometheus;
  • instance — выбор конкретного экземпляра DCGM Exporter (поддерживается множественный выбор);
  • gpu — выбор конкретного GPU или всех GPU (поддерживается множественный выбор, по умолчанию выбраны все).

Панели и метрикиПанели и метрики

1. GPU Temperature1. GPU Temperature

Описание: Температура каждого GPU в градусах Цельсия. График отображает температуру для каждого GPU отдельно с расчетом среднего, последнего и максимального значений.

Метрика: DCGM_FI_DEV_GPU_TEMP

Единица измерения: градусы Цельсия

Пороговые значения:

  • Зеленый — нормальная температура;
  • Красный — температура выше 80°C.

2. GPU Avg. Temp2. GPU Avg. Temp

Описание: Средняя температура всех GPU. Панель типа gauge отображает текущее среднее значение температуры с цветовой индикацией.

Метрика: avg(DCGM_FI_DEV_GPU_TEMP)

Единица измерения: градусы Цельсия

Пороговые значения:

  • Зеленый — температура ниже 83°C;
  • Желтый — температура от 83°C до 87°C;
  • Красный — температура выше 87°C.

Рекомендации: При превышении 83°C проверьте систему охлаждения и загрузку GPU. Температура выше 87°C может привести к троттлингу и снижению производительности.

3. GPU Power Usage3. GPU Power Usage

Описание: Энергопотребление каждого GPU в ваттах. График показывает текущее потребление энергии для каждого GPU с расчетом среднего, последнего и максимального значений.

Метрика: DCGM_FI_DEV_POWER_USAGE

Единица измерения: ватты

4. GPU Power Total4. GPU Power Total

Описание: Суммарное энергопотребление всех GPU. Панель типа gauge отображает общее потребление энергии всеми графическими ускорителями.

Метрика: sum(DCGM_FI_DEV_POWER_USAGE)

Единица измерения: ватты

Пороговые значения:

  • Зеленый — потребление ниже 1800 Вт;
  • Желтый — потребление от 1800 Вт до 2200 Вт;
  • Красный — потребление выше 2200 Вт.

Рекомендации: Следите за общим энергопотреблением, чтобы не превысить лимиты блока питания или выделенной мощности для стойки.

5. GPU SM Clocks5. GPU SM Clocks

Описание: Частота работы потоковых мультипроцессоров (Streaming Multiprocessors) GPU в герцах. Метрика умножается на 1 000 000 для преобразования из МГц в Гц.

Метрика: DCGM_FI_DEV_SM_CLOCK * 1000000

Единица измерения: герцы

Описание: SM (Streaming Multiprocessor) — основной вычислительный блок архитектуры NVIDIA GPU, выполняющий параллельные вычисления. Частота SM определяет скорость выполнения вычислительных операций.

6. GPU Utilization6. GPU Utilization

Описание: Процент загрузки GPU. Показывает, какая часть вычислительных ресурсов GPU используется в данный момент.

Метрика: DCGM_FI_DEV_GPU_UTIL

Единица измерения: проценты (0-100)

Рекомендации: Низкая загрузка GPU при активных задачах может указывать на узкие места в передаче данных или неоптимальный код. Высокая загрузка (близкая к 100%) — нормальное состояние при выполнении вычислительных задач.

7. GPU Framebuffer Mem Used7. GPU Framebuffer Mem Used

Описание: Объем используемой видеопамяти (framebuffer memory) каждого GPU. Framebuffer — это область памяти GPU, используемая для хранения данных, текстур и промежуточных результатов вычислений.

Метрика: DCGM_FI_DEV_FB_USED

Единица измерения: мегабайты

Рекомендации: Следите за использованием памяти GPU. Превышение доступного объема памяти приведет к ошибкам выполнения задач или снижению производительности из-за свопинга.

8. Tensor Core Utilization8. Tensor Core Utilization

Описание: Загрузка тензорных ядер (Tensor Cores) GPU. Тензорные ядра — это специализированные вычислительные блоки для операций с матрицами, используемые в задачах машинного обучения и искусственного интеллекта.

Метрика: DCGM_FI_PROF_PIPE_TENSOR_ACTIVE

Единица измерения: доля от 0 до 1 (0% до 100%)

Описание: Высокая загрузка тензорных ядер характерна для задач глубокого обучения, использующих операции с матрицами (например, обучение нейронных сетей). Низкая загрузка при выполнении ML-задач может указывать на неоптимальное использование возможностей GPU.

Рекомендации по мониторингуРекомендации по мониторингу

Критические метрикиКритические метрики

Следующие метрики требуют немедленного внимания при отклонении от нормы:

  1. GPU Avg. Temp — должна быть ниже 83°C. Превышение 87°C критично;
  2. GPU Power Total — следите за общим энергопотреблением, не допускайте превышения 2200 Вт;
  3. GPU Framebuffer Mem Used — контролируйте использование памяти, чтобы избежать ошибок out-of-memory.

Метрики производительностиМетрики производительности

Для оценки эффективности использования GPU обращайте внимание на:

  1. GPU Utilization — загрузка GPU должна быть высокой при выполнении вычислительных задач;
  2. Tensor Core Utilization — для ML-задач загрузка тензорных ядер должна быть значительной;
  3. GPU SM Clocks — частота работы SM должна соответствовать спецификациям GPU.

Метрики температуры и энергопотребленияМетрики температуры и энергопотребления

Для контроля теплового режима и энергопотребления:

  1. GPU Temperature — температура каждого GPU должна быть в пределах нормы;
  2. GPU Power Usage — энергопотребление должно соответствовать нагрузке;
  3. GPU Avg. Temp — средняя температура не должна превышать безопасные пороги.

Метрики памятиМетрики памяти

Для контроля использования видеопамяти:

  1. GPU Framebuffer Mem Used — следите за объемом используемой памяти каждого GPU;
  2. Сравнивайте используемую память с общим объемом доступной памяти GPU.

Дополнительные ресурсыДополнительные ресурсы

  • NVIDIA DCGM Documentation;
  • DCGM Exporter на GitHub;
  • NVIDIA GPU Architecture;
  • Tensor Cores Documentation.

Была ли статья полезна?

Предыдущая
Мониторинг ClickHouse
Следующая
Метрики дашборда NVIDIA® DCGM с MIG
Создавайте контент и получайте гранты!Готовы написать своё руководство? Участвуйте в контент-программе и получайте гранты на работу с облачными сервисами!
Подробнее о программе
Проект Яндекса
© 2026 ТОО «Облачные Сервисы Казахстан»