Yandex Cloud
Поиск
Связаться с намиПодключиться
  • Истории успеха
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
    • Популярные
    • Инфраструктура и сеть
    • Платформа данных
    • Контейнеры
    • Инструменты разработчика
    • Бессерверные вычисления
    • Безопасность
    • Мониторинг и управление ресурсами
    • AI Studio
    • Бизнес-инструменты
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Облако для интеграторов
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Контент-программа
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Тарифы Yandex Cloud
    • Промоакции и free tier
    • Правила тарификации
  • Истории успеха
  • Документация
  • Блог
Проект Яндекса
© 2025 ООО «Яндекс.Облако»
Практические руководства
    • Все руководства
    • Настройка подключения к Managed Service for PostgreSQL из контейнера Serverless Containers
    • Создать ВМ с Container Optimized Image
    • Создать ВМ с Container Optimized Image и дополнительным томом для Docker-контейнера
    • Создать группу ВМ с Container Optimized Image и несколькими Docker-контейнерами
    • Создать группу ВМ с Container Optimized Image
    • Создать ВМ с Container Optimized Image и несколькими Docker-контейнерами
    • Изменить ВМ с Container Optimized Image
    • Настройка вывода информации из Docker-контейнера в серийный порт
      • Создание нового Kubernetes-проекта
      • Создание кластера Kubernetes без доступа в интернет
      • Создание кластера Kubernetes с помощью провайдера Yandex Cloud для Kubernetes Cluster API
      • Запуск рабочих нагрузок с GPU
      • Использование групп узлов c GPU без предустановленных драйверов
      • Установка Time-Slicing GPUs
      • Миграция ресурсов в другую зону доступности
      • Шифрование секретов

В этой статье:

  • Необходимые платные ресурсы
  • Перед началом работы
  • Установите GPU Operator
  • Проверьте правильность установки драйверов
  • Удалите созданные ресурсы
  1. Контейнерная инфраструктура
  2. Managed Service for Kubernetes
  3. Использование групп узлов c GPU без предустановленных драйверов

Использование групп узлов Yandex Managed Service for Kubernetes c GPU без предустановленных драйверов

Статья создана
Yandex Cloud
Улучшена
mmerihsesh
Обновлена 4 июля 2025 г.
  • Необходимые платные ресурсы
  • Перед началом работы
  • Установите GPU Operator
  • Проверьте правильность установки драйверов
  • Удалите созданные ресурсы

Вы можете использовать группы узлов Managed Service for Kubernetes для рабочих нагрузок на видеопроцессорах (GPU) без предустановленных драйверов. Приложение GPU Operator позволит вам самостоятельно выбрать подходящую версию драйвера.

Чтобы подготовить кластер и группу узлов Managed Service for Kubernetes без предустановленных драйверов к запуску рабочих нагрузок:

  1. Установите GPU Operator.
  2. Проверьте правильность установки драйверов.

Если созданные ресурсы вам больше не нужны, удалите их.

Необходимые платные ресурсыНеобходимые платные ресурсы

В стоимость поддержки описываемого решения входят:

  • Плата за кластер Managed Service for Kubernetes: использование мастера и исходящий трафик (см. тарифы Managed Service for Kubernetes).
  • Плата за узлы кластера (ВМ): использование вычислительных ресурсов, операционной системы и хранилища (см. тарифы Compute Cloud).
  • Плата за публичный IP-адрес, если он назначен узлам кластера (см. тарифы Virtual Private Cloud).

Перед началом работыПеред началом работы

  1. Если у вас еще нет интерфейса командной строки Yandex Cloud (CLI), установите и инициализируйте его.

    По умолчанию используется каталог, указанный при создании профиля CLI. Чтобы изменить каталог по умолчанию, используйте команду yc config set folder-id <идентификатор_каталога>. Также для любой команды вы можете указать другой каталог с помощью параметров --folder-name или --folder-id.

  2. Создайте группы безопасности для кластера Managed Service for Kubernetes и входящих в него групп узлов.

    Важно

    От настройки групп безопасности зависит работоспособность и доступность кластера, а также запущенных в нем сервисов и приложений.

  3. Создайте кластер Managed Service for Kubernetes любой подходящей конфигурации. При создании укажите группы безопасности, подготовленные ранее.

  4. Создайте группу узлов Managed Service for Kubernetes с настройками:

    • Вычислительные ресурсы — перейдите на вкладку GPU и выберите подходящую платформу.
    • Не устанавливать драйверы GPU — выберите опцию.
    • Группы безопасности — выберите созданные ранее группы безопасности.
    • Taint-политики узла — укажите taint-политику nvidia.com/gpu=true:NoSchedule.
  5. Установите kubectl и настройте его на работу с созданным кластером.

Установите GPU OperatorУстановите GPU Operator

  1. Установите менеджер пакетов Helm версии не ниже 3.8.0.

  2. Установите GPU Operator:

    helm repo add nvidia https://helm.ngc.nvidia.com/nvidia && \
    helm repo update && \
    helm install \
      --namespace gpu-operator \
      --create-namespace \
      --set driver.version=<версия_драйвера> \
      gpu-operator nvidia/gpu-operator
    

    Где driver.version — версия драйвера NVIDIA®. Вы можете не указывать параметр с версией драйвера, в этом случае будет установлена версия по умолчанию.

    Примечание

    Для платформы группы узлов Managed Service for Kubernetes AMD EPYC™ with NVIDIA® Ampere® A100 (gpu-standard-v3) используйте версию драйвера 515.48.07.

    GPU Operator будет установлен с параметрами по умолчанию. Подробнее о параметрах см. в официальной документации.

    Совет

    Вы можете посмотреть значения параметров в конфигурационном файле values.yaml Helm-чарта. Для этого скачайте архив Helm-чарта командой helm pull --untar nvidia/gpu-operator.

Проверьте правильность установки драйверовПроверьте правильность установки драйверов

Получите логи пода nvidia-driver-daemonset:

DRIVERS_POD_NAME="$(kubectl get pods --namespace gpu-operator | grep nvidia-driver-daemonset | awk '{print $1}')" && \
kubectl --namespace gpu-operator logs "${DRIVERS_POD_NAME}"

Они должны содержать сообщение об успешной установке драйвера, например:

Defaulted container "nvidia-driver-ctr" out of: nvidia-driver-ctr, k8s-driver-manager (init)
DRIVER_ARCH is x86_64
Creating directory NVIDIA-Linux-x86_64-535.54.03
Verifying archive integrity... OK
Uncompressing NVIDIA Accelerated Graphics Driver for Linux-x86_64 535.54.03

...

Loading NVIDIA driver kernel modules...
+ modprobe nvidia
+ modprobe nvidia-uvm
+ modprobe nvidia-modeset

...

Done, now waiting for signal

Теперь вы можете запускать рабочие нагрузки с GPU согласно руководству Запуск рабочих нагрузок с GPU.

Удалите созданные ресурсыУдалите созданные ресурсы

Некоторые ресурсы платные. Удалите ресурсы, которые вы больше не будете использовать, во избежание списания средств за них:

  1. Удалите кластер Kubernetes.
  2. Если вы создавали сервисные аккаунты, удалите их.

Была ли статья полезна?

Предыдущая
Запуск рабочих нагрузок с GPU
Следующая
Установка Time-Slicing GPUs
Проект Яндекса
© 2025 ООО «Яндекс.Облако»