Yandex Cloud
Поиск
Связаться с намиПопробовать бесплатно
  • Истории успеха
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
    • Популярные
    • Инфраструктура и сеть
    • Платформа данных
    • Контейнеры
    • Инструменты разработчика
    • Бессерверные вычисления
    • Безопасность
    • Мониторинг и управление ресурсами
    • ИИ для бизнеса
    • Бизнес-инструменты
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Облако для интеграторов
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Контент-программа
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Калькулятор цен
    • Тарифы
    • Промоакции и free tier
    • Правила тарификации
  • Истории успеха
  • Документация
  • Блог
Проект Яндекса
© 2025 ООО «Яндекс.Облако»
Все решения
    • Все решения для Compute Cloud
    • Не удается оформить резервируемое потребление для Compute Cloud
    • Устранение ошибки `Permission denied` при подключении к виртуальной машине после ее создания средствами Terraform
    • Не поддерживается вложенная виртуализация
    • Устранение ошибки `Not enough resources` при запуске виртуальной машины
    • Восстановление доступа к виртуальной машине с утерянным SSH-ключом
    • Устранение проблем с созданием снимков дисков
    • Не увеличился размер загрузочного диска
    • Виртуальная машина выключается операцией `Instance guest stop processing`
    • Устранение ошибки `WARNING REMOTE HOST IDENTIFICATION HAS CHANGED`
    • Устранение поломки нереплицируемого диска
    • Устранение проблем при подключении к Kosmos VM
    • Устранение проблем со сбросом пароля для виртуальной машины на базе образа Kosmos
    • Устранение ошибки `The limit on maximum number of cores has exceeded`
    • Недоступна CUDA на платформе GPU
    • Устранение проблем с производительностью дискового и сетевого ввода-вывода на виртуальной машине
    • Устранение ошибки `FAILED_PRECONDITION Relocation to zone `ru-central1-a/b/c` is disabled`
    • Варианты миграции образа виртуальной машины в Yandex Cloud
    • Как изменить тип загрузочного диска виртуальной машины
    • Как узнать о потреблении оперативной памяти виртуальными машинами в Compute Cloud
    • Как создавать виртуальные машины с несколькими сетевыми интерфейсами
    • Как уменьшить объем диска виртуальной машины
    • Как экспортировать образы дисков виртуальных машин Compute Cloud
    • Как перенести виртуальную машину между разными каталогами или облаками
    • Как настроить GUI и графическое окружение на виртуальных машинах с Linux
    • Как использовать ISO-образ для развертывания виртуальных машин
    • Как получить входящий или исходящий трафик виртуальной машины
    • Как подключиться к виртуальной машине Linux в Yandex Cloud через WinSCP со сгенерированным при создании ключом
    • Как создать бэкап виртуальной машины с возможностью отката
    • Как подключиться по SSH от root с x или ключом
    • Как отслеживать объем потребляемой памяти
    • Как сменить внутренний IP-адрес
    • Как читать график `Connections quota utilization`
    • Как узнать скорость доступа к дискам виртуальной машины
    • Как создать виртуальную машину с доступом по паролю
    • Как увеличить количество сетевых соединений
    • Как настроить защиту RDP-подключения на Microsoft Windows®

В этой статье:

  • Описание проблемы
  • Решение
  1. Compute Cloud
  2. Недоступна CUDA на платформе GPU

Недоступна CUDA на платформе GPU

Статья создана
Yandex Cloud
Обновлена 9 декабря 2025 г.
  • Описание проблемы
  • Решение

Описание проблемыОписание проблемы

CUDA недоступна на платформе GPU.

РешениеРешение

Необходимо выполнить команды:

  1. sudo apt update -y.
  2. sudo apt upgrade -y.
  3. pip3 install torch.

После этого нужно проверить доступность CUDA: torch.cuda.is_available().

Альтернативой может стать вариант использовать сервис DataSphere, где используются конфигурации на базе GPU. У каждого проекта сервиса есть несколько Docker-образов с определенным набором ПО. Если этого будет недостаточно, то можно собрать собственный образ для проекта.

Примечание

CUDA и cuDNN уже встроены в базовый Docker-образ.

Проверить версию этих компонентов можно двумя командами:

  • Проверить версию CUDA: !nvcc --version;
  • Проверить версию cuDNN: !cat /usr/include/cudnn_version.h.

Дополнительно можно узнать:

  • Информацию по NVIDIA: !nvidia-smi;
  • Доступность CUDA через torch: torch.cuda.is_available().

Если после перезагрузки системы видеоадаптер не определяется в списке устройств, подключенных к виртуальной машине, например в lspci, но виртуальная машина при этом работает штатно, добавьте скрипт по пути /usr/libexec/manage-nvidia:

#!/bin/bash
set -eu
usage() {
        echo "usage: manage-nvidia (load|unload)"
        exit 1
}
[ $# -eq 1 ] || usage
case "$1" in
        load)   modprobe nvidia ;;
        unload) modprobe -r nvidia_uvm nvidia_drm nvidia_modeset nvidia ;;
        *)      usage ;;
esac

После этого создайте юнит systemd. Для этого в файл /etc/systemd/system/manage-nvidia.service внесите содержимое:

[Unit]
Description=Manage NVIDIA driver
Requires=nvidia-persistenced.service
Before=nvidia-persistenced.service
After=network.target

[Service]
Type=oneshot
RemainAfterExit=true
ExecStart=/usr/libexec/manage-nvidia load
ExecStop=/usr/libexec/manage-nvidia unload
StandardOutput=journal

[Install]
WantedBy=multi-user.target

Далее выполните команды перезагрузки драйвера:

sudo systemctl daemon-reload
sudo systemctl enable manage-nvidia

Последняя команда должна создать символическую ссылку и вывести:

Created symlink /etc/systemd/system/multi-user.target.wants/manage-nvidia.service → /etc/systemd/system/manage-nvidia.service.
Created symlink /etc/systemd/system/nvidia-persistenced.service.requires/manage-nvidia.service → /etc/systemd/system/manage-nvidia.service.

При этом у nvidia-persistenced.service должна появиться зависимость от manage-nvidia.service:

sudo systemctl list-dependencies nvidia-persistenced | grep manage-nvidia
○ ├─manage-nvidia.service

После выполнения этих действий при перезагрузке системы systemd будет корректно останавливать процесс manage-nvidia, драйвер выгрузится из оперативной памяти, что позволит GPU корректно инициализироваться при следующем старте системы.

Была ли статья полезна?

Предыдущая
Устранение ошибки `The limit on maximum number of cores has exceeded`
Следующая
Устранение проблем с производительностью дискового и сетевого ввода-вывода на виртуальной машине
Проект Яндекса
© 2025 ООО «Яндекс.Облако»