Yandex Cloud
Поиск
Связаться с экспертомПопробовать бесплатно
  • Кейсы
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
  • Marketplace
    • Популярные
    • Инфраструктура и сеть
    • Платформа данных
    • Искусственный интеллект
    • Безопасность
    • Инструменты DevOps
    • Бессерверные вычисления
    • Управление ресурсами
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Облако для интеграторов
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Контент-программа
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Калькулятор цен
    • Тарифы
    • Акции и free tier
  • Кейсы
  • Документация
  • Блог
Создавайте контент и получайте гранты!Готовы написать своё руководство? Участвуйте в контент-программе и получайте гранты на работу с облачными сервисами!
Подробнее о программе
Проект Яндекса
© 2026 ООО «Яндекс.Облако»
Практические руководства
    • Все руководства
    • Архитектура и защита базового интернет-сервиса
    • Анализ поресурсной детализации расходов с помощью Object Storage
    • Получение сведений для запроса на включение ресурса в белый список Минцифры
      • Начало работы с Terraform
      • Источники данных Terraform
      • Загрузка состояний Terraform в Object Storage
      • Начало работы с Packer
      • Сборка образа ВМ с набором инфраструктурных инструментов с помощью Packer
      • Блокировка состояний Terraform с помощью Managed Service for YDB
      • Использование модулей Yandex Cloud в Terraform
      • Управление ресурсами Kubernetes с помощью провайдера Terraform
      • Создать ВМ и группу ВМ с Container Optimized Image с помощью Terraform
      • Передача логов через HTTP-вход Unified Agent в Cloud Logging
      • Запуск языковой модели DeepSeek-R1 в кластере GPU Compute Cloud

В этой статье:

  • Подготовьте облако к работе
  • Необходимые платные ресурсы
  • Создайте кластер GPU из двух ВМ
  • Создайте кластер GPU
  • Добавьте ВМ в кластер
  • Проверьте состояние кластера (опционально)
  • Запустите языковую модель
  • Проверьте работу языковой модели
  • Как удалить созданные ресурсы
  1. Базовая инфраструктура
  2. Инструменты
  3. Запуск языковой модели DeepSeek-R1 в кластере GPU Compute Cloud

Запуск языковой модели DeepSeek-R1 в кластере GPU Yandex Compute Cloud

Статья создана
Yandex Cloud
Улучшена
mail746376-del
Обновлена 22 мая 2026 г.
  • Подготовьте облако к работе
    • Необходимые платные ресурсы
  • Создайте кластер GPU из двух ВМ
    • Создайте кластер GPU
    • Добавьте ВМ в кластер
  • Проверьте состояние кластера (опционально)
  • Запустите языковую модель
  • Проверьте работу языковой модели
  • Как удалить созданные ресурсы

Примечание

Кластеры GPU сейчас доступны только в зонах доступности ru-central1-a и ru-central1-d. Добавить виртуальную машину (ВМ) в кластер GPU можно только из той же зоны доступности.

С помощью этой инструкции вы создадите кластер GPU из двух виртуальных машин и запустите на нем языковую модель DeepSeek-R1.

Чтобы запустить языковую модель в кластере:

  1. Подготовьте облако к работе.
  2. Создайте кластер GPU из двух ВМ.
  3. Проверьте состояние кластера.
  4. Запустите языковую модель.
  5. Проверьте работу модели.

Если созданные ресурсы вам больше не нужны, удалите их.

Подготовьте облако к работеПодготовьте облако к работе

Зарегистрируйтесь в Yandex Cloud и создайте платежный аккаунт:

  1. Перейдите в консоль управления, затем войдите в Yandex Cloud или зарегистрируйтесь.
  2. На странице Yandex Cloud Billing убедитесь, что у вас подключен платежный аккаунт, и он находится в статусе ACTIVE или TRIAL_ACTIVE. Если платежного аккаунта нет, создайте его и привяжите к нему облако.

Если у вас есть активный платежный аккаунт, вы можете создать или выбрать каталог, в котором будет работать ваша инфраструктура, на странице облака.

Подробнее об облаках и каталогах.

Убедитесь, что в облаке достаточно квот на суммарное количество кластеров GPU, GPU на платформе Gen2, объем RAM, vCPU и объем SSD-дисков для создания ВМ. Для проверки используйте Yandex Cloud Quota Manager.

Необходимые платные ресурсыНеобходимые платные ресурсы

В стоимость поддержки инфраструктуры входит плата за вычислительные ресурсы ВМ и диски, а также кластер GPU (см. тарифы Yandex Compute Cloud).

Создайте кластер GPU из двух ВМСоздайте кластер GPU из двух ВМ

Создайте кластер GPUСоздайте кластер GPU

Консоль управления
  1. В консоли управления выберите каталогдля создания кластера.
  2. Перейдите в сервис Compute Cloud.
  3. На панели слева выберите Кластеры GPU.
  4. Нажмите кнопку Создать кластер GPU.
  5. В поле Имя укажите test-gpu-cluster.
  6. В поле Зона доступности выберите ru-central1-d.
  7. Нажмите Сохранить.

Добавьте ВМ в кластерДобавьте ВМ в кластер

  1. Создайте первую виртуальную машину:

    Консоль управления
    1. На панели слева выберите Виртуальные машины и нажмите Создать виртуальную машину.

    2. В блоке Образ загрузочного диска выберите публичный образ Ubuntu 20.04 LTS Secure Boot CUDA 12.2.

    3. В поле Зона доступности выберите ru-central1-d.

    4. В блоке Диски и файловые хранилища выберите тип диска SSD и задайте размер 800 ГБ.

    5. В блоке Вычислительные ресурсы перейдите на вкладку Своя конфигурация и укажите:

      • Платформа — Gen2.
      • GPU — 8.
      • Кластер GPU — выберите ранее созданный кластер test-gpu-cluster.
    6. В блоке Доступ выберите SSH-ключ и укажите данные для доступа:

      • Логин: ubuntu.
      • В поле SSH-ключ выберите SSH-ключ, сохраненный в вашем профиле пользователя организации.

        Если в вашем профиле нет сохраненных SSH-ключей или вы хотите добавить новый ключ:

        1. Нажмите кнопку Добавить ключ.

        2. Задайте имя SSH-ключа.

        3. Выберите вариант:

          • Ввести вручную — вставьте содержимое открытого SSH-ключа. Пару SSH-ключей необходимо создать самостоятельно.

          • Загрузить из файла — загрузите открытую часть SSH-ключа. Пару SSH-ключей необходимо создать самостоятельно.

          • Сгенерировать ключ — автоматическое создание пары SSH-ключей.

            При добавлении сгенерированного SSH-ключа будет создан и загружен архив с парой ключей. В ОС на базе Linux или macOS распакуйте архив в папку /home/<имя_пользователя>/.ssh. В ОС Windows распакуйте архив в папку C:\Users\<имя_пользователя>/.ssh. Дополнительно вводить открытый ключ в консоли управления не требуется.

        4. Нажмите кнопку Добавить.

        SSH-ключ будет добавлен в ваш профиль пользователя организации. Если в организации отключена возможность добавления пользователями SSH-ключей в свои профили, добавленный открытый SSH-ключ будет сохранен только в профиле пользователя внутри создаваемого ресурса.

    7. Нажмите Создать ВМ.

  2. Аналогичным образом создайте вторую ВМ с точно такими же параметрами.

Проверьте состояние кластера (опционально)Проверьте состояние кластера (опционально)

Вы можете дополнительно:

  • Проверить физическое состояние кластера.
  • Запустить параллельные задачи.
  • Проверить пропускную способность сети InfiniBand.

Запустите языковую модельЗапустите языковую модель

  1. Подключитесь по SSH к обеим виртуальным машинам.

  2. Добавьте пользователя ubuntu в группу docker, выполнив на обеих ВМ:

    sudo groupadd docker
    sudo usermod -aG docker $USER
    newgrp docker
    
  3. Скачайте образ SGLang на обе машины:

    docker pull lmsysorg/sglang:latest
    
  4. На первой ВМ выполните команду запуска сервера (замените <IP-адрес_1> на внутренний IP первой машины):

    docker run --gpus all \
      --device=/dev/infiniband \
      --ulimit memlock=-1 \
      --ulimit stack=67108864 \
      --shm-size 32g \
      --network=host \
      -v ~/.cache/huggingface:/root/.cache/huggingface \
      --name sglang_multinode1 \
      -e GLOO_SOCKET_IFNAME=eth0 \
      -it --rm --ipc=host lmsysorg/sglang:latest \
      python3 -m sglang.launch_server \
      --model-path deepseek-ai/DeepSeek-R1 \
      --tp 16 \
      --nccl-init-addr <IP-адрес_1>:30000 \
      --nnodes 2 \
      --node-rank 0 \
      --trust-remote-code \
      --host 0.0.0.0 \
      --port 30001 \
      --disable-radix \
      --max-prefill-tokens 126000
    
  5. На второй ВМ выполните аналогичную команду, изменив только параметр --node-rank на 1:

    docker run --gpus all \
      --device=/dev/infiniband \
      --ulimit memlock=-1 \
      --ulimit stack=67108864 \
      --shm-size 32g \
      --network=host \
      -v ~/.cache/huggingface:/root/.cache/huggingface \
      --name sglang_multinode2 \
      -e GLOO_SOCKET_IFNAME=eth0 \
      -it --rm --ipc=host lmsysorg/sglang:latest \
      python3 -m sglang.launch_server \
      --model-path deepseek-ai/DeepSeek-R1 \
      --tp 16 \
      --nccl-init-addr <IP-адрес_1>:30000 \
      --nnodes 2 \
      --node-rank 1 \
      --trust-remote-code \
      --host 0.0.0.0 \
      --port 30001 \
      --disable-radix \
      --max-prefill-tokens 126000
    
  6. Дождитесь появления сообщения об успешном старте: The server is fired up and ready to roll!.

Проверьте работу языковой моделиПроверьте работу языковой модели

  1. Откройте новую SSH-сессию к первой ВМ.

  2. Установите библиотеку OpenAI:

    sudo apt update
    sudo apt install python3-pip -y
    pip install openai
    
  3. Создайте скрипт test_model.py со следующим кодом:

    import openai
    
    client = openai.Client(
       base_url="http://127.0.0.1:30001/v1",
       api_key="EMPTY"
    )
    
    response = client.chat.completions.create(
       model="default",
       messages=[
          {"role": "system", "content": "You are a helpful AI assistant"},
          {"role": "user", "content": "List 3 countries and their capitals."},
       ],
       temperature=0.3,
       max_tokens=1024,
    )
    
    print(response.choices[0].message.content)
    
  4. Запустите скрипт:

    python3 test_model.py
    

    Пример ожидаемого ответа:

    Here are three countries and their capitals:
    
    1. **France** - Paris
    2. **Japan** - Tokyo
    3. **Brazil** - Brasília
    
    Let me know if you'd like more examples! 😊
    

Как удалить созданные ресурсыКак удалить созданные ресурсы

Чтобы перестать платить за созданные ресурсы, в сервисе Compute Cloud:

  1. Удалите созданные виртуальные машины.
  2. Удалите созданный кластер GPU.

См. такжеСм. также

Вопросы про GPU.

Была ли статья полезна?

Предыдущая
Передача логов через HTTP-вход Unified Agent в Cloud Logging
Следующая
Настройка синхронизации часов с помощью NTP
Создавайте контент и получайте гранты!Готовы написать своё руководство? Участвуйте в контент-программе и получайте гранты на работу с облачными сервисами!
Подробнее о программе
Проект Яндекса
© 2026 ООО «Яндекс.Облако»