Yandex Cloud
Поиск
Связаться с экспертомПопробовать бесплатно
  • Кейсы
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
  • Marketplace
    • Доступны в регионе
    • Инфраструктура и сеть
    • Платформа данных
    • Искусственный интеллект
    • Безопасность
    • Инструменты DevOps
    • Бессерверные вычисления
    • Управление ресурсами
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Партнёрская программа
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Калькулятор цен
    • Тарифы
    • Акции и free tier
  • Кейсы
  • Документация
  • Блог
Создавайте контент и получайте гранты!Готовы написать своё руководство? Участвуйте в контент-программе и получайте гранты на работу с облачными сервисами!
Подробнее о программе
Проект Яндекса
© 2026 ТОО «Облачные Сервисы Казахстан»
Yandex Compute Cloud
KZ
  • Yandex Container Solution
    • Все руководства
    • Настройка синхронизации часов с помощью NTP
    • Автомасштабирование группы ВМ для обработки сообщений из очереди
    • Обновление группы ВМ под нагрузкой
    • Развертывание Remote Desktop Gateway
    • Начало работы с Packer
    • Передача логов с ВМ в Yandex Cloud Logging
    • Сборка образа ВМ с набором инфраструктурных инструментов с помощью Packer
    • Миграция в Yandex Cloud с помощью Хайстекс Акура
    • Защита от сбоев с помощью Хайстекс Акура
    • Резервное копирование ВМ с помощью Хайстекс Акура
    • Развертывание отказоустойчивой архитектуры с прерываемыми ВМ
    • Настройка отказоустойчивой архитектуры в Yandex Cloud
    • Создание триггера для бюджетов, который вызывает функцию для остановки ВМ
    • Создание триггеров, которые вызывают функции для остановки ВМ и отправки уведомлений в Telegram
    • Создание веб-приложения на Python с использованием фреймворка Flask
    • Создание SAP-программы в Yandex Cloud
    • Развертывание сервера Minecraft в Yandex Cloud
    • Автоматизация сборки образов с помощью Jenkins и Packer
    • Создание тестовых виртуальных машин через GitLab CI
    • Высокопроизводительные вычисления (HPC) на прерываемых ВМ
    • Настройка SFTP-сервера на Centos 7
    • Развертывание параллельной файловой системы GlusterFS в высокодоступном режиме
    • Развертывание параллельной файловой системы GlusterFS в высокопроизводительном режиме
    • Резервное копирование в Object Storage с помощью Bacula
    • Построение пайплайна CI/CD в GitLab с использованием serverless-продуктов
    • Реализация защищенной высокодоступной сетевой инфраструктуры с выделением DMZ на основе Check Point NGFW
    • Сегментация облачной инфраструктуры с помощью решения Check Point Next-Generation Firewall
    • Настройка защищенного туннеля GRE поверх IPsec
    • Создание бастионного хоста
    • Реализация отказоустойчивых сценариев для сетевых виртуальных машин
    • Создание туннеля между двумя подсетями при помощи OpenVPN Access Server
    • Создание внешней таблицы на базе таблицы из бакета Object Storage с помощью конфигурационного файла
    • Настройка сетевой связности между подсетями BareMetal и Virtual Private Cloud
    • Работа со снапшотами в Managed Service for Kubernetes
    • Запуск языковой модели DeepSeek-R1 в кластере GPU
    • Запуск библиотеки vLLM с языковой моделью Gemma 3 на ВМ с GPU
    • Доставка USB-устройств на виртуальную машину или сервер BareMetal
    • Запуск Docker-образа на ВМ с помощью Cloud Registry
    • Развертывание воркера SourceCraft на ВМ
  • Управление доступом
  • Правила тарификации
  • Справочник Terraform
  • Метрики Monitoring
  • Аудитные логи Audit Trails
  • История изменений
  • Обучающие курсы

В этой статье:

  • Подготовьте облако к работе
  • Необходимые платные ресурсы
  • Создайте кластер GPU из двух ВМ
  • Создайте кластер GPU
  • Добавьте ВМ в кластер
  • Проверьте состояние кластера (опционально)
  • Запустите языковую модель
  • Проверьте работу языковой модели
  • Как удалить созданные ресурсы
  1. Практические руководства
  2. Запуск языковой модели DeepSeek-R1 в кластере GPU

Запуск языковой модели DeepSeek-R1 в кластере GPU Yandex Compute Cloud

Статья создана
Yandex Cloud
Улучшена
mail746376-del
Обновлена 22 мая 2026 г.
  • Подготовьте облако к работе
    • Необходимые платные ресурсы
  • Создайте кластер GPU из двух ВМ
    • Создайте кластер GPU
    • Добавьте ВМ в кластер
  • Проверьте состояние кластера (опционально)
  • Запустите языковую модель
  • Проверьте работу языковой модели
  • Как удалить созданные ресурсы

Примечание

В регионе Казахстан доступны только платформы standard-v3 (Intel Ice Lake) и standard-v3-t4i (Intel Ice Lake with T4i). Другие типы платформ, кластеры GPU и выделенные хосты недоступны.

С помощью этой инструкции вы создадите кластер GPU из двух виртуальных машин и запустите на нем языковую модель DeepSeek-R1.

Чтобы запустить языковую модель в кластере:

  1. Подготовьте облако к работе.
  2. Создайте кластер GPU из двух ВМ.
  3. Проверьте состояние кластера.
  4. Запустите языковую модель.
  5. Проверьте работу модели.

Если созданные ресурсы вам больше не нужны, удалите их.

Подготовьте облако к работеПодготовьте облако к работе

Зарегистрируйтесь в Yandex Cloud и создайте платежный аккаунт:

  1. Перейдите в консоль управления, затем войдите в Yandex Cloud или зарегистрируйтесь.
  2. На странице Yandex Cloud Billing убедитесь, что у вас подключен платежный аккаунт, и он находится в статусе ACTIVE или TRIAL_ACTIVE. Если платежного аккаунта нет, создайте его и привяжите к нему облако.

Если у вас есть активный платежный аккаунт, вы можете создать или выбрать каталог, в котором будет работать ваша инфраструктура, на странице облака.

Подробнее об облаках и каталогах.

Убедитесь, что в облаке достаточно квот на суммарное количество кластеров GPU, GPU на платформе Gen2, объем RAM, vCPU и объем SSD-дисков для создания ВМ. Для проверки используйте Yandex Cloud Quota Manager.

Необходимые платные ресурсыНеобходимые платные ресурсы

В стоимость поддержки инфраструктуры входит плата за вычислительные ресурсы ВМ и диски, а также кластер GPU (см. тарифы Yandex Compute Cloud).

Создайте кластер GPU из двух ВМСоздайте кластер GPU из двух ВМ

Создайте кластер GPUСоздайте кластер GPU

Консоль управления
  1. В консоли управления выберите каталогдля создания кластера.
  2. Перейдите в сервис Compute Cloud.
  3. На панели слева выберите Кластеры GPU.
  4. Нажмите кнопку Создать кластер GPU.
  5. В поле Имя укажите test-gpu-cluster.
  6. В поле Зона доступности выберите kz1-d.
  7. Нажмите Сохранить.

Добавьте ВМ в кластерДобавьте ВМ в кластер

  1. Создайте первую виртуальную машину:

    Консоль управления
    1. На панели слева выберите Виртуальные машины и нажмите Создать виртуальную машину.

    2. В блоке Образ загрузочного диска выберите публичный образ Ubuntu 20.04 LTS Secure Boot CUDA 12.2.

    3. В поле Зона доступности выберите kz1-d.

    4. В блоке Диски и файловые хранилища выберите тип диска SSD и задайте размер 800 ГБ.

    5. В блоке Вычислительные ресурсы перейдите на вкладку Своя конфигурация и укажите:

      • Платформа — Gen2.
      • GPU — 8.
      • Кластер GPU — выберите ранее созданный кластер test-gpu-cluster.
    6. В блоке Доступ выберите SSH-ключ и укажите данные для доступа:

      • Логин: ubuntu.
      • В поле SSH-ключ выберите SSH-ключ, сохраненный в вашем профиле пользователя организации.

        Если в вашем профиле нет сохраненных SSH-ключей или вы хотите добавить новый ключ:

        1. Нажмите кнопку Добавить ключ.

        2. Задайте имя SSH-ключа.

        3. Выберите вариант:

          • Ввести вручную — вставьте содержимое открытого SSH-ключа. Пару SSH-ключей необходимо создать самостоятельно.

          • Загрузить из файла — загрузите открытую часть SSH-ключа. Пару SSH-ключей необходимо создать самостоятельно.

          • Сгенерировать ключ — автоматическое создание пары SSH-ключей.

            При добавлении сгенерированного SSH-ключа будет создан и загружен архив с парой ключей. В ОС на базе Linux или macOS распакуйте архив в папку /home/<имя_пользователя>/.ssh. В ОС Windows распакуйте архив в папку C:\Users\<имя_пользователя>/.ssh. Дополнительно вводить открытый ключ в консоли управления не требуется.

        4. Нажмите кнопку Добавить.

        SSH-ключ будет добавлен в ваш профиль пользователя организации. Если в организации отключена возможность добавления пользователями SSH-ключей в свои профили, добавленный открытый SSH-ключ будет сохранен только в профиле пользователя внутри создаваемого ресурса.

    7. Нажмите Создать ВМ.

  2. Аналогичным образом создайте вторую ВМ с точно такими же параметрами.

Проверьте состояние кластера (опционально)Проверьте состояние кластера (опционально)

Вы можете дополнительно:

  • Проверить физическое состояние кластера.
  • Запустить параллельные задачи в кластере.
  • Проверить пропускную способность InfiniBand.

Запустите языковую модельЗапустите языковую модель

  1. Подключитесь по SSH к обеим виртуальным машинам.

  2. Добавьте пользователя ubuntu в группу docker, выполнив на обеих ВМ:

    sudo groupadd docker
    sudo usermod -aG docker $USER
    newgrp docker
    
  3. Скачайте образ SGLang на обе машины:

    docker pull lmsysorg/sglang:latest
    
  4. На первой ВМ выполните команду запуска сервера (замените <IP-адрес_1> на внутренний IP первой машины):

    docker run --gpus all \
      --device=/dev/infiniband \
      --ulimit memlock=-1 \
      --ulimit stack=67108864 \
      --shm-size 32g \
      --network=host \
      -v ~/.cache/huggingface:/root/.cache/huggingface \
      --name sglang_multinode1 \
      -e GLOO_SOCKET_IFNAME=eth0 \
      -it --rm --ipc=host lmsysorg/sglang:latest \
      python3 -m sglang.launch_server \
      --model-path deepseek-ai/DeepSeek-R1 \
      --tp 16 \
      --nccl-init-addr <IP-адрес_1>:30000 \
      --nnodes 2 \
      --node-rank 0 \
      --trust-remote-code \
      --host 0.0.0.0 \
      --port 30001 \
      --disable-radix \
      --max-prefill-tokens 126000
    
  5. На второй ВМ выполните аналогичную команду, изменив только параметр --node-rank на 1:

    docker run --gpus all \
      --device=/dev/infiniband \
      --ulimit memlock=-1 \
      --ulimit stack=67108864 \
      --shm-size 32g \
      --network=host \
      -v ~/.cache/huggingface:/root/.cache/huggingface \
      --name sglang_multinode2 \
      -e GLOO_SOCKET_IFNAME=eth0 \
      -it --rm --ipc=host lmsysorg/sglang:latest \
      python3 -m sglang.launch_server \
      --model-path deepseek-ai/DeepSeek-R1 \
      --tp 16 \
      --nccl-init-addr <IP-адрес_1>:30000 \
      --nnodes 2 \
      --node-rank 1 \
      --trust-remote-code \
      --host 0.0.0.0 \
      --port 30001 \
      --disable-radix \
      --max-prefill-tokens 126000
    
  6. Дождитесь появления сообщения об успешном старте: The server is fired up and ready to roll!.

Проверьте работу языковой моделиПроверьте работу языковой модели

  1. Откройте новую SSH-сессию к первой ВМ.

  2. Установите библиотеку OpenAI:

    sudo apt update
    sudo apt install python3-pip -y
    pip install openai
    
  3. Создайте скрипт test_model.py со следующим кодом:

    import openai
    
    client = openai.Client(
       base_url="http://127.0.0.1:30001/v1",
       api_key="EMPTY"
    )
    
    response = client.chat.completions.create(
       model="default",
       messages=[
          {"role": "system", "content": "You are a helpful AI assistant"},
          {"role": "user", "content": "List 3 countries and their capitals."},
       ],
       temperature=0.3,
       max_tokens=1024,
    )
    
    print(response.choices[0].message.content)
    
  4. Запустите скрипт:

    python3 test_model.py
    

    Пример ожидаемого ответа:

    Here are three countries and their capitals:
    
    1. **France** - Paris
    2. **Japan** - Tokyo
    3. **Brazil** - Brasília
    
    Let me know if you'd like more examples! 😊
    

Как удалить созданные ресурсыКак удалить созданные ресурсы

Чтобы перестать платить за созданные ресурсы, в сервисе Compute Cloud:

  1. Удалите созданные виртуальные машины.
  2. Удалите созданный кластер GPU.

См. такжеСм. также

Вопросы про GPU.

Была ли статья полезна?

Предыдущая
Развертывание GitLab Runner на виртуальной машине
Следующая
Запуск библиотеки vLLM с языковой моделью Gemma 3 на ВМ с GPU
Создавайте контент и получайте гранты!Готовы написать своё руководство? Участвуйте в контент-программе и получайте гранты на работу с облачными сервисами!
Подробнее о программе
Проект Яндекса
© 2026 ТОО «Облачные Сервисы Казахстан»