Yandex Cloud
Поиск
Связаться с намиПодключиться
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
    • Популярные
    • Инфраструктура и сеть
    • Платформа данных
    • Контейнеры
    • Инструменты разработчика
    • Бессерверные вычисления
    • Безопасность
    • Мониторинг и управление ресурсами
    • Машинное обучение
    • Бизнес-инструменты
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Облако для интеграторов
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Контент-программа
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Истории успеха
    • Тарифы Yandex Cloud
    • Промоакции и free tier
    • Правила тарификации
  • Документация
  • Блог
Проект Яндекса
© 2025 ООО «Яндекс.Облако»
Yandex Compute Cloud
  • Yandex Container Solution
    • Все руководства
    • Настройка синхронизации часов с помощью NTP
    • Автомасштабирование группы ВМ для обработки сообщений из очереди
    • Обновление группы ВМ под нагрузкой
    • Развертывание Remote Desktop Gateway
    • Начало работы с Packer
    • Передача логов с ВМ в Yandex Cloud Logging
    • Сборка образа ВМ с набором инфраструктурных инструментов с помощью Packer
    • Миграция в Yandex Cloud с помощью Хайстекс Акура
    • Защита от сбоев с помощью Хайстекс Акура
    • Резервное копирование ВМ с помощью Хайстекс Акура
    • Развертывание отказоустойчивой архитектуры с прерываемыми ВМ
    • Настройка отказоустойчивой архитектуры в Yandex Cloud
    • Создание триггера для бюджетов, который вызывает функцию для остановки ВМ
    • Создание триггеров, которые вызывают функции для остановки ВМ и отправки уведомлений в Telegram
    • Создание веб-приложения на Python с использованием фреймворка Flask
    • Создание SAP-программы в Yandex Cloud
    • Развертывание сервера Minecraft в Yandex Cloud
    • Автоматизация сборки образов с помощью Jenkins и Packer
    • Создание тестовых виртуальных машин через GitLab CI
    • Высокопроизводительные вычисления (HPC) на прерываемых ВМ
    • Настройка SFTP-сервера на Centos 7
    • Развертывание параллельной файловой системы GlusterFS в высокодоступном режиме
    • Развертывание параллельной файловой системы GlusterFS в высокопроизводительном режиме
    • Резервное копирование в Object Storage с помощью Bacula
    • Построение пайплайна CI/CD в GitLab с использованием serverless-продуктов
    • Реализация защищенной высокодоступной сетевой инфраструктуры с выделением DMZ на основе Check Point NGFW
    • Сегментация облачной инфраструктуры с помощью решения Check Point Next-Generation Firewall
    • Настройка защищенного туннеля GRE поверх IPsec
    • Создание бастионного хоста
    • Реализация отказоустойчивых сценариев для сетевых виртуальных машин
    • Создание туннеля между двумя подсетями при помощи OpenVPN Access Server
    • Создание внешней таблицы на базе таблицы из бакета Object Storage с помощью конфигурационного файла
    • Настройка сетевой связности между подсетями BareMetal и Virtual Private Cloud
    • Работа со снапшотами в Managed Service for Kubernetes
    • Запуск языковой модели DeepSeek-R1 в кластере GPU
    • Запуск библиотеки vLLM с языковой моделью Gemma 3 на ВМ с GPU
    • Доставка USB-устройств на виртуальную машину или сервер BareMetal
  • Управление доступом
  • Справочник Terraform
  • Метрики Monitoring
  • Аудитные логи Audit Trails
  • История изменений
  • Обучающие курсы

В этой статье:

  • Подготовьте облако к работе
  • Необходимые платные ресурсы
  • Получите доступ к модели Gemma 3
  • Создайте виртуальную машину с GPU
  • Запустите языковую модель
  • Проверьте работу языковой модели
  • Как удалить созданные ресурсы
  1. Практические руководства
  2. Запуск библиотеки vLLM с языковой моделью Gemma 3 на ВМ с GPU

Запуск библиотеки vLLM с языковой моделью Gemma 3 на виртуальной машине с GPU в Yandex Compute Cloud

Статья создана
Yandex Cloud
Обновлена 24 апреля 2025 г.
  • Подготовьте облако к работе
    • Необходимые платные ресурсы
  • Получите доступ к модели Gemma 3
  • Создайте виртуальную машину с GPU
  • Запустите языковую модель
  • Проверьте работу языковой модели
  • Как удалить созданные ресурсы

С помощью этой инструкции вы создадите виртуальную машину с одним GPU и запустите на ней легковесную мультимодальную языковую модель Gemma 3.

Чтобы запустить языковую модель:

  1. Подготовьте облако к работе.
  2. Получите доступ к модели Gemma 3.
  3. Создайте виртуальную машину с GPU.
  4. Запустите языковую модель.
  5. Проверьте работу языковой модели.

Если созданные ресурсы вам больше не нужны, удалите их.

Подготовьте облако к работеПодготовьте облако к работе

Зарегистрируйтесь в Yandex Cloud и создайте платежный аккаунт:

  1. Перейдите в консоль управления, затем войдите в Yandex Cloud или зарегистрируйтесь.
  2. На странице Yandex Cloud Billing убедитесь, что у вас подключен платежный аккаунт, и он находится в статусе ACTIVE или TRIAL_ACTIVE. Если платежного аккаунта нет, создайте его и привяжите к нему облако.

Если у вас есть активный платежный аккаунт, вы можете создать или выбрать каталог, в котором будет работать ваша инфраструктура, на странице облака.

Подробнее об облаках и каталогах.

Убедитесь, что в облаке достаточно квот на суммарное количество GPU на платформе AMD EPYC™ 9474F with Gen2, объем RAM, количество vCPU и объем SSD-дисков для создания ВМ. Для этого используйте сервис Yandex Cloud Quota Manager.

Необходимые платные ресурсыНеобходимые платные ресурсы

В стоимость поддержки инфраструктуры входит плата за постоянно работающие ВМ и диски (см. тарифы Yandex Compute Cloud).

Получите доступ к модели Gemma 3Получите доступ к модели Gemma 3

  1. Зарегистрируйтесь на Hugging Face.

  2. Создайте токен доступа:

    1. После входа в аккаунт нажмите на свой аватар → Settings → Access Tokens.
    2. Нажмите + Create new token.
    3. Выберите тип токена Read.
    4. Введите имя токена.
    5. Нажмите Create token.
    6. Скопируйте значение токена.
  3. Запросите доступ к модели Gemma-3-27b-it:

    1. Перейдите на страницу модели.
    2. Нажмите Request access.
    3. Примите условия лицензии.
    4. Дождитесь подтверждения доступа.

Создайте виртуальную машину с GPUСоздайте виртуальную машину с GPU

Консоль управления
  1. В консоли управления выберите каталог, в котором будет создана виртуальная машина.

  2. В списке сервисов выберите Compute Cloud.

  3. На панели слева выберите Виртуальные машины.

  4. Нажмите кнопку Создать виртуальную машину.

  5. В блоке Образ загрузочного диска выберите публичный образ Ubuntu 20.04 LTS Secure Boot CUDA 12.2.

  6. В поле Зона доступности выберите зону доступности ru-central1-d.

  7. В блоке Диски и файловые хранилища выберите тип диска SSD и задайте размер не менее 500 ГБ.

  8. В блоке Вычислительные ресурсы перейдите на вкладку Своя конфигурация и укажите необходимую платформу и количество GPU:

    • Платформа — AMD Epyc 9474F with Gen2.
    • GPU — 1.
  9. В блоке Доступ выберите вариант SSH-ключ и укажите данные для доступа на ВМ:

    • В поле Логин введите имя пользователя, например: ubuntu. Не используйте имя root или другие имена, зарезервированные ОС. Для выполнения операций, требующих прав суперпользователя, используйте команду sudo.
    • В поле SSH-ключ выберите SSH-ключ, сохраненный в вашем профиле пользователя организации.

      Если в вашем профиле нет сохраненных SSH-ключей или вы хотите добавить новый ключ:

      • Нажмите кнопку Добавить ключ.
      • Задайте имя SSH-ключа.
      • Загрузите или вставьте содержимое открытого SSH-ключа. Пару SSH-ключей для подключения к ВМ по SSH необходимо создать самостоятельно.
      • Нажмите кнопку Добавить.

      SSH-ключ будет добавлен в ваш профиль пользователя организации.

      Если в организации отключена возможность добавления пользователями SSH-ключей в свои профили, добавленный открытый SSH-ключ будет сохранен только в профиле пользователя создаваемой виртуальной машины.

  10. Нажмите Создать ВМ.

Запустите языковую модельЗапустите языковую модель

  1. Подключитесь по протоколу SSH к виртуальной машине.

  2. Добавьте текущего пользователя в группу docker:

    sudo groupadd docker
    sudo usermod -aG docker $USER
    newgrp docker
    
  3. Заполните переменные:

    TOKEN=<HF_токен>
    MODEL=google/gemma-3-27b-it
    MODEL_OPTS="--max-num-seqs 256 --max-model-len 16384 --gpu-memory-utilization 0.98 --max_num_batched_tokens 2048"
    

    Где HF_токен — токен доступа Hugging Face.

  4. Выполните команду:

    docker run  --runtime nvidia --gpus '"device=0"' \
    --name vllm-gema3-0 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HUGGING_FACE_HUB_TOKEN=$TOKEN" \
    --env "HF_HUB_ENABLE_HF_TRANSFER=0" \
    --env "PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True" \
    -p 8000:8000 \
    --ipc=host \
    --shm-size=32g \
    vllm/vllm-openai:latest \
    --model $MODEL $MODEL_OPTS
    
  5. Подождите, пока сервер запустится:

    INFO:     Started server process [1]
    INFO:     Waiting for application startup.
    INFO:     Application startup complete.
    

Проверьте работу языковой моделиПроверьте работу языковой модели

  1. Подключитесь к виртуальной машине по протоколу SSH в новой сессии.

  2. Установите пакет openai:

    sudo apt update
    sudo apt install python3-pip
    pip install openai
    
  3. Создайте скрипт test_model.py со следующим содержимым:

    import openai
    client = openai.Client(base_url="http://127.0.0.1:8000/v1", api_key="EMPTY")
    response = client.chat.completions.create(
       model="google/gemma-3-27b-it",
       messages=[
          {
                "role": "user",
                "content": [
                   {
                      "type": "image_url",
                      "image_url": {
                            "url": "https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg"
                      },
                   },
                   {"type": "text", "text": "Describe this image in one sentence."},
                ],
          }
       ],
       temperature=0.3,
       max_tokens=128,
    )
    print(response.choices[0].message.content)
    
  4. Запустите скрипт:

    python3 test_model.py
    

    Пример ответа модели:

    Here's a one-sentence description of the image:
    
    The Statue of Liberty stands prominently on Liberty Island with the Manhattan skyline, including the Empire State Building, visible in the background across the water on a clear, sunny day.
    

Как удалить созданные ресурсыКак удалить созданные ресурсы

Чтобы перестать платить за созданные ресурсы, в сервисе Compute Cloud удалите созданную виртуальную машину.

Была ли статья полезна?

Предыдущая
Запуск языковой модели DeepSeek-R1 в кластере GPU
Следующая
Доставка USB-устройств на виртуальную машину или сервер BareMetal
Проект Яндекса
© 2025 ООО «Яндекс.Облако»