Yandex Cloud
Поиск
Связаться с намиПодключиться
  • Истории успеха
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
    • Доступны в регионе
    • Инфраструктура и сеть
    • Платформа данных
    • Контейнеры
    • Инструменты разработчика
    • Бессерверные вычисления
    • Безопасность
    • Мониторинг и управление ресурсами
    • ИИ для бизнеса
    • Бизнес-инструменты
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Партнёрская программа
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Тарифы Yandex Cloud
    • Промоакции и free tier
    • Правила тарификации
  • Истории успеха
  • Документация
  • Блог
Проект Яндекса
© 2025 ТОО «Облачные Сервисы Казахстан»
Yandex AI Studio
    • О сервисе Yandex AI Studio
      • Обзор
      • Модели базового инстанса
      • Модели выделенного инстанса
      • Пакетная обработка данных
      • Вызов функций
      • Режим рассуждений
      • Форматирование ответов моделей
      • Эмбеддинги
      • Датасеты
      • Дообучение
      • Токены
    • Yandex Workflows
    • Квоты и лимиты
    • Термины и определения
  • Совместимость с OpenAI
  • Управление доступом
  • Правила тарификации
  • Аудитные логи Audit Trails
  • Публичные материалы
  • История изменений

В этой статье:

  • Модели выделенного инстанса
  • Конфигурации выделенных инстансов
  1. Концепции
  2. Model Gallery
  3. Модели выделенного инстанса

Выделенные инстансы

Статья создана
Yandex Cloud
Обновлена 23 сентября 2025 г.
  • Модели выделенного инстанса
  • Конфигурации выделенных инстансов

Эта функциональность находится на стадии Preview.

AI Studio позволяет развернуть некоторые модели на выделенном инстансе. В отличие от самостоятельного развертывания моделей на ВМ в сервисе Yandex Compute Cloud, вам не нужно настраивать окружение и подбирать оптимальные параметры ВМ — AI Studio обеспечивает стабильный, надежный и эффективный инференс модели и следит за его работой в автоматическом режиме.

Выделенные инстансы имеют ряд преимуществ:

  • Гарантируемые параметры производительности, на которые не влияет трафик других пользователей.
  • Отсутствие дополнительных квот на отправление запросов и параллельные генерации, ограничения зависят только от выбранной конфигурации инстанса.
  • Оптимизированный инференс модели, чтобы обеспечить эффективное использование оборудования.

Выделенные инстансы будут полезны, если вам необходимо обрабатывать большие объемы запросов без задержек. Тарификация выделенного инстанса не зависит от объема входящих и исходящих токенов: оплачиваться будет только время его работы.

Модели выделенного инстансаМодели выделенного инстанса

Все развернутые модели доступны через API, совместимый с OpenAI, ML SDK и в AI Playground. Чтобы развернуть выделенный инстанс, понадобится роль ai.models.editor или выше на каталог. Для обращения к модели достаточно роли ai.languageModels.user.

Модель

Контекст

Лицензия

Qwen 2.5 VL 32B Instruct
Карточка модели

4 096

Лицензия Apache 2.0

Qwen 2.5 72B Instruct
Карточка модели

16 384

Лицензия Qwen

Gemma 3 4B it
Карточка модели

4 096

Условия использования Gemma

Gemma 3 12B it
Карточка модели

4 096

Условия использования Gemma

gpt-oss-20b
Карточка модели

128 000

Лицензия Apache 2.0

gpt-oss-120b
Карточка модели

128 000

Лицензия Apache 2.0

T-pro-it-2.0-FP8
Карточка модели

40 000

Лицензия Apache 2.0

Конфигурации выделенных инстансовКонфигурации выделенных инстансов

Каждая модель может быть доступна для развертывания на нескольких конфигурациях: S, M или L. Каждая конфигурация гарантирует определенные значения TTFT (Time to first token, время до первого токена), Latency (задержка — время, затраченное на генерацию ответа) и TPS (Tokens per second, количество токенов в секунду) для запросов с разной длиной контекста.

Рисунок ниже показывает зависимость задержек и количества токенов, обрабатываемых моделью, от количества параллельных генераций (Concurrency на рисунке): до определенного момента чем больше генераций модель будет обрабатывать параллельно, тем дольше будет длиться генерация и тем больше токенов будет сгенерировано за секунду.

Была ли статья полезна?

Предыдущая
Модели базового инстанса
Следующая
Пакетная обработка данных
Проект Яндекса
© 2025 ТОО «Облачные Сервисы Казахстан»