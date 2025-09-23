Связаться с намиПодключиться

Статья создана
23 сентября 2025 г.

Эта функциональность находится на стадии Preview.

AI Studio позволяет развернуть некоторые модели на выделенном инстансе. В отличие от самостоятельного развертывания моделей на ВМ в сервисе Yandex Compute Cloud, вам не нужно настраивать окружение и подбирать оптимальные параметры ВМ — AI Studio обеспечивает стабильный, надежный и эффективный инференс модели и следит за его работой в автоматическом режиме.

Выделенные инстансы имеют ряд преимуществ:

  • Гарантируемые параметры производительности, на которые не влияет трафик других пользователей.
  • Отсутствие дополнительных квот на отправление запросов и параллельные генерации, ограничения зависят только от выбранной конфигурации инстанса.
  • Оптимизированный инференс модели, чтобы обеспечить эффективное использование оборудования.

Выделенные инстансы будут полезны, если вам необходимо обрабатывать большие объемы запросов без задержек. Тарификация выделенного инстанса не зависит от объема входящих и исходящих токенов: оплачиваться будет только время его работы.

Модели выделенного инстанса

Все развернутые модели доступны через API, совместимый с OpenAI, ML SDK и в AI Playground. Чтобы развернуть выделенный инстанс, понадобится роль ai.models.editor или выше на каталог. Для обращения к модели достаточно роли ai.languageModels.user.

Модель

Контекст

Лицензия

Qwen 2.5 VL 32B Instruct
Карточка модели

4 096

Лицензия Apache 2.0

Qwen 2.5 72B Instruct
Карточка модели

16 384

Лицензия Qwen

Gemma 3 4B it
Карточка модели

4 096

Условия использования Gemma

Gemma 3 12B it
Карточка модели

4 096

Условия использования Gemma

gpt-oss-20b
Карточка модели

128 000

Лицензия Apache 2.0

gpt-oss-120b
Карточка модели

128 000

Лицензия Apache 2.0

T-pro-it-2.0-FP8
Карточка модели

40 000

Лицензия Apache 2.0

Конфигурации выделенных инстансов

Каждая модель может быть доступна для развертывания на нескольких конфигурациях: S, M или L. Каждая конфигурация гарантирует определенные значения TTFT (Time to first token, время до первого токена), Latency (задержка — время, затраченное на генерацию ответа) и TPS (Tokens per second, количество токенов в секунду) для запросов с разной длиной контекста.

Рисунок ниже показывает зависимость задержек и количества токенов, обрабатываемых моделью, от количества параллельных генераций (Concurrency на рисунке): до определенного момента чем больше генераций модель будет обрабатывать параллельно, тем дольше будет длиться генерация и тем больше токенов будет сгенерировано за секунду.

