Выделенные инстансы
Эта функциональность находится на стадии Preview.
AI Studio позволяет развернуть некоторые модели на выделенном инстансе. В отличие от самостоятельного развертывания моделей на ВМ в сервисе Yandex Compute Cloud, вам не нужно настраивать окружение и подбирать оптимальные параметры ВМ — AI Studio обеспечивает стабильный, надежный и эффективный инференс модели и следит за его работой в автоматическом режиме.
Выделенные инстансы имеют ряд преимуществ:
- Гарантируемые параметры производительности, на которые не влияет трафик других пользователей.
- Отсутствие дополнительных квот на отправление запросов и параллельные генерации, ограничения зависят только от выбранной конфигурации инстанса.
- Оптимизированный инференс модели, чтобы обеспечить эффективное использование оборудования.
Выделенные инстансы будут полезны, если вам необходимо обрабатывать большие объемы запросов без задержек. Тарификация выделенного инстанса не зависит от объема входящих и исходящих токенов: оплачиваться будет только время его работы.
Модели выделенного инстанса
Все развернутые модели доступны через API, совместимый с OpenAI, ML SDK и в AI Playground. Чтобы развернуть выделенный инстанс, понадобится роль ai.models.editor или выше на каталог. Для обращения к модели достаточно роли ai.languageModels.user.
|
Модель |
Контекст |
Лицензия |
|
Qwen 2.5 VL 32B Instruct |
4 096 |
Лицензия Apache 2.0 |
|
Qwen 2.5 72B Instruct |
16 384 |
|
|
Gemma 3 4B it |
4 096 |
|
|
Gemma 3 12B it |
4 096 |
|
|
gpt-oss-20b |
128 000 |
Лицензия Apache 2.0 |
|
gpt-oss-120b |
128 000 |
Лицензия Apache 2.0 |
|
T-pro-it-2.0-FP8 |
40 000 |
Лицензия Apache 2.0 |
Конфигурации выделенных инстансов
Каждая модель может быть доступна для развертывания на нескольких конфигурациях: S, M или L. Каждая конфигурация гарантирует определенные значения TTFT (Time to first token, время до первого токена), Latency (задержка — время, затраченное на генерацию ответа) и TPS (Tokens per second, количество токенов в секунду) для запросов с разной длиной контекста.
Рисунок ниже показывает зависимость задержек и количества токенов, обрабатываемых моделью, от количества параллельных генераций (Concurrency на рисунке): до определенного момента чем больше генераций модель будет обрабатывать параллельно, тем дольше будет длиться генерация и тем больше токенов будет сгенерировано за секунду.