Yandex Cloud
Поиск
Связаться с намиПопробовать бесплатно
  • Истории успеха
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
  • Marketplace
    • Доступны в регионе
    • Инфраструктура и сеть
    • Платформа данных
    • Искусственный интеллект
    • Безопасность
    • Инструменты DevOps
    • Бессерверные вычисления
    • Управление ресурсами
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Партнёрская программа
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Калькулятор цен
    • Тарифы
    • Акции и free tier
  • Истории успеха
  • Документация
  • Блог
Создавайте контент и получайте гранты!Готовы написать своё руководство? Участвуйте в контент-программе и получайте гранты на работу с облачными сервисами!
Подробнее о программе
Проект Яндекса
© 2026 ТОО «Облачные Сервисы Казахстан»
Yandex AI Studio
  • О сервисе Yandex AI Studio
  • Начало работы с Model Gallery
    • Обзор
    • Модели базового инстанса
    • Модели выделенного инстанса
    • Пакетная обработка данных
    • Вызов функций
    • Режим рассуждений
    • Форматирование ответов моделей
    • Эмбеддинги
    • Датасеты
    • Дообучение
    • Токены
  • Yandex Workflows
  • Переход с AI Assistant API на Responses API
  • Совместимость с OpenAI
  • Квоты и лимиты
  • Правила тарификации
  • Управление доступом
  • Аудитные логи Audit Trails
  • Публичные материалы
  • История изменений
  • Термины и определения

В этой статье:

  • Модели выделенного инстанса
  • Конфигурации выделенных инстансов
  • Примеры использования
  1. Model Gallery
  2. Модели выделенного инстанса

Выделенные инстансы

Статья создана
Yandex Cloud
Улучшена
darkdi-42
Обновлена 17 февраля 2026 г.
  • Модели выделенного инстанса
  • Конфигурации выделенных инстансов
  • Примеры использования

Эта функциональность находится на стадии Preview.

AI Studio позволяет развернуть некоторые модели на выделенном инстансе. В отличие от самостоятельного развертывания моделей на ВМ в сервисе Yandex Compute Cloud, вам не нужно настраивать окружение и подбирать оптимальные параметры ВМ — AI Studio обеспечивает стабильный, надежный и эффективный инференс модели и следит за его работой в автоматическом режиме.

Выделенные инстансы имеют ряд преимуществ:

  • Гарантируемые параметры производительности, на которые не влияет трафик других пользователей.
  • Отсутствие дополнительных квот на отправление запросов и параллельные генерации, ограничения зависят только от выбранной конфигурации инстанса.
  • Оптимизированный инференс модели, чтобы обеспечить эффективное использование оборудования.

Выделенные инстансы будут полезны, если вам необходимо обрабатывать большие объемы запросов без задержек. Тарификация выделенного инстанса не зависит от объема входящих и исходящих токенов: оплачиваться будет только время его работы.

Модели выделенного инстансаМодели выделенного инстанса

Все развернутые модели доступны через API, совместимый с OpenAI, AI SDK и в AI Playground. Чтобы развернуть выделенный инстанс, понадобится роль ai.models.editor или выше на каталог. Для обращения к модели достаточно роли ai.languageModels.user.

Модель

Контекст

Лицензия

Qwen 2.5 VL 32B Instruct
Карточка модели

32 768

Лицензия Apache 2.0

Qwen 2.5 7B Instruct
Карточка модели

32 768

Лицензия Apache 2.0

Gemma 3 4B it
Карточка модели

131 072

Условия использования Gemma

Gemma 3 12B it
Карточка модели

65 536

Условия использования Gemma

T-pro-it-2.0-FP8
Карточка модели

32 768

Лицензия Apache 2.0

Конфигурации выделенных инстансовКонфигурации выделенных инстансов

Каждая модель может быть доступна для развертывания на нескольких конфигурациях: S, M или L. Каждая конфигурация гарантирует определенные значения TTFT (Time to first token, время до первого токена), Latency (задержка — время, затраченное на генерацию ответа) и TPS (Tokens per second, количество токенов в секунду) для запросов с разной длиной контекста.

Рисунок ниже показывает зависимость задержек и количества токенов, обрабатываемых моделью, от количества параллельных генераций (Concurrency на рисунке): до определенного момента чем больше генераций модель будет обрабатывать параллельно, тем дольше будет длиться генерация и тем больше токенов будет сгенерировано за секунду.

Примеры использованияПримеры использования

  • Создать инстанс
  • Клонировать инстанс
  • Получить информацию об инстансе
  • Остановить и запустить инстанс
  • Удалить инстанс

Была ли статья полезна?

Предыдущая
Модели базового инстанса
Следующая
Пакетная обработка данных
Создавайте контент и получайте гранты!Готовы написать своё руководство? Участвуйте в контент-программе и получайте гранты на работу с облачными сервисами!
Подробнее о программе
Проект Яндекса
© 2026 ТОО «Облачные Сервисы Казахстан»