Модели генерации текста

Статья создана

Обновлена 6 августа 2025 г.

Жизненный цикл модели
Модели, доступные в синхронном и асинхронном режиме работы
Модели, доступные в пакетном режиме работы
Обращение к моделям

Сервис Yandex Foundation Models предоставляет доступ к большим текстовым моделям, разработанных разными компаниями. Если стандартных моделей вам недостаточно, вы можете дообучить некоторые модели, чтобы они точнее отвечали на ваши запросы.

Жизненный цикл модели

Каждая модель имеет набор характеристик жизненного цикла: название модели, ветка и дата публикации. Эти характеристики позволяют однозначно определить версию модели. Обновление моделей происходит по определенным ниже правилам, чтобы вы могли адаптировать свои решения под новую версию, если это будет необходимо.

Существует три ветки модели (от более старой к новой): Deprecated, Latest, Release Candidate (RC). Для каждой из этих веток действует SLA сервиса.

Ветка RC обновляется по мере готовности новой модели и может измениться в любой момент. Когда модель в ветке RC будет готова к общему использованию, в истории изменений и сообществе пользователей в Telegram появится уведомление о предстоящем релизе.

Через месяц после объявления версия RC становится Latest, а Latest переносится в Deprecated. Поддержка версии Deprecated осуществляется в течение следующего месяца, после чего модели в ветках Deprecated и Latest будут идентичны.

Модели, доступные в синхронном и асинхронном режиме работы

Для всех базовых моделей действуют правила обновления, описанные в разделе Жизненный цикл модели. При обновлении моделей поколения, доступные в разных ветках (сегменты /latest, /rc и /deprecated), могут меняться. Модифицированные модели делят квоты на использование со своими базовыми моделями.

Модель и URI	Поколение	Контекст	Режимы работы
YandexGPT Lite `gpt://<идентификатор_каталога>/yandexgpt-lite`	Deprecated 4 Latest 5 RC 5	8 192 32 000 32 000	Асинхронный, синхронный
YandexGPT Pro `gpt://<идентификатор_каталога>/yandexgpt`	Deprecated 4 Latest 5 RC 5	8 192 32 000 32 000	Асинхронный, синхронный
YandexGPT Pro 32k¹ `gpt://<идентификатор_каталога>/yandexgpt-32k`	Deprecated 4	32 000	Синхронный
Llama 8B² `gpt://<идентификатор_каталога>/llama-lite`	Deprecated 3.1 Latest 3.1 RC 3.1	8 192	Асинхронный, синхронный
Llama 70B² `gpt://<идентификатор_каталога>/llama`	Deprecated 3.3 Latest 3.3 RC 3.3	8 192	Асинхронный, синхронный
Qwen3 235B `gpt://<идентификатор каталога>/qwen3-235b-a22b-fp8/latest`	—	256 000	Только OpenAI API
gpt-oss-120b `gpt://<идентификатор каталога>/gpt-oss-120b/latest`	—	128 000	Только OpenAI API
gpt-oss-20b `gpt://<идентификатор каталога>/gpt-oss-20b/latest`	—	128 000	Только OpenAI API
Дообученные модели `gpt://<идентификатор_каталога>/<базовая_модель>/<версия>@<суффикс>`	Зависит от базовой модели	Зависит от базовой модели	Асинхронный, синхронный

¹ Модель YandexGPT Pro 32k обладает расширенным контекстом по сравнению с YandexGPT Pro 4 поколения. Модель создавалась специально для обработки больших текстов в синхронном режиме. Модели YandexGPT Pro 5 поколения совпадают по размеру контекста в синхронном и асинхронном режиме. Рекомендуем использовать их вместо устаревающей YandexGPT Pro 32k.

² Llama создана компанией Meta. Meta признана экстремистской организацией, ее деятельность в России запрещена.

Модели, доступные в пакетном режиме работы

Модель	URI	Контекст
Qwen2.5 7B Instruct Карточка модели Лицензия Apache 2.0	`gpt://<идентификатор_каталога>/qwen2.5-7b-instruct`	32 768
Qwen2.5 72B Instruct Карточка модели Лицензия Qwen	`gpt://<идентификатор_каталога>/qwen2.5-72b-instruct`	16 384
QwQ 32B Instruct Карточка модели Лицензия Apache 2.0	`gpt://<идентификатор_каталога>/qwq-32b`	32 768
Llama-3.3-70B-Instruct² Карточка модели Лицензия Llama 3.3	`gpt://<идентификатор_каталога>/llama3.3-70b-instruct`	8 192
Llama-3.1-70B-Instruct² Карточка модели Лицензия Llama 3.1	`gpt://<идентификатор_каталога>/llama3.1-70b-instruct`	8 192
DeepSeek-R1-Distill-Llama-70B Карточка модели Лицензия MIT Основана на модели Llama-3.3-70B-Instruct. Условия использования Llama-3.3-70B-Instruct	`gpt://<идентификатор_каталога>/deepseek-r1-distill-llama-70b`	8 192
Qwen2.5 32B Instruct Карточка модели Лицензия Apache 2.0	`gpt://<идентификатор_каталога>/qwen2.5-32b-instruct`	32 768
DeepSeek-R1-Distill-Qwen-32B Карточка модели Лицензия MIT	`gpt://<идентификатор_каталога>/deepseek-r1-distill-qwen-32b`	32 768
phi-4 Карточка модели Лицензия MIT	`gpt://<идентификатор_каталога>/phi-4`	16 384
Gemma3 1B it Карточка модели Условия использования Gemma	`gpt://<идентификатор_каталога>/gemma-3-1b-it`	32 768
Gemma3 4B it Карточка модели Условия использования Gemma	`gpt://<идентификатор_каталога>/gemma-3-4b-it`	131 072
Gemma3 12B it Карточка модели Условия использования Gemma	`gpt://<идентификатор_каталога>/gemma-3-12b-it`	65 536
Gemma3 27B it Карточка модели Условия использования Gemma	`gpt://<идентификатор_каталога>/gemma-3-27b-it`	32 768
Qwen3-0.6B Карточка модели Лицензия Apache 2.0	`gpt://<идентификатор_каталога>/qwen3-0.6b`	32 768
Qwen3-1.7B Карточка модели Лицензия Apache 2.0	`gpt://<идентификатор_каталога>/qwen3-1.7b`	32 768
Qwen3-4B Карточка модели Лицензия Apache 2.0	`gpt://<идентификатор_каталога>/qwen3-4b`	32 768
Qwen3-8B Карточка модели Лицензия Apache 2.0	`gpt://<идентификатор_каталога>/qwen3-8b`	32 768
Qwen3-14B Карточка модели Лицензия Apache 2.0	`gpt://<идентификатор_каталога>/qwen3-14b`	32 768
Qwen3-32B Карточка модели Лицензия Apache 2.0	`gpt://<идентификатор_каталога>/qwen3-32b`	32 768
Qwen3-30B-A3B Карточка модели Лицензия Apache 2.0	`gpt://<идентификатор_каталога>/qwen3-30b-a3b`	32 768
Qwen3-235B-A22B Карточка модели Лицензия Apache 2.0	`gpt://<идентификатор_каталога>/qwen3-235b-a22b`	32 768

² Llama создана компанией Meta. Meta признана экстремистской организацией, ее деятельность в России запрещена.

Обращение к моделям

Вы можете обращаться к моделям генерации текста разных версий несколькими способами.

SDK

API

При работе с моделями генерации текста через Yandex Cloud ML SDK используйте один из следующих форматов:

Название модели, передается в виде строки. Доступны только версии Latest.
```
model = (
  sdk.models.completions("yandexgpt")
)
```
Название и версия модели, передаются в виде строк в полях model_name и model_version соответственно.
```
model = (
  sdk.models.completions(model_name="yandexgpt-lite", model_version="rc")
)
```
В приведенном примере явно задана модель YandexGPT Lite версии Release Candidate.
URI модели, передается в виде строки, содержащей полный URI нужной версии модели. Также используйте этот способ для обращения к дообученным моделям.
```
model = (
  sdk.models.completions("gpt://b1gt6g8ht345********/llama/deprecated")
)
```
В приведенном примере явно задана модель Llama 70B версии Deprecated модели.

Чтобы обратиться к модели через REST API или gRPC API, в поле modelUri тела запроса укажите URI модели, содержащий идентификатор каталога. Сегменты /latest, /rc и /deprecated указывают на версию модели. По умолчанию используется сегмент /latest.

Примеры:

Обращение к версии Latest модели YandexGPT Lite:
```
{
  "modelUri": "gpt://b1gt6g8ht345********/yandexgpt-lite/latest"
  ...
}
```
Для обращения к Latest версиям моделей необязательно задавать версию модели явно, поскольку версия Latest используется по умолчанию.

Например, по данному URI также произойдет обращение к версии Latest модели YandexGPT Lite: gpt://<идентификатор_каталога>/yandexgpt-lite.

Обращение к версии RC модели Llama 70B:

{
  "modelUri": "gpt://b1gt6g8ht345********/llama/rc"
  ...
}

Модели генерации текста

Жизненный цикл модели

Модели, доступные в синхронном и асинхронном режиме работы

Модели, доступные в пакетном режиме работы

Обращение к моделям

См. также

Была ли статья полезна?

Модели генерации текста

Жизненный цикл моделиЖизненный цикл модели

Модели, доступные в синхронном и асинхронном режиме работыМодели, доступные в синхронном и асинхронном режиме работы

Модели, доступные в пакетном режиме работыМодели, доступные в пакетном режиме работы

Обращение к моделямОбращение к моделям

См. такжеСм. также

Была ли статья полезна?

Жизненный цикл модели

Модели, доступные в синхронном и асинхронном режиме работы

Модели, доступные в пакетном режиме работы

Обращение к моделям

См. также