Модели генерации текста
Сервис Yandex Foundation Models предоставляет доступ к большим текстовым моделям, разработанных разными компаниями. Если стандартных моделей вам недостаточно, вы можете дообучить некоторые модели, чтобы они точнее отвечали на ваши запросы.
Жизненный цикл модели
Каждая модель имеет набор характеристик жизненного цикла: название модели, ветка и дата публикации. Эти характеристики позволяют однозначно определить версию модели. Обновление моделей происходит по определенным ниже правилам, чтобы вы могли адаптировать свои решения под новую версию, если это будет необходимо.
Существует три ветки модели (от более старой к новой): Deprecated
, Latest
, Release Candidate
(RC
). Для каждой из этих веток действует SLA сервиса.
Ветка RC
обновляется по мере готовности новой модели и может измениться в любой момент. Когда модель в ветке RC
будет готова к общему использованию, в истории изменений и сообществе пользователей
Через месяц после объявления версия RC
становится Latest
, а Latest
переносится в Deprecated
. Поддержка версии Deprecated
осуществляется в течение следующего месяца, после чего модели в ветках Deprecated
и Latest
будут идентичны.
Модели, доступные в синхронном и асинхронном режиме работы
Для всех базовых моделей действуют правила обновления, описанные в разделе Жизненный цикл модели. При обновлении моделей поколения, доступные в разных ветках (сегменты /latest
, /rc
и /deprecated
), могут меняться. Модифицированные модели делят квоты на использование со своими базовыми моделями.
Модель и URI |
Поколение |
Контекст |
|
YandexGPT Lite |
Deprecated 4Latest 4RC 5 |
8 1928 19232 000 |
Асинхронный, синхронный |
YandexGPT Pro |
Deprecated 4Latest 4RC 5 |
8 19232 000132 000 |
Асинхронный, синхронный |
YandexGPT Pro 32k2 |
Deprecated 4Latest 4RC 5 |
32 000 |
Синхронный |
Llama 8B3 |
Deprecated 3.1Latest 3.1RC 3.1 |
8 192 |
Асинхронный, синхронный |
Llama 70B3 |
Deprecated 3.3Latest 3.3RC 3.3 |
8 192 |
Асинхронный, синхронный |
Дообученные модели |
Зависит от базовой модели |
Зависит от базовой модели |
Асинхронный, синхронный |
Модель, дообученная в Yandex DataSphere |
3 |
8 192 |
Асинхронный, синхронный |
1 Размер контекста зависит от режима работы. В синхронном режиме модель YandexGPT Pro 4 поколения обрабатывает 8 192 токенов, в асинхронном — 32 000 токенов.
2 Модель YandexGPT Pro 32k обладает расширенным контекстом по сравнению с YandexGPT Pro 4 поколения. Модель создавалась специально для обработки больших текстов в синхронном режиме. Модели YandexGPT Pro 5 поколения совпадают по размеру контекста в синхронном и асинхронном режиме. Рекомендуем использовать их вместо устаревающей YandexGPT Pro 32k.
3 Llama создана компанией Meta. Meta признана экстремистской организацией, ее деятельность в России запрещена.
Модели, доступные в пакетном режиме работы
Модель |
URI |
Контекст |
Qwen2.5 7B Instruct |
|
32 768 |
Qwen2.5 72B Instruct |
|
16 384 |
QwQ 32B Instruct |
|
32 768 |
Llama-3.3-70B-Instruct3 |
|
8 192 |
Llama-3.1-70B-Instruct3 |
|
8 192 |
DeepSeek-R1-Distill-Llama-70B |
|
8 192 |
Qwen2.5 32B Instruct |
|
32 768 |
DeepSeek-R1-Distill-Qwen-32B |
|
32 768 |
phi-4 |
|
16 384 |
Gemma3 1B it |
|
32 768 |
Gemma3 4B it |
|
131 072 |
Gemma3 12B it |
|
65 536 |
Gemma3 27B it |
|
32 768 |
Qwen3-0.6B |
|
32 768 |
Qwen3-1.7B |
|
32 768 |
Qwen3-4B |
|
32 768 |
Qwen3-8B |
|
32 768 |
Qwen3-14B |
|
32 768 |
Qwen3-32B |
|
32 768 |
Qwen3-30B-A3B |
|
32 768 |
Qwen3-235B-A22B |
|
32 768 |
3 Llama создана компанией Meta. Meta признана экстремистской организацией, ее деятельность в России запрещена.
Обращение к моделям
Вы можете обращаться к моделям генерации текста разных версий несколькими способами.
При работе с моделями генерации текста через Yandex Cloud ML SDK используйте один из следующих форматов:
-
Название модели, передается в виде строки. Доступны только версии
Latest
.model = ( sdk.models.completions("yandexgpt") )
-
Название и версия модели, передаются в виде строк в полях
model_name
иmodel_version
соответственно.model = ( sdk.models.completions(model_name="yandexgpt-lite", model_version="rc") )
В приведенном примере явно задана модель
YandexGPT Lite
версииRelease Candidate
. -
URI модели, передается в виде строки, содержащей полный URI нужной версии модели. Также используйте этот способ для обращения к дообученным моделям.
model = ( sdk.models.completions("gpt://b1gt6g8ht345********/llama/deprecated") )
В приведенном примере явно задана модель
Llama 70B
версииDeprecated
модели.
Чтобы обратиться к модели через REST API или gRPC API, в поле modelUri
тела запроса укажите URI модели, содержащий идентификатор каталога. Сегменты /latest
, /rc
и /deprecated
указывают на версию модели. По умолчанию используется сегмент /latest
.
Примеры:
-
Обращение к версии
Latest
моделиYandexGPT Lite
:{ "modelUri": "gpt://b1gt6g8ht345********/yandexgpt-lite/latest" ... }
Для обращения к
Latest
версиям моделей необязательно задавать версию модели явно, поскольку версияLatest
используется по умолчанию.Например, по данному URI также произойдет обращение к версии
Latest
моделиYandexGPT Lite
:gpt://<идентификатор_каталога>/yandexgpt-lite
. -
Обращение к версии
RC
моделиLlama 70B
:{ "modelUri": "gpt://b1gt6g8ht345********/llama/rc" ... }