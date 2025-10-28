Модели для сортировки, преобразования, уточнения и разделения текста.

Model Gallery

Model Gallery — каталог моделей в Yandex AI Studio. Доступны собственные модели YandexGPT 5 Lite, YandexGPT 5.1 Pro и YandexART, а также актуальные опенсорс‑модели и специализированные модели: классификаторы, эмбеддеры, реранкеры и токенизаторы. В галерее представлены текстовые и мультимодальные варианты для работы с изображениями.

Варианты использования моделей в Model Gallery: базовый инстанс, выделенный инстанс, пакетная обработка:

Базовый инстанс. Быстрый старт с оплатой за потреблённые токены. Подходит для прототипов и нерегулярной нагрузки. К моделям можно обращаться в AI Playground, по API и через Yandex Cloud ML SDK.

Выделенный инстанс. Нужен для продакшн‑сценариев с гарантированными параметрами работы и стабильным временем ответа. Инстанс разворачивается и управляется в Yandex AI Studio, платформа обеспечивает устойчивый и эффективный инференс. Функциональность находится на стадии Preview.

Пакетная обработка. Массовая обработка датасетов одним запуском, когда строгих требований по времени нет. Результат формируется в течение часов и сохраняется в виде датасета. Доступен широкий набор текстовых и мультимодальных опенсорс‑моделей, включая линейки Qwen, Gemma и DeepSeek. Запуск возможен из консоли, через Yandex Cloud ML SDK и Batch API.

Эксплуатация крупных моделей требует внимательной работы с производительностью и устойчивостью. AI Studio решает эту проблему: для базового инстанса ничего дополнительно настраивать не нужно, а для выделенного инстанса платформа оптимизирует инференс и изолирует пользователя от чужого трафика. Для выделенных инстансов фиксируются метрики производительности — TTFT — время до первого токена от момента запроса, Latency — время до полного ответа, TPS — число токенов в секунду при генерации.

Модели можно адаптировать под задачи бизнеса через Tuning API. Поддерживается метод LoRA для YandexGPT 5 Lite и Llama 8B, а также дообучение классификаторов и модели эмбеддингов. Функциональность находится на стадии Preview.

AI Search

Агенту нужна память. Краткосрочная хранит контекст диалога в треде — модель опирается на неё, когда отвечает в рамках текущего разговора. Долгосрочная собирает знания компании и «кормит» RAG‑контур, чтобы ответы оставались точными и актуальными. В Yandex AI Studio такой контур строится вокруг AI Search.

Что относится к AI Search

База знаний состоит из двух сущностей — файлов‑источников и поисковых индексов. Файлы загружают через Files API или Yandex Cloud ML SDK, затем из них строят индекс нужного типа: текстовый, векторный или гибридный. Индексация идёт асинхронно: при создании индекса возвращается идентификатор операции. После завершения построения можно удалить исходные файлы, если не нужны ссылки на источники.

Retrieval для ассистента

Ассистент подключает инструмент Retrieval. Инструмент берёт из индекса релевантные фрагменты и подмешивает их в контекст перед генерацией ответа. В конфигурации ассистента задают стратегию обращения к индексу — всегда или по решению модели — и ограничение на число фрагментов, которые попадут в подсказку модели. Сейчас ассистент поддерживает один индекс за раз.

Настройки индекса

Для разбивки текста доступна статическая стратегия с управлением размером чанка и перекрытием, значения задаются в токенах. Для текстового поиска настраивают токенизацию — n‑граммы через NgramTokenizer или словарный разбор через standardTokenizer — и выбирают анализатор: стандартный или Yandex Lemmer для лемматизации. В гибридном поиске доступны стратегии нормализации оценок релевантности и объединения ранжирований — среднее с весами или RRF. Эти параметры помогают согласовать влияние текстового и векторного поиска.

Метаданные и фильтры

Метаданные задают и у файлов, и у индексов. Их используют для фильтрации результатов и для понятных ссылок на источники в ответах ассистента. Если файлы после построения индекса удалены, ссылки на источники недоступны — индекс продолжает работать, но блок с источниками будет пустым.