Обзор технологий поиска AI Search
AI Search — это набор инструментов и технологий AI Studio, которые позволяют моделям генерировать ответы на основе проверенных данных, например корпоративных документов, внутренних баз знаний или информации из интернета.
AI Search предоставляет инструменты для поиска по двум типам источников:
- собственные данные пользователя (документы, инструкции, FAQ) — инструмент File Search;
- выбранные домены в интернете — инструмент Web Search.
Вы можете использовать оба инструмента при создании голосовых агентов с помощью Realtime API или в Responses API при создании текстовых агентов и обращений к моделям генерации текста, чтобы формировать точные, актуальные и проверяемые ответы. Оба инструмента могут быть подключены одновременно, но модель сама решает, что нужно использовать, в зависимости от запроса пользователя, описания инструментов и заданного промпта.
Как работает AI Search
Модели могут использовать для генерации текста только ту информацию, которая была заложена в них при обучении или передана в контексте запроса. Поэтому, чтобы выбранная вами модель из Model Gallery могла сгенерировать ответ с учетом вашей информации, данные необходимо подготовить и передать в контексте запроса. Обогащение контекста выполняется в несколько этапов:
-
Индексация данных — это процесс подготовки информации для поиска. Прежде всего документы необходимо загрузить и разбить на чанки (chunks) — фрагменты текста от нескольких строк до нескольких абзацев, затем символы каждого чанка перевести в токены и сохранить в поисковом индексе. Чтобы подготовить ваши документы, создайте поисковый индекс Vector Store. Для поиска в интернете используется поисковый индекс Яндекса.
-
Формирование поискового запроса. В зависимости от поставленной задачи и описанных в промпте условий использования инструментов поиска модель формулирует запрос к инструментам поиска по файлам или поиска в интернете.
-
Получение найденных фрагментов. Использованный инструмент возвращает наиболее релевантную информацию из поискового индекса в виде чанков и добавляет ее в контекст модели.
-
Генерация ответа. Модель использует найденную информацию как факты для ответа, сохраняя тональность, стиль и инструкции из промпта.