Yandex Cloud
Поиск
Связаться с намиПопробовать бесплатно
  • Кейсы
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
  • Marketplace
    • Доступны в регионе
    • Инфраструктура и сеть
    • Платформа данных
    • Искусственный интеллект
    • Безопасность
    • Инструменты DevOps
    • Бессерверные вычисления
    • Управление ресурсами
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Партнёрская программа
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Калькулятор цен
    • Тарифы
    • Акции и free tier
  • Кейсы
  • Документация
  • Блог
Создавайте контент и получайте гранты!Готовы написать своё руководство? Участвуйте в контент-программе и получайте гранты на работу с облачными сервисами!
Подробнее о программе
Проект Яндекса
© 2026 ТОО «Облачные Сервисы Казахстан»
Yandex AI Studio
  • О сервисе Yandex AI Studio
  • Начало работы с Model Gallery
    • Обзор AI Search
    • Поисковые индексы Vector Store
    • Инструмент поиска по файлам
    • Инструмент поиска в интернете
  • Yandex Workflows
  • Переход с AI Assistant API на Responses API
  • Совместимость с OpenAI
  • Квоты и лимиты
  • Правила тарификации
  • Управление доступом
  • Аудитные логи Audit Trails
  • Публичные материалы
  • История изменений
  • Термины и определения

В этой статье:

  • Создание индекса
  • Загрузка файлов
  • Индексирование загруженных файлов
  • Логика разбиения на фрагменты
  • Метаданные на уровне Vector Store
  • Использование поискового индекса
  • Управление поисковым индексом
  • Возможные сценарии использования поисковых индексов Vector Store
  1. AI Search
  2. Поисковые индексы Vector Store

Поисковые индексы Vector Store

Статья создана
Yandex Cloud
Обновлена 26 февраля 2026 г.
  • Создание индекса
    • Загрузка файлов
    • Индексирование загруженных файлов
    • Логика разбиения на фрагменты
    • Метаданные на уровне Vector Store
  • Использование поискового индекса
  • Управление поисковым индексом
  • Возможные сценарии использования поисковых индексов Vector Store

AI-агенты в своей работе могут использовать гибридный поиск по контексту, получаемому из файлов внешних баз знаний. Такой дополнительный контекст хранится в поисковых индексах Vector Store — специальных векторных хранилищах Yandex AI Studio, которые создаются с помощью Vector Store API и в которых документы представлены в виде векторов (эмбеддингов).

Создание индексаСоздание индекса

Чтобы создать поисковый индекс, необходимо загрузить в Vector Store файлы-источники для базы знаний и проиндексировать их.

Загрузка файловЗагрузка файлов

В Vector Store вы можете загрузить до 10 000 файлов, максимальный размер каждого файла — 128 МБ. Один и тот же файл может использоваться для создания одновременно нескольких поисковых индексов Vector Store.

Сервис поддерживает загрузку файлов следующих MIME-типов:

  • application/json
  • application/jsonlines
  • application/msword
  • application/pdf
  • application/rtf
  • application/vnd.ms-excel
  • application/vnd.ms-excel.sheet.2
  • application/vnd.ms-excel.sheet.3
  • application/vnd.ms-excel.sheet.4
  • application/vnd.ms-excel.workspace.3
  • application/vnd.ms-excel.workspace.4
  • application/vnd.ms-outlook
  • application/vnd.ms-powerpoint
  • application/vnd.ms-project
  • application/vnd.ms-word2006ml
  • application/vnd.openxmlformats-officedocument.spreadsheetml.sheet
  • application/vnd.openxmlformats-officedocument.wordprocessingml.document
  • application/x-latex
  • application/x-ms-owner
  • application/xhtml+xml
  • audio/mpeg
  • audio/wav
  • audio/flac
  • audio/ogg
  • audio/webm
  • audio/mp4
  • audio/aac
  • audio/midi
  • audio/aiff
  • audio/amr
  • audio/3gpp
  • audio/3gpp2
  • text/csv
  • text/html
  • text/markdown
  • text/plain
  • text/xml
  • video/mp4
  • video/quicktime
  • video/webm
  • video/x-matroska
  • video/x-msvideo
  • video/x-ms-wmv
  • video/mpeg
  • video/x-flv
  • video/3gpp
  • video/3gpp2
  • video/ogg
  • video/mp2t

Индексирование загруженных файловИндексирование загруженных файлов

При создании поисковых индексов Vector Store загруженные файлы автоматически разбиваются на фрагменты, которые затем преобразуются моделью эмбеддингов в числовые векторы. Вектор отражает смысл фрагмента, благодаря чему нужную информацию можно находить в индексе не только по совпадению слов, но и по совпадению смыслов/значений.

При разбиении информации на фрагменты не учитывается смысл, поэтому текст может быть разделен, например, в середине предложения. В этом случае контекст оказывается неполным. Чтобы сократить потери информации, возникающие из-за подобного разрыва контекста, при разбиении данных на фрагменты используют перекрытие, которое позволяет сохранить часть информации одновременно в двух соседних фрагментах.

Совет

Чтобы исключить возможные потери смысла при фрагментации файлов, вы можете самостоятельно разбить информацию на части и загрузить в поисковый индекс уже готовые фрагменты в формате JSONL. Максимальная длина одного фрагмента — 8 000 символов. Подробнее см. в разделе Создать агента с поиском по заранее созданным чанкам.

По умолчанию при создании поисковых индексов Vector Store используются стандартные модели эмбеддингов AI Studio. Чтобы улучшить качество векторного поиска в зависимости от специфики входных файлов, вы можете использовать дообученные модели эмбеддингов.

После завершения обработки всех файлов и векторизации всех полученных текстовых фрагментов поисковый индекс готов к использованию.

Возможные состояния процесса создания поискового индекса Vector Store:

  • in_progress — происходит фрагментирование загруженных файлов и векторизация фрагментов;
  • completed — поисковый индекс готов к работе;
  • failed — при создании поискового индекса возникла ошибка.

Логика разбиения на фрагментыЛогика разбиения на фрагменты

Вы можете управлять стратегией разбиения на фрагменты при создании поискового индекса Vector Store. Для этого задайте параметр chunking_strategy:

vector_store = client.vector_stores.create(
    name='mytest',
    metadata={"test": 'for filter'},
    expires_after={"anchor": "last_active_at", "days": 20},
    chunking_strategy={
        'type': 'static',
        'static': {
            'max_chunk_size_tokens': 1408,
            'chunk_overlap_tokens': 148
        }
    }
)

Где:

  • max_chunk_size_tokens — максимальный размер фрагмента в токенах. Этот параметр влияет на компромисс между точностью и контекстом.

  • chunk_overlap_tokens — размер перекрытия между соседними фрагментами в токенах. Перекрытие необходимо, чтобы важная информация на границах фрагментов не обрывалась.

Рекомендации по настройке параметровРекомендации по настройке параметров

Параметр

Влияние изменений

Рекомендация

Размер фрагмента max_chunk_size_tokens

Меньше размер:

  • Высокая точность поиска
  • Минимум лишнего текста
  • Большое количество фрагментов
  • Риск потери контекста

FAQ, короткие параграфы

Больше размер:

  • Сохранение контекста
  • Смысловая целостность
  • Вероятность попадания «шума»

Регламенты, длинные инструкции

Перекрытие chunk_overlap_tokens

Меньше размер:

  • Потеря определений на стыках
  • Разрыв логических связей

FAQ, новостные заметки, независимые тексты

Больше размер:

  • Рост объема базы данных
  • Дублирование информации в выдаче

Техническая документация с большим количеством ссылок между разделами

Метаданные на уровне Vector StoreМетаданные на уровне Vector Store

Метаданные (metadata) поискового индекса — это атрибуты, которые задаются для всего хранилища при создании поискового индекса. Они особенно полезны, когда поисковых индексов много и требуется их организация по проектам, версиям базы знаний, клиентам или другим критериям.

Пример задания метаданных:

metadata = {
    "product": "xdr",
    "lang": "ru",
    "access": "internal",
    "category": "billing"
}

При выполнении поиска вы можете указывать конкретные значения метаданных для фильтрации документов, например, product=xdr и lang=ru. Это позволит сузить область поиска и повысить точность результатов.

Использование поискового индексаИспользование поискового индекса

Использование поисковых индексов позволяет реализовать сценарий генеративного ответа с учетом информации из внешних источников (RAG, Retrieval Augmented Generation), при котором модель генерации текста будет готовить ответ с учетом найденной в поисковом индексе информации.

Поисковый индекс Vector Store можно подключить к голосовому или текстовому агенту при помощи инструмента File Search.

По умолчанию поиск в Vector Store работает в гибридном режиме:

  • Векторный поиск по эмбеддингам ищет близкие по смыслу формулировки, может обрабатывать синонимы и контекст запроса.
  • Лексический поиск находит точные совпадения слов, артикулов, имен и аббревиатур.

Гибридный подход сочетает преимущества обоих методов. Он обеспечивает стабильную релевантность для запросов любой длины — от коротких точных до развернутых и неточных.

Результатом поиска по векторному индексу Vector Store являются:

  • Список релевантных текстовых фрагментов.

    Поиск в индексе Vector Store (similarity search) возвращает список из заданного количества ближайших по смыслу векторов (метод Top-k).

  • Оценка релевантности по отношению к запросу для каждого из возвращаемых фрагментов списка.

  • Метаданные фрагментов.

    К результатам поиска можно применять фильтры по метаданным. Метаданные поисковых индексов представляют собой объекты, содержащие пары <ключ>:<значение>, и могут расширять контекст поиска дополнительными сведениями, такими как категория данных, дата обновления, специальные метки и т.п.

Управление поисковым индексомУправление поисковым индексом

Вы можете добавлять новые файлы к существующим поисковым индексам Vector Store, а также удалять из них имеющиеся файлы.

Vector Store API позволяет настраивать автоматическое удаление неиспользуемых поисковых индексов. Для этого в поле expires_after задайте значение для одного из свойств:

  • created_at — заданное значение определяет срок жизни поискового индекса с момента создания;
  • last_active_at — заданное значение определяет срок жизни поискового индекса с момента последнего использования.

По истечении указанного в поле expires_after времени поисковый индекс будет автоматически удален. Кроме того, вы можете в любой момент удалить поисковый индекс Vector Store вручную.

Возможные сценарии использования поисковых индексов Vector StoreВозможные сценарии использования поисковых индексов Vector Store

В сочетании с AI-агентами поисковые индексы Vector Store могут использоваться в целом ряде сценариев:

  • AI-бот для клиентов, отвечающий на часто задаваемые вопросы

    • В поисковый индекс Vector Store загружается база инструкций и ответов на часто задаваемые вопросы.
    • Поисковый индекс подключается к AI-агенту.
    • Пользователь задает вопрос: Сколько багажа можно взять с собой?
    • Поиск находит релевантный фрагмент в базе знаний: Одна сумка до 23 кг.
    • AI-агент возвращает ответ со ссылкой на документ.
  • Внутренняя база знаний компании

    • В поисковый индекс Vector Store загружаются регламенты, политики, инструкции по продукту.

    • Запрос к поисковому индексу возвращает ответы по смыслу, даже если непосредственные формулировки не совпадают.

      Например: на ключевое слово увольнение система найдет в том числе документы с формулировками прекращение трудовых отношений или расторжение трудового договора.

  • AI-ассистент техподдержки (Call Center Assistant)

    • В поисковый индекс Vector Store загружается база инструкций и ответов на часто задаваемые вопросы.
    • Оператор во время звонка набирает или произносит запрос: Как сбросить пароль пользователя?
    • AI-агент с подключенным поисковым индексом мгновенно подсказывает шаги из базы знаний.
  • Анализ объемных документов

    • В поисковый индекс Vector Store загружаются отчеты, исследования, контракты.

    • Запрос к поисковому индексу позволяет быстро найти нужные фрагменты: Покажи все упоминания про KPI за 2024 год.

      Особенно эффективно при работе с сотнями страниц информации.

  • Чат с AI-агентом по корпоративным документам

    • AI-агент подключается к поисковому индексу Vector Store, содержащему корпоративную базу знаний.
    • Сотрудник задает AI-агенту вопрос: Объясни, как работает процесс возврата товара.
    • AI-агент получает релевантные фрагменты документации и на их основе дает подробный и корректный ответ.
  • Локальный поиск для приложений

    • Корпоративное приложение (например, CRM или Wiki) использует поисковый индекс Vector Store для поиска по внутреннему контенту.
    • Пользователь задает вопрос в свободной форме и находит подходящие записи даже без точного совпадения слов.
  • Многоязычный поиск

    • В одном и том же поисковом индексе Vector Store хранятся документы на русском и английском языках.
    • При запросе baggage allowance индекс вернет фрагменты в том числе и на русском языке по запросу нормы провоза багажа.
  • Интеграция с аналитикой

    • В поисковый индекс Vector Store загружаются транскрипты звонков или чатов.
    • Vector Store API позволяет находить похожие обращения клиентов.
    • Полученную информацию можно быстро группировать, анализировать, находить наиболее часто возникающие вопросы и выявлять проблемы.

Таким образом, поисковые индексы Vector Store — это универсальный инструмент, который может использоваться как чат-ботами, так и пользователями для внутреннего поиска, анализа документов, а также для интеграции в бизнес-процессы компаний (клиентская поддержка, аналитика, обучение сотрудников и т.п.)

См. такжеСм. также

  • Файлы-источники
  • Управлять поисковым индексом Vector Store
  • Создать RAG-ассистента с инструментом Vector Store

Была ли статья полезна?

Предыдущая
Обзор AI Search
Следующая
Инструмент поиска по файлам
Создавайте контент и получайте гранты!Готовы написать своё руководство? Участвуйте в контент-программе и получайте гранты на работу с облачными сервисами!
Подробнее о программе
Проект Яндекса
© 2026 ТОО «Облачные Сервисы Казахстан»