Обе системы разработаны как облачные и работают с использованием больших языковых моделей платформы Yandex Cloud. В их основе — RAG‑архитектура.

Цифровое востоковедение: как ИВ РАН с Yandex Cloud открывает доступ к первоисточникам
Институт востоковедения РАН и Yandex Cloud создали AI‑ассистента для работы с научными данными и платформу мониторинга китайских СМИ. Эти решения на базе AI ускоряют анализ первоисточников для исследователей в 6–8 раз.
- У российских исследователей и бизнеса практически нет доступа к первоисточникам по востоковедению, например к китайской внутренней электронной периодике.
- Институт востоковедения РАН разработал две системы на платформе Yandex Cloud: AI-ассистента для работы с востоковедческой информацией и систему межъязыкового информационного поиска для мониторинга китайских СМИ.
- AI-ассистент анализирует академические труды института и предоставляет проверенные данные о странах Азии, Африки и Ближнего Востока в трёх ключевых областях: история, культура и торгово-экономическое сотрудничество.
- Система межъязыкового информационного поиска переводит и анализирует тысячи новостей, формируя ежедневные дайджесты по ключевым темам.
- В основе систем — RAG-архитектура, которая позволяет языковой модели генерировать ответы на основе информации из дополнительных источников, найденных по запросу.
- Для хранения и поиска информации используются векторные базы данных ChromaDB и Qdrant.
- AI-ассистент использует модель FRED-T5-Summarizer для суммаризации текстов и YandexGPT для формирования финальных ответов.
- Система развёрнута на платформе Yandex Cloud и спроектирована с учётом современных DevOps-практик.
- Сейчас система проходит пилотное тестирование, база знаний AI-ассистента содержит более 1,5 млн документов.
- Институт планирует расширить языковую поддержку системы, добавив японский, арабский, персидский и другие языки.
Работа с восточными рынками требует глубокого понимания контекста, языков и исторических связей. Но у российских исследователей и бизнеса практически нет доступа к первоисточникам — например, китайская внутренняя электронная периодика мало используется в научных и аналитических работах. Большинство информации приходит через англоязычные источники, что может искажать реальную картину событий.
Институт востоковедения РАН решает эту проблему с помощью двух разработок на платформе Yandex Cloud:
- Первая — AI‑ассистент для работы с востоковедческой информацией. Система анализирует академические труды института и предоставляет проверенные данные о странах Азии, Африки и Ближнего Востока. Фокус на трёх ключевых областях: история, культура и торгово‑экономическое сотрудничество.
- Вторая — система межъязыкового информационного поиска для мониторинга китайских СМИ. Она переводит и анализирует тысячи новостей, формируя ежедневные дайджесты по ключевым темам.
В статье рассказываем о разработке обоих решений.
Барьеры доступа к восточным источникам
СМИ Азии, Ближнего Востока и Африки публикуют тысячи статей каждый день. Это огромный массив информации, который труднодоступен для русскоязычных востоковедов, несмотря на владение ими восточными языками. Главные препятствия — языковой барьер и нехватка инструментов для сбора и анализа больших объёмов данных.
Русскоязычный доступ к текстовому корпусу на другом языке — это задача кросс‑языкового информационного поиска. Разработкой в этой области занимаются уже много десятилетий. Долгое время основным решением было свести задачу к уже решённой, то есть к одноязычному поиску с помощью машинного перевода.
Для этого переводят либо пользовательские запросы на язык корпуса, либо весь корпус на язык пользователя. Генеративные модели и методы построения мультиязычных векторных моделей открыли новые возможности для таких задач.
RAG‑архитектура для востоковедческих исследований
Институт востоковедения РАН разработал на основе технологий Yandex Cloud две информационные системы с однотипной архитектурой. Первая обеспечивает поиск по электронным СМИ на китайском языке, вторая — предоставляет исследователям‑востоковедам AI‑ассистента.
В разработке системы поиска по китайским СМИ участвовали сотрудники Лаборатории цифровых исследований современного Востока ИВ РАН и Института Китая и современной Азии РАН. Технической реализацией занимались стажёры Яндекса — студенты московских вузов (ВМК МГУ, ВШЭ), которые обучаются по специальности машинного обучения. На всех этапах сотрудники Yandex Cloud оказывали им техническую поддержку и продолжают консультировать по применению облачных инструментов.
RAG — широко распространённая и хорошо себя зарекомендовавшая технология. В ней языковая модель генерирует ответы на основе информации не только из самой генеративной сети, но и из дополнительных источников, найденных по запросу.
Задача AI‑ассистента — превратить десятилетия накопленной экспертизы института в удобный цифровой инструмент. Система состоит из трёх ключевых компонентов. Векторизация данных и запросов обеспечивает семантический поиск — это позволяет преодолеть ограничения поиска по ключевым словам. Языковая модель FRED‑T5‑Summarizer сжимает длинные тексты в краткие выжимки, а YandexGPT (входит в состав Yandex AI Studio) формирует финальные ответы.
Благодаря такой архитектуре система анализирует информацию в контексте научной базы института. Главная информационная составляющая системы — специализированный корпус данных, собранный на основе исследований и публикаций института. База знаний охватывает шесть ключевых направлений:
- история Востока — от древних цивилизаций до современности;
- культура — обычаи, традиции, фольклор, искусство, литература;
- экономика и общество стран Азии и Африки;
- международные отношения в регионе;
- языки и письменности Востока;
- научная жизнь института — конференции, публикации, исследования.
Технологическая архитектура системы
Архитектура разработанных систем построена на современном стеке технологий. Бэкенд реализован на библиотеке FastAPI для создания быстрых веб‑API на Python™. Он обеспечивает работу бэкенд‑микросервиса поиска, который обрабатывает запросы исследователей и взаимодействует с базой знаний.
Для хранения и поиска информации использовали ChromaDB и Qdrant — векторные базы данных, позволяющие искать тексты по смысловому сходству. В текущей версии для векторизации применили несколько мультиязычных моделей. В итоге выбрали ту, которая показала в эксплуатации лучшие результаты.
В AI‑ассистенте параллельно используется облачный интерфейс AI Assistant API с гибридной индексацией по эмбеддингам и ключевым словам. Гибридный подход к поиску стал ключевой особенностью архитектуры. Он объединяет векторный поиск (по смыслу) и лексический поиск с лемматизацией (по точному совпадению терминов). Комбинация методов существенно повышает точность: система находит и семантически близкие тексты, и документы с нужными формулировками.
YandexGPT генерирует финальные ответы на основе найденной информации. Интеграция с Yandex Cloud ML SDK позволяет эффективно управлять ресурсами и автоматически масштабировать систему при росте нагрузки.
Кроме того, интеграция даёт возможность использовать готовый стек объектов. Они отвечают за организацию диалога с пользователем: от файлового хранилища и его индекса до тредов.
Особую роль играет FRED‑T5‑Summarizer — модель для суммаризации русских текстов с около 1,74 млрд параметров. Она сжимает объёмные научные тексты в краткие выжимки по 40–60 токенов. Это критически важно для обработки длинных академических материалов и объединения результатов поиска в связный ответ.
DevOps и инфраструктура проекта
Система развёрнута на платформе Yandex Cloud. В облаке работают две виртуальные машины — одна для базы данных, другая для веб‑сервиса. Компоненты системы изолированы в Docker®‑контейнерах. Фронтенд и бэкенд на Python запущены в отдельных контейнерах.
Архитектура спроектирована с учётом современных DevOps‑практик. Обновление конфигураций максимально упрощено — достаточно изменить JSON‑файлы без правки кода. Модели и поисковые индексы обновляются таким же способом. Ключи доступа и идентификаторы хранятся отдельно от кода для безопасности. Централизованное логирование упрощает отладку и мониторинг работы системы.
Такая архитектура позволяет исследователям института сосредоточиться на научной работе, а не на технической поддержке инфраструктуры. Система автоматически адаптируется к изменениям нагрузки и обновлениям базы знаний.
Работа с китайскими источниками
Обработка публикаций в китайских СМИ требует специального подхода. Система анализирует четыре варианта китайского языка — континентальный, тайваньский, гонконгский и сингапурский. В первой версии система перед индексацией переводила тексты с китайского на английский через Yandex Translate, аналогичным образом обрабатывались и пользовательские запросы. Так решили, поскольку предполагалось, что обученные преимущественно на англоязычных текстах модели будут лучше справляться с запросами на английском языке.
Июльский запуск в Yandex Cloud семейства моделей Qwen заставил пересмотреть этот подход в пользу прямой работы с китайскими текстами с помощью китайских моделей. Сейчас ведётся работа над подключением самой большой из доступных моделей — 235‑миллиардной Qwen3.
Вместе с поиском по внутренней новостной базе данных система выполняет параллельный веб‑поиск по китайским СМИ: собирает актуальные сообщения, переводит их, индексирует и передаёт на этап формирования ответа. Система хранит все тексты китайских СМИ, собранные во время обработки пользовательских запросов. Благодаря этому исследователи могут проводить семантический поиск в большом архиве новостей.
Прямая работа с первоисточниками принципиально меняет исследовательский процесс. Вместо англоязычных интерпретаций западных СМИ учёные получают доступ к материалам китайских источников, переведённым напрямую с китайского. Взаимодействие с исследователями происходит через русскоязычный интерфейс и запросы на русском языке.
Перечня авторитетных российских и международных научных журналов.
Запущенные системы и планы масштабирования
Система развёрнута и проходит пилотное тестирование. База знаний AI‑ассистента уже содержит более 1,5 млн документов по всем направлениям востоковедения. Система способна обрабатывать до 1000 источников в день, в то время как ранее исследователи успевали проанализировать вручную не более 8–10. В экспериментальной версии для анализа китайских СМИ используют несколько тысяч новостных текстов, но этого мало для промышленного использования.
Институт активно наращивает базу данных с целью тысячекратного увеличения. Главная задача на этот год — протестировать производительность и получить обратную связь от расширенной аудитории пользователей. Система тестирует автономное формирование русскоязычных ежедневных дайджестов по различным тематикам: от политики до экономики.
Перспективы развития
Институт планирует существенно расширить языковую поддержку системы. К китайскому добавят японский, арабский, персидский, иврит, турецкий, индонезийский, вьетнамский, корейский, монгольский и казахский. Это откроет исследователям доступ к первоисточникам из разных стран Азии, Ближнего Востока и Африки.
Важным этапом станет создание масштабного корпуса специализированной востоковедческой литературы. В него войдут научные монографии, статьи, сборники и первоисточники — десятки тысяч страниц академических текстов с метаданными и разметкой для обработки AI. Это позволит системе перейти от простых справок к глубокой аналитике. Исследователи получат аргументированные ответы со ссылками на источники и точными научными концепциями.
В долгосрочной перспективе институт видит переход к принципиально новым режимам взаимодействия исследователей и AI. Система будет заранее анализировать возможные направления научного поиска, помогая учёным сфокусироваться на перспективных гипотезах.
Опыт реализации проекта будет обобщён в академических публикациях этого года. Технологии Yandex Cloud и методология создания AI‑ассистента войдут в совместные статьи для рецензируемых журналов ВАК и изданий из «белого списка».
Новая модель научно-технологической коллаборации
Проект AI‑ассистента демонстрирует, как академическая наука может эффективно использовать современные облачные технологии. Десятилетия регионоведческой экспертизы Института востоковедения РАН превращаются в цифровой инструмент, доступ к которому расширяется по мере завершения тестирования.
«До недавнего времени учёные сталкивались с тем, что анализ материалов на оригинальных языках занимал много времени и ограничивал количество обрабатываемых источников. С помощью AI этот процесс ускоряется: время поиска и анализа сокращается в 6–8 раз — с нескольких часов до 10–15 минут на одну исследовательскую задачу. Это даёт исследователям возможность обрабатывать больше материалов ежедневно, проводить более глубокий анализ и получать полное представление о тенденциях в регионе».
«Это не единственный цифровой проект ИВ РАН, который выполняется в сотрудничестве с Яндексом. Ведётся работа по диагностическим методам в археологии на основе машинного обучения. Институт востоковедения РАН проходит масштабную цифровую трансформацию, в центре которой — системная интеграция AI-технологий для работы с первоисточниками. Партнёрство с Яндексом позволяет нам существенно расширить объём и глубину анализа материалов, сохраняя фундаментальность академического подхода. Это касается цифрового источниковедения, археологии, лингвистики, перевода с восточных языков. Издаётся специализированный журнал „Цифровое востоковедение“, освящающий цифровые методы в востоковедении и цифровую революцию в странах Востока».
Облачная архитектура на платформе Yandex Cloud обеспечивает надёжную работу системы. Она автоматически адаптируется к обновлениям базы данных и индексов, масштабируется под нагрузку и восстанавливается при сбоях. Это позволяет исследователям сосредоточиться на научной работе, а не на технической поддержке инфраструктуры.
В этом году институт тестирует систему на расширенной аудитории — учёных, аналитиках, журналистах, экспертах по Востоку. Первая независимая обратная связь поможет доработать систему под реальные потребности исследователей.
«Востоковедам особенно важно работать с первоисточниками — понимать язык, контекст и логику региона, о котором они пишут. Искусственный интеллект позволяет сделать это быстрее, точнее и глубже. Наша цель — чтобы технологии помогали учёным видеть больше и работать с данными, которые раньше были труднодоступны».
Технологическая ниша межъязыкового информационного поиска для русского и восточных языков пока остаётся свободной. Специализированное решение Института востоковедения РАН и Yandex Cloud закроет этот пробел.
Центр технологий для общества Yandex Cloud реализует социально значимые проекты в области образования и науки, здравоохранения, экологии и культуры. Если у вас есть похожие проекты, заполните заявку.



