Цифровое востоковедение: как ИВ РАН с Yandex Cloud открывает доступ к первоисточникам

Институт востоковедения РАН и Yandex Cloud создали AI‑ассистента для работы с научными данными и платформу мониторинга китайских СМИ. Эти решения на базе AI ускоряют анализ первоисточников для исследователей в 6–8 раз.

Краткий пересказ YandexGPT
  • У российских исследователей и бизнеса практически нет доступа к первоисточникам по востоковедению, например к китайской внутренней электронной периодике.
  • Институт востоковедения РАН разработал две системы на платформе Yandex Cloud: AI-ассистента для работы с востоковедческой информацией и систему межъязыкового информационного поиска для мониторинга китайских СМИ.
  • AI-ассистент анализирует академические труды института и предоставляет проверенные данные о странах Азии, Африки и Ближнего Востока в трёх ключевых областях: история, культура и торгово-экономическое сотрудничество.
  • Система межъязыкового информационного поиска переводит и анализирует тысячи новостей, формируя ежедневные дайджесты по ключевым темам.
  • В основе систем — RAG-архитектура, которая позволяет языковой модели генерировать ответы на основе информации из дополнительных источников, найденных по запросу.
  • Для хранения и поиска информации используются векторные базы данных ChromaDB и Qdrant.
  • AI-ассистент использует модель FRED-T5-Summarizer для суммаризации текстов и YandexGPT для формирования финальных ответов.
  • Система развёрнута на платформе Yandex Cloud и спроектирована с учётом современных DevOps-практик.
  • Сейчас система проходит пилотное тестирование, база знаний AI-ассистента содержит более 1,5 млн документов.
  • Институт планирует расширить языковую поддержку системы, добавив японский, арабский, персидский и другие языки.
Тезисы сформулированыYandexGPT
Спасибо!

Работа с восточными рынками требует глубокого понимания контекста, языков и исторических связей. Но у российских исследователей и бизнеса практически нет доступа к первоисточникам — например, китайская внутренняя электронная периодика мало используется в научных и аналитических работах. Большинство информации приходит через англоязычные источники, что может искажать реальную картину событий.

Институт востоковедения РАН решает эту проблему с помощью двух разработок на платформе Yandex Cloud:

  • Первая — AI‑ассистент для работы с востоковедческой информацией. Система анализирует академические труды института и предоставляет проверенные данные о странах Азии, Африки и Ближнего Востока. Фокус на трёх ключевых областях: история, культура и торгово‑экономическое сотрудничество.
  • Вторая — система межъязыкового информационного поиска для мониторинга китайских СМИ. Она переводит и анализирует тысячи новостей, формируя ежедневные дайджесты по ключевым темам.

В статье рассказываем о разработке обоих решений.

Барьеры доступа к восточным источникам

СМИ Азии, Ближнего Востока и Африки публикуют тысячи статей каждый день. Это огромный массив информации, который труднодоступен для русскоязычных востоковедов, несмотря на владение ими восточными языками. Главные препятствия — языковой барьер и нехватка инструментов для сбора и анализа больших объёмов данных.

Русскоязычный доступ к текстовому корпусу на другом языке — это задача кросс‑языкового информационного поиска. Разработкой в этой области занимаются уже много десятилетий. Долгое время основным решением было свести задачу к уже решённой, то есть к одноязычному поиску с помощью машинного перевода.

Для этого переводят либо пользовательские запросы на язык корпуса, либо весь корпус на язык пользователя. Генеративные модели и методы построения мультиязычных векторных моделей открыли новые возможности для таких задач.

RAG‑архитектура для востоковедческих исследований

Институт востоковедения РАН разработал на основе технологий Yandex Cloud две информационные системы с однотипной архитектурой. Первая обеспечивает поиск по электронным СМИ на китайском языке, вторая — предоставляет исследователям‑востоковедам AI‑ассистента.

В разработке системы поиска по китайским СМИ участвовали сотрудники Лаборатории цифровых исследований современного Востока ИВ РАН и Института Китая и современной Азии РАН. Технической реализацией занимались стажёры Яндекса — студенты московских вузов (ВМК МГУ, ВШЭ), которые обучаются по специальности машинного обучения. На всех этапах сотрудники Yandex Cloud оказывали им техническую поддержку и продолжают консультировать по применению облачных инструментов.

Обе системы разработаны как облачные и работают с использованием больших языковых моделей платформы Yandex Cloud. В их основе — RAG‑архитектура.

RAG — широко распространённая и хорошо себя зарекомендовавшая технология. В ней языковая модель генерирует ответы на основе информации не только из самой генеративной сети, но и из дополнительных источников, найденных по запросу.

Задача AI‑ассистента — превратить десятилетия накопленной экспертизы института в удобный цифровой инструмент. Система состоит из трёх ключевых компонентов. Векторизация данных и запросов обеспечивает семантический поиск — это позволяет преодолеть ограничения поиска по ключевым словам. Языковая модель FRED‑T5‑Summarizer сжимает длинные тексты в краткие выжимки, а YandexGPT (входит в состав Yandex AI Studio) формирует финальные ответы.

Благодаря такой архитектуре система анализирует информацию в контексте научной базы института. Главная информационная составляющая системы — специализированный корпус данных, собранный на основе исследований и публикаций института. База знаний охватывает шесть ключевых направлений:

  • история Востока — от древних цивилизаций до современности;
  • культура — обычаи, традиции, фольклор, искусство, литература;
  • экономика и общество стран Азии и Африки;
  • международные отношения в регионе;
  • языки и письменности Востока;
  • научная жизнь института — конференции, публикации, исследования.

Технологическая архитектура системы

Архитектура разработанных систем построена на современном стеке технологий. Бэкенд реализован на библиотеке FastAPI для создания быстрых веб‑API на Python. Он обеспечивает работу бэкенд‑микросервиса поиска, который обрабатывает запросы исследователей и взаимодействует с базой знаний.

Для хранения и поиска информации использовали ChromaDB и Qdrant — векторные базы данных, позволяющие искать тексты по смысловому сходству. В текущей версии для векторизации применили несколько мультиязычных моделей. В итоге выбрали ту, которая показала в эксплуатации лучшие результаты.

В AI‑ассистенте параллельно используется облачный интерфейс AI Assistant API с гибридной индексацией по эмбеддингам и ключевым словам. Гибридный подход к поиску стал ключевой особенностью архитектуры. Он объединяет векторный поиск (по смыслу) и лексический поиск с лемматизацией (по точному совпадению терминов). Комбинация методов существенно повышает точность: система находит и семантически близкие тексты, и документы с нужными формулировками.

YandexGPT генерирует финальные ответы на основе найденной информации. Интеграция с Yandex Cloud ML SDK позволяет эффективно управлять ресурсами и автоматически масштабировать систему при росте нагрузки.

Кроме того, интеграция даёт возможность использовать готовый стек объектов. Они отвечают за организацию диалога с пользователем: от файлового хранилища и его индекса до тредов.

Особую роль играет FRED‑T5‑Summarizer — модель для суммаризации русских текстов с около 1,74 млрд параметров. Она сжимает объёмные научные тексты в краткие выжимки по 40–60 токенов. Это критически важно для обработки длинных академических материалов и объединения результатов поиска в связный ответ.

DevOps и инфраструктура проекта

Система развёрнута на платформе Yandex Cloud. В облаке работают две виртуальные машины — одна для базы данных, другая для веб‑сервиса. Компоненты системы изолированы в Docker®‑контейнерах. Фронтенд и бэкенд на Python запущены в отдельных контейнерах.

Архитектура спроектирована с учётом современных DevOps‑практик. Обновление конфигураций максимально упрощено — достаточно изменить JSON‑файлы без правки кода. Модели и поисковые индексы обновляются таким же способом. Ключи доступа и идентификаторы хранятся отдельно от кода для безопасности. Централизованное логирование упрощает отладку и мониторинг работы системы.

Такая архитектура позволяет исследователям института сосредоточиться на научной работе, а не на технической поддержке инфраструктуры. Система автоматически адаптируется к изменениям нагрузки и обновлениям базы знаний.

Работа с китайскими источниками

Обработка публикаций в китайских СМИ требует специального подхода. Система анализирует четыре варианта китайского языка — континентальный, тайваньский, гонконгский и сингапурский. В первой версии система перед индексацией переводила тексты с китайского на английский через Yandex Translate, аналогичным образом обрабатывались и пользовательские запросы. Так решили, поскольку предполагалось, что обученные преимущественно на англоязычных текстах модели будут лучше справляться с запросами на английском языке.

Июльский запуск в Yandex Cloud семейства моделей Qwen заставил пересмотреть этот подход в пользу прямой работы с китайскими текстами с помощью китайских моделей. Сейчас ведётся работа над подключением самой большой из доступных моделей — 235‑миллиардной Qwen3.

Вместе с поиском по внутренней новостной базе данных система выполняет параллельный веб‑поиск по китайским СМИ: собирает актуальные сообщения, переводит их, индексирует и передаёт на этап формирования ответа. Система хранит все тексты китайских СМИ, собранные во время обработки пользовательских запросов. Благодаря этому исследователи могут проводить семантический поиск в большом архиве новостей.

Прямая работа с первоисточниками принципиально меняет исследовательский процесс. Вместо англоязычных интерпретаций западных СМИ учёные получают доступ к материалам китайских источников, переведённым напрямую с китайского. Взаимодействие с исследователями происходит через русскоязычный интерфейс и запросы на русском языке.

Перечня авторитетных российских и международных научных журналов.

Запущенные системы и планы масштабирования

Система развёрнута и проходит пилотное тестирование. База знаний AI‑ассистента уже содержит более 1,5 млн документов по всем направлениям востоковедения. Система способна обрабатывать до 1000 источников в день, в то время как ранее исследователи успевали проанализировать вручную не более 8–10. В экспериментальной версии для анализа китайских СМИ используют несколько тысяч новостных текстов, но этого мало для промышленного использования.

Институт активно наращивает базу данных с целью тысячекратного увеличения. Главная задача на этот год — протестировать производительность и получить обратную связь от расширенной аудитории пользователей. Система тестирует автономное формирование русскоязычных ежедневных дайджестов по различным тематикам: от политики до экономики.

Перспективы развития

Институт планирует существенно расширить языковую поддержку системы. К китайскому добавят японский, арабский, персидский, иврит, турецкий, индонезийский, вьетнамский, корейский, монгольский и казахский. Это откроет исследователям доступ к первоисточникам из разных стран Азии, Ближнего Востока и Африки.

Важным этапом станет создание масштабного корпуса специализированной востоковедческой литературы. В него войдут научные монографии, статьи, сборники и первоисточники — десятки тысяч страниц академических текстов с метаданными и разметкой для обработки AI. Это позволит системе перейти от простых справок к глубокой аналитике. Исследователи получат аргументированные ответы со ссылками на источники и точными научными концепциями.

В долгосрочной перспективе институт видит переход к принципиально новым режимам взаимодействия исследователей и AI. Система будет заранее анализировать возможные направления научного поиска, помогая учёным сфокусироваться на перспективных гипотезах.

Опыт реализации проекта будет обобщён в академических публикациях этого года. Технологии Yandex Cloud и методология создания AI‑ассистента войдут в совместные статьи для рецензируемых журналов ВАК и изданий из «белого списка».

Новая модель научно-технологической коллаборации

Проект AI‑ассистента демонстрирует, как академическая наука может эффективно использовать современные облачные технологии. Десятилетия регионоведческой экспертизы Института востоковедения РАН превращаются в цифровой инструмент, доступ к которому расширяется по мере завершения тестирования.

«До недавнего времени учёные сталкивались с тем, что анализ материалов на оригинальных языках занимал много времени и ограничивал количество обрабатываемых источников. С помощью AI этот процесс ускоряется: время поиска и анализа сокращается в 6–8 раз — с нескольких часов до 10–15 минут на одну исследовательскую задачу. Это даёт исследователям возможность обрабатывать больше материалов ежедневно, проводить более глубокий анализ и получать полное представление о тенденциях в регионе».

author
Александр Костыркин
Старший научный сотрудник Лаборатории цифровых исследований современного Востока, ИВ РАН

«Это не единственный цифровой проект ИВ РАН, который выполняется в сотрудничестве с Яндексом. Ведётся работа по диагностическим методам в археологии на основе машинного обучения. Институт востоковедения РАН проходит масштабную цифровую трансформацию, в центре которой — системная интеграция AI-технологий для работы с первоисточниками. Партнёрство с Яндексом позволяет нам существенно расширить объём и глубину анализа материалов, сохраняя фундаментальность академического подхода. Это касается цифрового источниковедения, археологии, лингвистики, перевода с восточных языков. Издаётся специализированный журнал „Цифровое востоковедение“, освящающий цифровые методы в востоковедении и цифровую революцию в странах Востока».

Облачная архитектура на платформе Yandex Cloud обеспечивает надёжную работу системы. Она автоматически адаптируется к обновлениям базы данных и индексов, масштабируется под нагрузку и восстанавливается при сбоях. Это позволяет исследователям сосредоточиться на научной работе, а не на технической поддержке инфраструктуры.

В этом году институт тестирует систему на расширенной аудитории — учёных, аналитиках, журналистах, экспертах по Востоку. Первая независимая обратная связь поможет доработать систему под реальные потребности исследователей.

author
Аликбер Аликберов
Директор Института востоковедения РАН, доктор исторических наук

«Востоковедам особенно важно работать с первоисточниками — понимать язык, контекст и логику региона, о котором они пишут. Искусственный интеллект позволяет сделать это быстрее, точнее и глубже. Наша цель — чтобы технологии помогали учёным видеть больше и работать с данными, которые раньше были труднодоступны».

Технологическая ниша межъязыкового информационного поиска для русского и восточных языков пока остаётся свободной. Специализированное решение Института востоковедения РАН и Yandex Cloud закроет этот пробел.

Центр технологий для общества Yandex Cloud реализует социально значимые проекты в области образования и науки, здравоохранения, экологии и культуры. Если у вас есть похожие проекты, заполните заявку.

author
Анна Лемякина
Директор по национальным и стратегическим проектам Yandex Cloud
Цифровое востоковедение: как ИВ РАН с Yandex Cloud открывает доступ к первоисточникам
Войдите, чтобы сохранить пост