Центр технологий для общества Yandex Cloud реализует социально значимые проекты в области образования и науки, здравоохранения, экологии и культуры. Если у вас есть похожие проекты, заполните заявку.

Как Библиотека им. Н. А. Некрасова оцифровывает культурное наследие с помощью Yandex Cloud
От десятков до тысяч оцифрованных сканов в день: так изменилась работа библиотеки с переходом в облако. Теперь она не только сохраняет фонды, но и экспериментирует с новыми форматами поиска и анализа данных.
- «Электронекрасовка» — цифровая платформа Библиотеки им. Н. А. Некрасова, которая оцифровывает бумажные фонды и делает их доступными через различные форматы: подкасты, игры, тесты и другие.
- Изначально библиотека сканировала материалы и публиковала их в PDF, но со временем возникла необходимость в масштабируемом решении из-за ограничения вычислительных ресурсов и места для хранения данных. Технологическим партнёром библиотеки стал Центр технологий для общества Yandex Cloud.
- С помощью облачных сервисов удалось автоматизировать процесс оцифровки материалов: от OCR, поворота и склейки страниц до публикации на сайте и создания библиографических записей.
- Процесс оцифровки и распознавания сканов ускорился в 20 раз: если раньше один скан обрабатывался за 11 минут, то теперь — за 25 секунд.
- Качество оцифрованных материалов улучшилось благодаря использованию Yandex Vision OCR.
- Библиотека разрабатывает систему автоматической сегментации газетных изданий, которая определяет заголовки и границы материалов, разделяя каждую газету на структурированные статьи.
- На базе технологии сегментации создаётся проект «Радио Электро» — система, превращающая архивные газеты в аудиоподкасты.
Бумажные фонды стареют быстрее, чем их успевают изучать: бумага со временем желтеет, чернила выцветают, а страницы могут разрушаться даже при правильном хранении. Цифровизация решает сразу две задачи:
- сохранность — зафиксировать то, что ещё не исчезло,
- доступность — из единичного экземпляра в фонде сделать ресурс для тысяч онлайн‑пользователей.
«Электронекрасовка»
Первые шаги в цифровизации были традиционными: библиотека сканировала материалы, собирала их в PDF и публиковала в каталоге. Со временем архив вырос, и стало ясно: собственные вычислительные ресурсы библиотеки ограничены, а места под хранение оцифрованных материалов требуется всё больше. Поэтому библиотека стала искать технологического партнёра. Им в 2024 году стал Центр технологий для общества Yandex Cloud, который помог превратить идею в работающий масштабируемый процесс.
Оптическое распознавание символов — технология, которая преобразует изображения текста, например отсканированные документы и PDF‑файлы, в машиночитаемый текстовый формат.
От резервных копий до конвейера оцифровки
Стартовый запрос был простым: создать пространство для хранения резервных данных. С появлением гранта на использование сервисов платформы стало понятно, что возможности шире: можно не ограничиваться хранением и вычислительными ресурсами, а развивать новые сценарии. Например, автоматизировать процесс оцифровки материалов: от OCR, поворота и склейки страниц и сборки материалов в PDF до публикации на сайте и создания библиографических записей, связанных с бумажным экземпляром. Главная цель — минимизировать ручной труд и свести участие человека только к этапу сканирования.

Контакт бюджетных культурных учреждений и бизнеса — это пример взаимовыгодного социального партнёрства на основе общих ценностей. Благодаря сотрудничеству с Yandex Cloud «Электронекрасовка» получила доступ к ресурсам и технологического партнёра для масштабирования, а мы смогли поддержать социально значимый проект по сохранению культурного наследия.
В итоге проект удалось реализовать с помощью облачных сервисов. Сегодня процесс распознавания новой ускоренной модели для «Электронекрасовки» устроен так:
-
Библиотека отбирает и сканирует издания для обработки. Основной массив — газеты, также дополнительно обрабатывают промышленную графику, этикетки, упаковку, открытки и другие печатные материалы.
-
С помощью нейросетей специалисты обрабатывают массивы сканов — поворачивают и склеивают, а страницы готовых комплектов сортируют по номерам. Обработанные сканы автоматически загружаются на сайт «Электронекрасовки».
-
Параллельно сканы загружаются в масштабируемое хранилище данных Yandex Object Storage.
-
Виртуальная машина обрабатывает файлы с помощью Yandex Vision OCR. Для распознавания образов, текста и сборки подготовлена специальная среда.
-
Результат с текстовыми образами загружается в систему «Электронекрасовки» и проходит ручную проверку: сотрудники выборочно просматривают материалы и оценивают их качество.

В итоге процесс оцифровки и распознавания сканов ускорился в 20 раз и «Электронекрасовка» распознала весь запланированный массив в 40 тыс. сканов в течение месяца. Это стало возможным благодаря доступным вычислительным мощностям на виртуальных машинах: если раньше библиотека один скан обрабатывала за 11 минут, теперь — за 25 секунд.

Качество оцифрованных материалов тоже выросло. Оптическое распознавание с помощью Yandex Vision OCR показало более точный результат по сравнению с внутренней моделью, которую библиотека когда‑то обучала на газетных шрифтах и старой периодике и использовала для оцифровки материалов. Систематических метрик пока нет, проверка ведётся выборочно, но даже по случайным выборкам видно: количество ошибок стало заметно меньше. Если раньше часто встречались нераспознанные буквы, искажения слов или элементы оформления, неверно считавшиеся буквами, то теперь таких проблем практически нет.

Реализация проекта заняла примерно полгода. Значительную часть времени заняла настройка распознавания в облачном сервисе и отработка операционных деталей — например, приходилось решать проблему, когда отдельные газеты не проходили по размеру. Само массовое распознавание заняло около двух месяцев.
Важно отметить, что для этого процесса облако не используется как «вечное хранилище». Архив не хранится в Yandex Object Storage постоянно — данные загружаются для обработки, а затем выгружаются обратно в каталог «Электронекрасовки». Это позволяет держать расходы под контролем и использовать ресурсы только тогда, когда они нужны.
Не только OCR: расширенные сценарии
Использование облачных сервисов стало для «Электронекрасовки» не только способом ускорить распознавание, но и шагом к более амбициозной задаче — превратить оцифрованные фонды в такой массив данных, с которым можно работать гораздо глубже: не просто искать слова в тексте, а находить факты, имена и события, связывать публикации по жанрам и контекстам, сопоставлять с другими источниками и даже визуализировать связи.
Сегментация газет
Библиотека разрабатывает систему, которая заменяет базовый OCR и выполняет автоматическую сегментацию газетных изданий. Она не только корректно распознаёт текст, но и определяет заголовки и границы отдельных материалов, разделяя каждую газету на структурированные статьи. Это важно, потому что без такой обработки издание остаётся сплошным текстом, в котором сложно искать и цитировать нужные фрагменты.
Автоматическая сегментация превращает архив в удобную коллекцию статей, по которой можно быстро находить авторов, темы и даты публикаций. Прототип уже протестирован: система использует связку Custom YOLO и Yandex Vision OCR для распознавания текстов, YandexGPT (входит в платформу Yandex AI Studio) и Sage‑T5 для коррекции и нормализации, а также набор правил для выделения логических блоков. Сейчас ведётся доработка для повышения стабильности и качества результатов.

«Радио Электро»
На базе этой технологии создаётся проект «Радио Электро» — система, превращающая архивные газеты в аудиоподкасты. Используя результаты сегментации, система автоматически разбивает тексты по событиям, суммаризирует их и озвучивает с помощью Yandex SpeechKit, превращая это в тематические радиопередачи.
Прототип был собран всего за десять дней, и сейчас команда развивает этот подход дальше. Проект реализован как фреймворк автоматической обработки данных, объединяющий результаты предыдущего этапа (OCR, нормализация, структурирование) и дополненный модулями тематической группировки материалов по смысловому сходству. На завершающем этапе подключается мультиагентная система, управляющая сборкой и озвучиванием тематических подборок, которые превращаются в аудиоэпизоды и формируют интеллектуальные радиоархивы исторических событий.
Извлечение сущностей
Просто распознать текст недостаточно — важно превратить его в данные. В этом библиотеке помогает система, которая выделяет имена, организации, события и географические объекты, а затем объединяет повторы. Так один и тот же человек или место не размножаются десятками упоминаний, а формируют связанный профиль.
Этот процесс тоже автоматизирован: используются YandexGPT для нормализации текста и канонизации названий, Yandex Serverless Containers для бессерверного запуска и оркестрации обработки, а также Yandex DataSphere — как среда для разработки, тестирования и отладки пайплайна. Благодаря этому формируется база людей, мест и событий, которая упрощает поиск, помогает находить связи и открывает возможности для новых сервисов.
Семантический поиск (RAG)
Следующий шаг — поиск не только по словам, но и по смыслу. Для этого создана поисковая система на базе Yandex Managed Service for OpenSearch с интеллектуальным ранжированием, фильтрацией и поддержкой нечётких запросов. Она понимает опечатки, выбор неправильной раскладки и позволяет искать как по заголовкам, так и по полным текстам, автоматически подстраиваясь под намерение пользователя. Система сопровождается автотестами с метриками качества и мониторингом производительности.
В планах команды — развитие гибридного подхода к поиску, где классический поиск дополнят семантическим анализом текстов на основе векторных эмбеддингов, а также внедрят интеллектуальное автодополнение и фильтры по авторам, темам и годам публикации.
В дальнейшем система получит возможность уточнения результатов в интерактивном режиме чат‑бота. Это позволит пользователям находить материалы, близкие по смыслу к запросу, и взаимодействовать с коллекцией в более естественной и удобной форме.
Мраморная бумага
Мраморная бумага — особая декоративная бумага для переплётов книг, которая используется уже несколько столетий. Узоры на ней создают вручную с помощью лотка со специальным жидким грунтом, красок с примесью желчи и различных инструментов. Мастер кистью разбрызгивает на грунт краски, которые благодаря желчи плавают на его поверхности. Затем красильщик выполняет узор, который далее переносится на бумагу путем накладывания листа на поверхность грунта. Получается уникальный отпечаток.
Существует множество разных узоров мраморной бумаги, которые характерны для того или иного исторического периода. Для исследователей и реставраторов важно различать такие узоры при описании книжного переплёта — это помогает датировать переплёт, облегчает общение хранителя или реставратора с мастером‑красильщиком.
Апробация терминов и сбор изображений узоров сейчас ведётся в онлайн‑справочнике «Определитель декоративной бумаги в книжном переплёте»
Классификация типов и узоров декоративной бумаги — непростая задача, специалистов и исследователей в этой сфере немного. И если есть возможность привлечь на помощь нейросеть, то это может облегчить работу исследователей. Чтобы автоматизировать процесс, библиотека собрала и обработала датасет, а затем обучила модель машинного обучения. Она уже умеет различать часть узоров мраморной бумаги — например, старинную пятнистую, рисунок по камню, итальянский узор, испанскую волну, тигровый глаз и другие. Для масштабного применения базу изображений предстоит расширить.

Значение для отрасли
В библиотечной сфере нет единого стандарта цифровизации, на который можно было бы ориентироваться. И проект «Электронекрасовка» фактически формирует такой пример для отрасли.
Сегодня библиотеки идут разными путями. Где‑то до сих пор работают с бумажными карточками, в то время как крупные федеральные игроки создают собственные IT‑отделы. Одни ограничиваются электронным каталогом, другие сканируют и выкладывают материалы без дополнительной обработки. Есть и те, кто строит полноценные электронные коллекции с системой классификации. Тем не менее, общая тенденция очевидна: фонды переводят в цифровой вид, чтобы сохранить их и сделать доступнее для пользователей.
Опыт показывает, что готовые решения редко бывают универсальными — почти всегда требуется адаптация под конкретную библиотеку. Но отдельные технологии, например системы извлечения сущностей, можно оформить как сервис и открыть для других учреждений через облако. Библиотека им. Н. А. Некрасова периодически выкладывает свои наработки в публичный доступ
«Для Библиотеки им. Н. А. Некрасова цифровизация — не только про скорость распознавания. Это путь от простого скана к интеллектуально насыщенному ресурсу, где текст связан с фактами, именами, жанрами и контекстами. Такой архив превращается из цифровой копии бумажного фонда в базу для исследований, поиска и новых форматов работы с культурным наследием».

