От бумажного архива к научной базе: как ИИ помогает изучать перинатальное здоровье

Послеродовая депрессия затрагивает до 20% матерей. Изучать её мешает хаос в архивах. Рассказываем, как Центр технологий для общества Yandex Cloud и студенты Школы анализа данных Яндекса превратили 14,5 тыс. историй болезни в базу для исследований.

Краткий пересказ YandexGPT
  • Послеродовая депрессия (ПРД) затрагивает от 13 до 20% только что родивших женщин и влияет на здоровье матери, развитие ребёнка и благополучие семьи.
  • Большая часть клинических данных в России хранится в бумажных архивах. Это затрудняет проведение масштабных исследований ПРД.
  • Научный центр психического здоровья (НЦПЗ) накопил тысячи историй болезни, которые хранятся в виде бумажных выписок, отсканированных PDF и фотографий страниц.
  • Проект направлен на превращение неструктурированного архива в единую базу данных для эпидемиологических исследований с соблюдением требований безопасности данных.
  • Госпитальные данные обеспечивают высокую достоверность диагностики, позволяют отслеживать динамику болезни и выявлять группы риска.
  • Пайплайн обработки данных включает распознавание текста с помощью Yandex Vision OCR, обезличивание данных, извлечение структуры с помощью YandexGPT, валидацию и сохранение данных.
  • Система ищет в базе случаи ПРД по ключевым словам и фразам, а затем проверяет их с помощью YandexGPT на соответствие диагностическим критериям (DSM-5 и МКБ-10).
  • На основе собранных данных планируют создать предиктивную скрининговую модель для выявления групп риска по ПРД.
  • Ранняя диагностика ПРД позволяет снизить вероятность повторного депрессивного эпизода и положительно влияет на здоровье ребёнка.
  • Подход, опробованный на данных НЦПЗ, можно масштабировать для других клиник и исследовательских центров с бумажными архивами.

Насколько масштабна проблема послеродовых депрессий

Послеродовая депрессия (ПРД) — одно из самых распространённых осложнений после родов. По разным оценкам, она затрагивает от 13 до 20% только что родивших женщин. ПРД влияет не только на здоровье матери, но и на развитие ребёнка и благополучие семьи. При этом расстройство часто остаётся недиагностированным: женщины не обращаются за помощью, а симптомы списываются на усталость и стресс.

Чтобы лучше понимать природу ПРД, нужны масштабные исследования — на больших выборках, с контрольными группами и анализом сопутствующих факторов. И здесь возникает проблема: большая часть клинических данных в России до сих пор хранится в бумажных архивах.

Бумажный архив: почему данные заперты

Научный центр психического здоровья (НЦПЗ) накопил тысячи историй болезни пациентов психиатрического стационара за 25 лет — это огромный массив клинической информации. Все эти данные хранятся в основном в виде бумажных выписок, в лучшем случае — отсканированных PDF и фотографий страниц, а иногда — разрозненных текстовых файлов.

Раньше исследователи работали с этим архивом вручную: просматривали выписки одну за другой, выписывали нужные поля в таблицы, искали случаи по ключевым словам. Такой подход медленный, неполный и подвержен ошибкам, к тому же врач в таблицу переносит только то, что знает и ищет, а неочевидные корреляции и закономерности остаются незамеченными. Массовый анализ тысяч записей при таком подходе попросту невозможен.

Команда проекта поставила задачу: превратить этот неструктурированный архив в единую базу данных, пригодную для эпидемиологических исследований. Требовались чёткая структура, разбивка по пациентам и десятки полей: диагноз, анамнез, в том числе гинекологический, лечение и многое другое. При этом ключевым требованием была безопасность данных: имена, даты рождения, адреса и другие персональные сведения не должны были попадать в облако.

Этот проект позволил сэкономить огромное количество времени и ресурсов, которые понадобились бы для ручной обработки архива. Наша цель — не только создать инструмент для оцифровки архива, но и сформировать первый в России госпитальный научно-исследовательский регистр, который систематизирует обезличенные данные о госпитализациях. Его значение для исследований трудно переоценить.
Андрей Шеянов
Сотрудник отдела клинической эпидемиологии Института общественного психического здоровья НЦПЗ

По словам эксперта, во-первых, госпитальные данные обеспечивают высокую достоверность диагностики. В отличие от амбулаторных карт или популяционных опросов, они основаны на многодневном наблюдении, клинических интервью и инструментальных методах. Диагноз в стационаре НЦПЗ верифицирует коллегиальная комиссия — для эпидемиолога это золотой стандарт при оценке распространённости тяжёлых заболеваний.

Во-вторых, регистр позволяет отслеживать динамику болезни: частоту повторных госпитализаций, длительность ремиссий, ответ на терапию. Связывая эти данные с демографическими и социальными характеристиками, мы выявляем группы риска — например, связь послеродовых депрессий с психическими расстройствами до беременности.

В-третьих, некоторые расстройства, такие как послеродовые психозы, встречаются с частотой менее 0,1%. В популяционных опросах они просто не попадают в выборки. Госпитальный регистр, накапливая случаи за годы, создаёт необходимую статистическую мощность для их анализа.

Международная классификация болезней, единый стандарт кодирования диагнозов, который используется в медицине по всему миру.

Международный стандарт диагностики психических расстройств, разработанный Американской психиатрической ассоциацией.

Путь от сканов в научную базу: как это работает

Пайплайн обработки состоит из нескольких этапов, каждый из которых решает свою задачу.

Распознавание текста: Yandex Vision OCR

На входе система получает отсканированные PDF или фотографии бумажных страниц в форматах JPG и HEIC. Сервис Yandex Vision OCR в составе Yandex AI Studio распознаёт текст с каждой страницы и объединяет результаты в единый текстовый документ. Это первый шаг: превратить изображение в машиночитаемый текст.

Медицинские документы — не самые простые объекты для OCR: рукописные вставки, печати, сложная вёрстка и медицинские сокращения. Кроме того, речь идёт о чувствительных персональных данных — все сведения о пациентах обезличиваются ещё до загрузки в облако.

Обезличивание происходит на стороне НЦПЗ: специальный скрипт находит и заменяет персональные сведения — имена и фамилии, даты рождения, адреса, номера полисов и телефоны — на обезличенные метки. В облако уходит уже очищенный текст, где модель не может «увидеть» личные данные. Каждой записи присваивается уникальный анонимный идентификатор, так что исследователи работают с историей пациента, не зная, кто за ним стоит.

Несмотря на дополнительный этап обезличивания и сложность медицинских документов, команда использовала стандартный сервис распознавания без дообучения и тонкой настройки — и он справился: точность составила около 99%, ни один файл не пришлось обрабатывать заново из-за ошибок OCR. Основные сложности возникли на следующем этапе — при извлечении структуры из распознанного текста.

Извлечение структуры: YandexGPT

Распознанный текст — это всё ещё сплошной поток слов без структуры. Здесь подключается YandexGPT в составе Yandex AI Studio: модель получает текст с системным промптом и возвращает структурированный JSON — отдельные записи по каждому пациенту с десятками полей.

Из одной выписки модель извлекает:

  • диагноз по МКБ-10;
  • структурированный анамнез — наследственность, детство, историю заболевания;
  • гинекологический анамнез — беременности, роды, послеродовый период;
  • схему лечения с дозировками;
  • психический статус.

Всего более 20 полей на каждую запись.

Важно, что модель не просто «читает» документ, — она понимает контекст. Если в выписке упоминается, что «после родов состояние ухудшилось», YandexGPT относит это к послеродовому периоду, а не к общему анамнезу заболевания. Длинный текст разбивают на части по заголовкам, обрабатывают по отдельности, а результаты объединяют.

Основные трудности возникли именно на этом этапе. Например, в большинстве документов дата рождения указывалась полностью — 01.01.1970, а в части выписок 2000-х годов встречалось сокращённое написание — например, «30г». Пришлось дорабатывать промпты и переобрабатывать такие файлы.

Валидация и сохранение

Извлечённые данные проходят несколько проверок перед тем, как попасть в базу. Система сверяет обязательные поля, приводит даты к единому формату и проверяет, не обрабатывался ли этот файл раньше (каждому документу присваивается уникальный хеш). Если модель вернула некорректный или неполный ответ, сырые данные сохраняются отдельно — к ним можно вернуться позже, доработав промпт или переобработав файл.

Поиск послеродовой депрессии

Когда база сформирована, система ищет в ней случаи послеродовой депрессии. Сначала по ключевым словам и фразам в текстах выписок: «послеродовая», «после родов», «постнатальная» и подобным. Это быстрый фильтр, который отсеивает заведомо неподходящие записи.

Затем отобранные случаи проверяет YandexGPT: модель сопоставляет описание состояния пациента с диагностическими критериями: международными классификациями DSM-5 и МКБ-10. Два уровня проверки помогают отсечь ложные совпадения: например, если слово «послеродовая» встречается в выписке, но речь идёт не о депрессии.

Предиктивная аналитика

Параллельно с оцифровкой в проекте развивается аналитическая часть. Выпускник Школы анализа данных Яндекса строит статистические модели: сравнивает женщин с послеродовой депрессией и без неё по ключевым параметрам — наследственность, эндокринная и гинекологическая патологии, возраст. На основе выявленных закономерностей команда планирует разработать прогностическую модель — инструмент для оценки групп риска среди пациенток.

Полноэкранное изображение

Что в результате

Полноэкранное изображение

Все данные в базе обезличены — система работает исключительно с анонимизированными записями без возможности идентификации пациентов

Этот проект — пример того, как нейросети и облачные технологии меняют подход к медицинским исследованиям:

  • Бумажные архивы превращаются в структурированную базу без ручного перелистывания тысяч страниц.
  • Автоматическое выявление указаний на ПРД помогает исследовать факторы риска, сопутствующие заболевания и особенности течения депрессии.
  • Структурированные данные создают основу для раннего выявления групп риска и планирования профилактики.
  • Исследователи могут сосредоточиться на анализе, а не на рутине.
Технология помогла ускорить формирование целевых групп и проверку гипотез, а также повысила точность внесения данных и снизила вероятность случайных ошибок. Это открывает перспективы для исследований широкого спектра серьёзных психических расстройств, включая шизофрению, биполярное расстройство, деменцию и тяжёлые формы аутизма.
Дмитрий Романов
Сотрудник отдела клинической эпидемиологии Института общественного психического здоровья НЦПЗ

Что даёт ранняя диагностика ПРД

Послеродовая депрессия — одно из тех расстройств, где раннее выявление кардинально меняет исход. Если женщина из группы риска получает помощь вовремя, вероятность повторного депрессивного эпизода снижается в разы. Современные методы лечения — от антидепрессантов, совместимых с грудным вскармливанием, до когнитивно-поведенческой терапии и новых таргетных препаратов — позволяют купировать симптомы не за месяцы, а за дни.

При этом нелеченая ПРД влияет не только на мать: исследования показывают, что у детей таких матерей страдают формирование привязанности, эмоциональная регуляция и когнитивное развитие. Раннее лечение матери — это инвестиция и в здоровье ребёнка.

Проблема в том, что для раннего вмешательства нужно сначала понять, кто в группе риска. Именно это делает госпитальный регистр: из 14,5 тыс. оцифрованных госпитализаций система выделила 232 пациентки с признаками ПРД. До оцифровки эта когорта не существовала как единая выборка — случаи были разбросаны по бумажным папкам за 25 лет. Теперь она доступна для анализа и может стать основой предиктивной скрининговой модели.

По данным международных исследований, такие модели уже достигают клинически применимой точности. Аналогичные проекты ведутся в США, Великобритании и других странах. Эта работа — первый российский госпитальный регистр с автоматизированной разметкой случаев ПРД, и она вписывается в общемировой тренд перехода от ручного скрининга к ИИ-поддержке.

Что дальше

На основе собранных данных команда планирует создать предиктивную скрининговую модель — инструмент, который поможет выявлять группы риска по послеродовой депрессии ещё до манифестации расстройства и вовремя начинать профилактику.

Кроме того, команда дорабатывает промпты для повышения качества извлечения, расширяет выборку и планирует переиспользовать пайплайн для других патологий — тот же подход можно применить к любым расстройствам, для которых накоплены бумажные архивы.

Подход, опробованный на данных НЦПЗ, можно масштабировать. Любая клиника или исследовательский центр с бумажным архивом может использовать ту же связку в Yandex AI Studio: Yandex Vision OCR и YandexGPT, чтобы превратить неструктурированные документы в рабочую базу для исследований или клинической практики. При этом не нужны ни собственная инфраструктура для машинного обучения, ни команда датасаентистов — сервисы доступны через API.

Центр технологий для общества Yandex Cloud реализует социально значимые проекты в области образования и науки, здравоохранения, экологии и культуры. Если у вас есть похожие проекты, заполните заявку.

От бумажного архива к научной базе: как ИИ помогает изучать перинатальное здоровье
Войдите, чтобы сохранить пост