Все данные в базе обезличены — система работает исключительно с анонимизированными записями без возможности идентификации пациентов

От бумажного архива к научной базе: как ИИ помогает изучать перинатальное здоровье
Послеродовая депрессия затрагивает до 20% матерей. Изучать её мешает хаос в архивах. Рассказываем, как Центр технологий для общества Yandex Cloud и студенты Школы анализа данных Яндекса превратили 14,5 тыс. историй болезни в базу для исследований.
- Послеродовая депрессия (ПРД) затрагивает от 13 до 20% только что родивших женщин и влияет на здоровье матери, развитие ребёнка и благополучие семьи.
- Большая часть клинических данных в России хранится в бумажных архивах. Это затрудняет проведение масштабных исследований ПРД.
- Научный центр психического здоровья (НЦПЗ) накопил тысячи историй болезни, которые хранятся в виде бумажных выписок, отсканированных PDF и фотографий страниц.
- Проект направлен на превращение неструктурированного архива в единую базу данных для эпидемиологических исследований с соблюдением требований безопасности данных.
- Госпитальные данные обеспечивают высокую достоверность диагностики, позволяют отслеживать динамику болезни и выявлять группы риска.
- Пайплайн обработки данных включает распознавание текста с помощью Yandex Vision OCR, обезличивание данных, извлечение структуры с помощью YandexGPT, валидацию и сохранение данных.
- Система ищет в базе случаи ПРД по ключевым словам и фразам, а затем проверяет их с помощью YandexGPT на соответствие диагностическим критериям (DSM-5 и МКБ-10).
- На основе собранных данных планируют создать предиктивную скрининговую модель для выявления групп риска по ПРД.
- Ранняя диагностика ПРД позволяет снизить вероятность повторного депрессивного эпизода и положительно влияет на здоровье ребёнка.
- Подход, опробованный на данных НЦПЗ, можно масштабировать для других клиник и исследовательских центров с бумажными архивами.
Насколько масштабна проблема послеродовых депрессий
Послеродовая депрессия (ПРД) — одно из самых распространённых осложнений после родов. По разным оценкам, она затрагивает
Чтобы лучше понимать природу ПРД, нужны масштабные исследования — на больших выборках, с контрольными группами и анализом сопутствующих факторов. И здесь возникает проблема: большая часть клинических данных в России до сих пор хранится в бумажных архивах.
Бумажный архив: почему данные заперты
Научный центр психического здоровья (НЦПЗ) накопил тысячи историй болезни пациентов психиатрического стационара за 25 лет — это огромный массив клинической информации. Все эти данные хранятся в основном в виде бумажных выписок, в лучшем случае — отсканированных PDF и фотографий страниц, а иногда — разрозненных текстовых файлов.
Раньше исследователи работали с этим архивом вручную: просматривали выписки одну за другой, выписывали нужные поля в таблицы, искали случаи по ключевым словам. Такой подход медленный, неполный и подвержен ошибкам, к тому же врач в таблицу переносит только то, что знает и ищет, а неочевидные корреляции и закономерности остаются незамеченными. Массовый анализ тысяч записей при таком подходе попросту невозможен.
Команда проекта поставила задачу: превратить этот неструктурированный архив в единую базу данных, пригодную для эпидемиологических исследований. Требовались чёткая структура, разбивка по пациентам и десятки полей: диагноз, анамнез, в том числе гинекологический, лечение и многое другое. При этом ключевым требованием была безопасность данных: имена, даты рождения, адреса и другие персональные сведения не должны были попадать в облако.
По словам эксперта, во-первых, госпитальные данные обеспечивают высокую достоверность диагностики. В отличие от амбулаторных карт или популяционных опросов, они основаны на многодневном наблюдении, клинических интервью и инструментальных методах. Диагноз в стационаре НЦПЗ верифицирует коллегиальная комиссия — для эпидемиолога это золотой стандарт при оценке распространённости тяжёлых заболеваний.
Во-вторых, регистр позволяет отслеживать динамику болезни: частоту повторных госпитализаций, длительность ремиссий, ответ на терапию. Связывая эти данные с демографическими и социальными характеристиками, мы выявляем группы риска — например, связь послеродовых депрессий с психическими расстройствами до беременности.
В-третьих, некоторые расстройства, такие как послеродовые психозы, встречаются с частотой менее 0,1%. В популяционных опросах они просто не попадают в выборки. Госпитальный регистр, накапливая случаи за годы, создаёт необходимую статистическую мощность для их анализа.
Международная классификация болезней, единый стандарт кодирования диагнозов, который используется в медицине по всему миру.
Международный стандарт диагностики психических расстройств, разработанный Американской психиатрической ассоциацией.
Путь от сканов в научную базу: как это работает
Пайплайн обработки состоит из нескольких этапов, каждый из которых решает свою задачу.
Распознавание текста: Yandex Vision OCR
На входе система получает отсканированные PDF или фотографии бумажных страниц в форматах JPG и HEIC. Сервис Yandex Vision OCR в составе Yandex AI Studio
Медицинские документы — не самые простые объекты для OCR: рукописные вставки, печати, сложная вёрстка и медицинские сокращения. Кроме того, речь идёт о чувствительных персональных данных — все сведения о пациентах обезличиваются ещё до загрузки в облако.
Обезличивание происходит на стороне НЦПЗ: специальный скрипт находит и заменяет персональные сведения — имена и фамилии, даты рождения, адреса, номера полисов и телефоны — на обезличенные метки. В облако уходит уже очищенный текст, где модель не может «увидеть» личные данные. Каждой записи присваивается уникальный анонимный идентификатор, так что исследователи работают с историей пациента, не зная, кто за ним стоит.
Несмотря на дополнительный этап обезличивания и сложность медицинских документов, команда использовала стандартный сервис распознавания без дообучения и тонкой настройки — и он справился: точность составила около 99%, ни один файл не пришлось обрабатывать заново из-за ошибок OCR. Основные сложности возникли на следующем этапе — при извлечении структуры из распознанного текста.
Извлечение структуры: YandexGPT
Распознанный текст — это всё ещё сплошной поток слов без структуры. Здесь подключается YandexGPT в составе Yandex AI Studio: модель получает текст с системным промптом и возвращает структурированный JSON — отдельные записи по каждому пациенту с десятками полей.
Из одной выписки модель извлекает:
- диагноз по МКБ-10;
- структурированный анамнез — наследственность, детство, историю заболевания;
- гинекологический анамнез — беременности, роды, послеродовый период;
- схему лечения с дозировками;
- психический статус.
Всего более 20 полей на каждую запись.
Важно, что модель не просто «читает» документ, — она понимает контекст. Если в выписке упоминается, что «после родов состояние ухудшилось», YandexGPT относит это к послеродовому периоду, а не к общему анамнезу заболевания. Длинный текст разбивают на части по заголовкам, обрабатывают по отдельности, а результаты объединяют.
Основные трудности возникли именно на этом этапе. Например, в большинстве документов дата рождения указывалась полностью — 01.01.1970, а в части выписок 2000-х годов встречалось сокращённое написание — например, «30г». Пришлось дорабатывать промпты и переобрабатывать такие файлы.
Валидация и сохранение
Извлечённые данные проходят несколько проверок перед тем, как попасть в базу. Система сверяет обязательные поля, приводит даты к единому формату и проверяет, не обрабатывался ли этот файл раньше (каждому документу присваивается уникальный хеш). Если модель вернула некорректный или неполный ответ, сырые данные сохраняются отдельно — к ним можно вернуться позже, доработав промпт или переобработав файл.
Поиск послеродовой депрессии
Когда база сформирована, система ищет в ней случаи послеродовой депрессии. Сначала по ключевым словам и фразам в текстах выписок: «послеродовая», «после родов», «постнатальная» и подобным. Это быстрый фильтр, который отсеивает заведомо неподходящие записи.
Затем отобранные случаи проверяет YandexGPT: модель сопоставляет описание состояния пациента с диагностическими критериями: международными классификациями DSM-5 и МКБ-10. Два уровня проверки помогают отсечь ложные совпадения: например, если слово «послеродовая» встречается в выписке, но речь идёт не о депрессии.
Предиктивная аналитика
Параллельно с оцифровкой в проекте развивается аналитическая часть. Выпускник Школы анализа данных Яндекса строит статистические модели: сравнивает женщин с послеродовой депрессией и без неё по ключевым параметрам — наследственность, эндокринная и гинекологическая патологии, возраст. На основе выявленных закономерностей команда планирует разработать прогностическую модель — инструмент для оценки групп риска среди пациенток.

Что в результате

Этот проект — пример того, как нейросети и облачные технологии меняют подход к медицинским исследованиям:
- Бумажные архивы превращаются в структурированную базу без ручного перелистывания тысяч страниц.
- Автоматическое выявление указаний на ПРД помогает исследовать факторы риска, сопутствующие заболевания и особенности течения депрессии.
- Структурированные данные создают основу для раннего выявления групп риска и планирования профилактики.
- Исследователи могут сосредоточиться на анализе, а не на рутине.
Что даёт ранняя диагностика ПРД
Послеродовая депрессия — одно из тех расстройств, где раннее выявление кардинально меняет исход. Если женщина из группы риска получает помощь вовремя, вероятность повторного депрессивного эпизода снижается в разы. Современные методы лечения — от антидепрессантов, совместимых с грудным вскармливанием, до когнитивно-поведенческой терапии и новых таргетных препаратов — позволяют купировать симптомы не за месяцы, а за дни.
При этом нелеченая ПРД влияет не только на мать: исследования показывают, что у детей таких матерей страдают формирование привязанности, эмоциональная регуляция и когнитивное развитие. Раннее лечение матери — это инвестиция и в здоровье ребёнка.
Проблема в том, что для раннего вмешательства нужно сначала понять, кто в группе риска. Именно это делает госпитальный регистр: из 14,5 тыс. оцифрованных госпитализаций система выделила 232 пациентки с признаками ПРД. До оцифровки эта когорта не существовала как единая выборка — случаи были разбросаны по бумажным папкам за 25 лет. Теперь она доступна для анализа и может стать основой предиктивной скрининговой модели.
По данным международных исследований, такие модели уже достигают клинически применимой точности. Аналогичные проекты ведутся в США, Великобритании и других странах. Эта работа — первый российский госпитальный регистр с автоматизированной разметкой случаев ПРД, и она вписывается в общемировой тренд перехода от ручного скрининга к ИИ-поддержке.
Что дальше
На основе собранных данных команда планирует создать предиктивную скрининговую модель — инструмент, который поможет выявлять группы риска по послеродовой депрессии ещё до манифестации расстройства и вовремя начинать профилактику.
Кроме того, команда дорабатывает промпты для повышения качества извлечения, расширяет выборку и планирует переиспользовать пайплайн для других патологий — тот же подход можно применить к любым расстройствам, для которых накоплены бумажные архивы.
Подход, опробованный на данных НЦПЗ, можно масштабировать. Любая клиника или исследовательский центр с бумажным архивом может использовать ту же связку в Yandex AI Studio
Центр технологий для общества Yandex Cloud реализует социально значимые проекты в области образования и науки, здравоохранения, экологии и культуры. Если у вас есть похожие проекты, заполните заявку.


