О чём история

«ТестГен» занимается разработкой и производством тест‑систем для лабораторной диагностики. Компания разработала биоинформационную систему XplainBio, которая автоматически обрабатывает данные с секвенатора, интерпретирует результаты анализа и выдаёт готовый отчёт. Использование сервисов Yandex Cloud обеспечило надёжное хранение и высокую скорость обработки информации: до 3000 образцов в сутки. В моменты пиковой нагрузки XplainBio использует до 200 виртуальных машин и до 3600 процессоров одновременно.

Задача компании

«ТестГен» — один из лидеров на рынке реагентов и тест‑систем для молекулярно‑генетических анализов. Например, наборы для диагностики в онкологии используют порядка 80% онкологических диспансеров России для выбора оптимальной схемы лечения пациентов и выявления наследственной предрасположенности к онкозаболеваниям. Причиной развития опухолей являются генетические мутации. Для определения мутаций в генах всё чаще применяется метод массового параллельного анализа ДНК — секвенирование нового поколения (NGS). Этот метод позволяет одновременно проанализировать сотни миллионов молекул ДНК и определить все мутации в генах, включая те, которые ранее не были известны. Для клинических целей обычно достаточно данных, полученных в результате прочтения отдельных генов и экзома. Экзом — 1,3% генома, но 85% всех мутаций, связанных с болезнями, — это мутации в экзоме.

Метод NGS предполагает комплексный анализ больших массивов данных. Биомедицинские данные, полученные в результате секвенирования, — это терабайты информации. Для хранения и массовой параллельной обработки данных (структурирования, анализа и визуализации) используются специальные биоинформационные платформы, требующие значительного объёма вычислительных ресурсов. Всего один институт Броуда (MIT, США) генерирует 20 ТБ данных в день. Прогнозируют, что к 2024 г. объём хранимых геномных данных в мире превысит объёмы данных Twitter, YouTube и некоторых других крупных социальных сетей вместе взятых.

Один из флагманских продуктов компании «ТестГен» — набор для секвенирования NGS, который предназначен для определения мутаций в генах BRCA½. Мутации в этих генах связаны с развитием онкологических заболеваний. Обработку данных в лаборатории обычно проводит специалист‑биоинформатик, но такой ручной подход затрудняет масштабирование и снижает доступность востребованной методики. Поэтому интерпретация результатов анализа происходит на собственной биоинформационной платформе XplainBio. Она адаптирована под любые панели генов и позволяет анализировать как конкретные области генома или отдельные гены (таргетное секвенирование), так и экзомы. XplainBio уменьшает влияние человеческого фактора, автоматически распознаёт мутации, которые были обнаружены ранее, и определяет, какие из них являются патогенными. Одновременно используются три алгоритма поиска, что позволяет значительно снизить количество ложноположительных результатов.

Основной проблемой в работе XplainBio являются требования к вычислительным ресурсам: на обработку одного образца в зависимости от его размера требуется от 8 до 96 CPU и от 32 до 256 ГБ RAM. При небольшом количестве анализов возможна последовательная работа на локальном сервере. Но когда их число превышает десятки и сотни, то время становится недопустимым для применения в практической медицине и требуется использование специальных методов для ускорения процесса. Существует всего два варианта решения проблемы: более быстрые, но менее точные алгоритмы или аренда необходимого количества серверов у облачного провайдера. Строительство собственного дата‑центра для большинства медицинских учреждений — утопичная идея, особенно при условии довольно специфичного профиля нагрузки, когда 100% мощности требуются 1‑2 раза в неделю на несколько часов.

В 2017 году отечественные облачные решения ещё не предоставляли необходимого уровня технологий, поэтому на тот момент выбор был сделан в пользу Google Cloud. Но во время разработки и тестовой эксплуатации системы команда «ТестГен» внимательно следила за развитием российских облачных систем. Необходимость переезда диктовалась изменениями законодательства в области обработки персональных данных.

При выборе облака компания «ТестГен» учитывала ряд факторов:

  • Масштабируемость. Получение большого количества ресурсов на небольшой период реального использования обеспечивает низкую стоимость обработки информации.
  • Мощность виртуальных машин. Высокая скорость обработки сырых данных и интерпретации результатов секвенирования возможна благодаря большому количеству серверов.
  • Надёжность и отказоустойчивость. Для быстрой обработки данных важно не зависеть от неполадок конкретного сервера или оборудования.
  • Соблюдение 152‑ФЗ. Любые результаты генетических исследований, даже обезличенные, являются персональными данными. В соответствии с требованиями законодательства России трансграничная передача такой информации без специального разрешения запрещена.
  • Возможность поддержки разных источников данных. XplainBio использует международные базы данных генетических вариантов и более 80 различных источников информации для максимально полного описания генов и мутаций.

В 2020 году в результате анализа рынка компания «ТестГен» выбрала Yandex Cloud. Платформа получила аттестат соответствия ИСПДн требованиям безопасности информации и персональных данных, а также выполняет все требования 152‑ФЗ (уровень защищенности персональных данных УЗ‑1), постановления правительства № 1119 и Приказа ФСТЭК № 21. Также облако предоставляет мощные виртуальные машины: до 96 vCPU и до 576 ГБ RAM. Это позволяет хранить огромные массивы данных и быстро их обрабатывать.

Как развернули XplainBio

Этапы обработки геномных данных предъявляют разные требования к вычислительной платформе:

  • на начальных шагах важны CPU — от их количества линейно зависит скорость вычислений;
  • на этапах сортировки — RAM;
  • при сборке финальной структуры данных — высокопроизводительная аналитическая база данных. Она должна быстро агрегировать более 80 источников общим размером 10 ТБ в итоговую таблицу, которая содержит около 15 млн строк и 900 столбцов с различными типами данных. В Google Cloud с этим справлялась BigQuery, в Yandex Cloud рассматривался сервис Yandex Managed Service for ClickHouse®.

В Yandex Compute Cloud были выделены квоты по CPU в том же размере, что и у Google Cloud, — 3600 процессорных ядер. Это позволило к 2022 году перенести практически все вычисления на новую облачную платформу. Но переезд самого ответственного этапа — сборки финальной структуры данных — затягивался из‑за опасений столкнуться с проблемами несовместимости диалектов SQL, отсутствия или неполной реализации части функций, а также потенциальной неэквивалентности итоговых результатов на двух платформах.

Однако эта проблема решилась за два дня: в шести сотнях строк SQL‑запроса пришлось поменять только названия нескольких функций, оставив всю остальную структуру и логику без изменений, включая сложные оконные функции. Yandex Managed Service for ClickHouse выполнял запрос абсолютно идентично BigQuery, а в некоторых случаях ещё и быстрее. После окончательной миграции XplainBio стала платформой, где все этапы хранения и обработки данных происходят исключительно внутри российских ЦОД. При этом не пришлось жертвовать скоростью или точностью анализа.

Сейчас XplainBio позволяет анализировать до 3000 таргетных панелей или 300 экзомов в сутки, при этом на обработку одного экзома тратится около 2‑3 часов на одном сервере. В моменты пиковой нагрузки система XplainBio использует до 200 виртуальных машин Yandex Cloud и до 3600 процессоров одновременно.

В ТОП‑50 клиентов Yandex Cloud

На платформе Yandex Cloud была создана облачная универсальная биоинформационная платформа XplainBio, адаптированная не только под продукты самого «ТестГена», но и под любые панели генов и экзомы/геномы. XplainBio активно используется уже в нескольких медицинских учреждениях, включая НИИ пульмонологии ФМБА России, Федеральный научно‑клинический центр ФМБА России, ФГАУ «НМИЦ здоровья детей» и др. Использование облачной платформы XplainBio способствует экономии ресурсов научных и медицинских учреждений. Не требуется покупать высокопроизводительное оборудование, привлекать биоинформатиков для интерпретации результатов NGS‑анализов и нанимать специалистов для обслуживания локальной системы.

По объёму используемых ресурсов «ТестГен» входит в топ‑50 из более чем 30 000 клиентов Yandex Cloud. С помощью облачных мощностей обработано более 50 000 образцов.

Надёжность и отказоустойчивость системы были проверены в результате неожиданно возникшей задачи по анализу полных геномов SARS‑CoV‑2 в рамках эпидемиологического мониторинга новых штаммов. Платформа легко справилась с требуемой скоростью анализа в 1536 образцов в сутки, подтвердив правильность заложенных архитектурных решений.

Мнение

Алексей Никитин,
советник по науке «ТестГен»
Алексей Никитин,
советник по науке «ТестГен»

Считаю выбор платформы Yandex Cloud правильным решением. Сегодня с помощью платформы обработано более 50 000 образцов. Наши партнёры, включая НИИ пульмонологии, Федеральный научно‑клинический центр ФМБА России, ФГАУ «НМИЦ здоровья детей» оценили надёжность и простоту работы с нашей системой, которая базируется на ресурсах Yandex Cloud.