О чём история
«ТестГен» занимается разработкой и производством тест‑систем для лабораторной диагностики. Компания разработала биоинформационную систему XplainBio, которая автоматически обрабатывает данные с секвенатора, интерпретирует результаты анализа и выдаёт готовый отчёт. Использование сервисов Yandex Cloud обеспечило надёжное хранение и высокую скорость обработки информации: до 3000 образцов в сутки. В моменты пиковой нагрузки XplainBio использует до 200 виртуальных машин и до 3600 процессоров одновременно.
Задача компании
«ТестГен» — один из лидеров на рынке реагентов и тест‑систем для молекулярно‑генетических анализов. Например, наборы для диагностики в онкологии используют порядка 80% онкологических диспансеров России для выбора оптимальной схемы лечения пациентов и выявления наследственной предрасположенности к онкозаболеваниям. Причиной развития опухолей являются генетические мутации. Для определения мутаций в генах всё чаще применяется метод массового параллельного анализа ДНК — секвенирование нового поколения (NGS). Этот метод позволяет одновременно проанализировать сотни миллионов молекул ДНК и определить все мутации в генах, включая те, которые ранее не были известны. Для клинических целей обычно достаточно данных, полученных в результате прочтения отдельных генов и экзома. Экзом — 1,3% генома, но 85% всех мутаций, связанных с болезнями, — это мутации в экзоме.
Метод NGS предполагает комплексный анализ больших массивов данных. Биомедицинские данные, полученные в результате секвенирования, — это терабайты информации. Для хранения и массовой параллельной обработки данных (структурирования, анализа и визуализации) используются специальные биоинформационные платформы, требующие значительного объёма вычислительных ресурсов. Всего один институт Броуда (MIT, США) генерирует 20 ТБ данных в день. Прогнозируют, что к 2024 г. объём хранимых геномных данных в мире превысит объёмы данных Twitter, YouTube и некоторых других крупных социальных сетей вместе взятых.
Один из флагманских продуктов компании «ТестГен» — набор для секвенирования NGS, который предназначен для определения мутаций в генах BRCA½. Мутации в этих генах связаны с развитием онкологических заболеваний. Обработку данных в лаборатории обычно проводит специалист‑биоинформатик, но такой ручной подход затрудняет масштабирование и снижает доступность востребованной методики. Поэтому интерпретация результатов анализа происходит на собственной биоинформационной платформе XplainBio. Она адаптирована под любые панели генов и позволяет анализировать как конкретные области генома или отдельные гены (таргетное секвенирование), так и экзомы. XplainBio уменьшает влияние человеческого фактора, автоматически распознаёт мутации, которые были обнаружены ранее, и определяет, какие из них являются патогенными. Одновременно используются три алгоритма поиска, что позволяет значительно снизить количество ложноположительных результатов.
Основной проблемой в работе XplainBio являются требования к вычислительным ресурсам: на обработку одного образца в зависимости от его размера требуется от 8 до 96 CPU и от 32 до 256 ГБ RAM. При небольшом количестве анализов возможна последовательная работа на локальном сервере. Но когда их число превышает десятки и сотни, то время становится недопустимым для применения в практической медицине и требуется использование специальных методов для ускорения процесса. Существует всего два варианта решения проблемы: более быстрые, но менее точные алгоритмы или аренда необходимого количества серверов у облачного провайдера. Строительство собственного дата‑центра для большинства медицинских учреждений — утопичная идея, особенно при условии довольно специфичного профиля нагрузки, когда 100% мощности требуются 1‑2 раза в неделю на несколько часов.
В 2017 году отечественные облачные решения ещё не предоставляли необходимого уровня технологий, поэтому на тот момент выбор был сделан в пользу Google Cloud. Но во время разработки и тестовой эксплуатации системы команда «ТестГен» внимательно следила за развитием российских облачных систем. Необходимость переезда диктовалась изменениями законодательства в области обработки персональных данных.
При выборе облака компания «ТестГен» учитывала ряд факторов:
- Масштабируемость. Получение большого количества ресурсов на небольшой период реального использования обеспечивает низкую стоимость обработки информации.
- Мощность виртуальных машин. Высокая скорость обработки сырых данных и интерпретации результатов секвенирования возможна благодаря большому количеству серверов.
- Надёжность и отказоустойчивость. Для быстрой обработки данных важно не зависеть от неполадок конкретного сервера или оборудования.
- Соблюдение 152‑ФЗ. Любые результаты генетических исследований, даже обезличенные, являются персональными данными. В соответствии с требованиями законодательства России трансграничная передача такой информации без специального разрешения запрещена.
- Возможность поддержки разных источников данных. XplainBio использует международные базы данных генетических вариантов и более 80 различных источников информации для максимально полного описания генов и мутаций.
В 2020 году в результате анализа рынка компания «ТестГен» выбрала Yandex Cloud. Платформа получила аттестат соответствия ИСПДн требованиям безопасности информации и персональных данных, а также выполняет все требования 152‑ФЗ (уровень защищенности персональных данных УЗ‑1), постановления правительства № 1119 и Приказа ФСТЭК № 21. Также облако предоставляет мощные виртуальные машины: до 96 vCPU и до 576 ГБ RAM. Это позволяет хранить огромные массивы данных и быстро их обрабатывать.
Как развернули XplainBio
Этапы обработки геномных данных предъявляют разные требования к вычислительной платформе:
- на начальных шагах важны CPU — от их количества линейно зависит скорость вычислений;
- на этапах сортировки — RAM;
- при сборке финальной структуры данных — высокопроизводительная аналитическая база данных. Она должна быстро агрегировать более 80 источников общим размером 10 ТБ в итоговую таблицу, которая содержит около 15 млн строк и 900 столбцов с различными типами данных. В Google Cloud с этим справлялась BigQuery, в Yandex Cloud рассматривался сервис Yandex Managed Service for ClickHouse®.
В Yandex Compute Cloud были выделены квоты по CPU в том же размере, что и у Google Cloud, — 3600 процессорных ядер. Это позволило к 2022 году перенести практически все вычисления на новую облачную платформу. Но переезд самого ответственного этапа — сборки финальной структуры данных — затягивался из‑за опасений столкнуться с проблемами несовместимости диалектов SQL, отсутствия или неполной реализации части функций, а также потенциальной неэквивалентности итоговых результатов на двух платформах.
Однако эта проблема решилась за два дня: в шести сотнях строк SQL‑запроса пришлось поменять только названия нескольких функций, оставив всю остальную структуру и логику без изменений, включая сложные оконные функции. Yandex Managed Service for ClickHouse выполнял запрос абсолютно идентично BigQuery, а в некоторых случаях ещё и быстрее. После окончательной миграции XplainBio стала платформой, где все этапы хранения и обработки данных происходят исключительно внутри российских ЦОД. При этом не пришлось жертвовать скоростью или точностью анализа.
Сейчас XplainBio позволяет анализировать до 3000 таргетных панелей или 300 экзомов в сутки, при этом на обработку одного экзома тратится около 2‑3 часов на одном сервере. В моменты пиковой нагрузки система XplainBio использует до 200 виртуальных машин Yandex Cloud и до 3600 процессоров одновременно.
В ТОП‑50 клиентов Yandex Cloud
На платформе Yandex Cloud была создана облачная универсальная биоинформационная платформа XplainBio, адаптированная не только под продукты самого «ТестГена», но и под любые панели генов и экзомы/геномы. XplainBio активно используется уже в нескольких медицинских учреждениях, включая НИИ пульмонологии ФМБА России, Федеральный научно‑клинический центр ФМБА России, ФГАУ «НМИЦ здоровья детей» и др. Использование облачной платформы XplainBio способствует экономии ресурсов научных и медицинских учреждений. Не требуется покупать высокопроизводительное оборудование, привлекать биоинформатиков для интерпретации результатов NGS‑анализов и нанимать специалистов для обслуживания локальной системы.
По объёму используемых ресурсов «ТестГен» входит в топ‑50 из более чем 30 000 клиентов Yandex Cloud. С помощью облачных мощностей обработано более 50 000 образцов.
Надёжность и отказоустойчивость системы были проверены в результате неожиданно возникшей задачи по анализу полных геномов SARS‑CoV‑2 в рамках эпидемиологического мониторинга новых штаммов. Платформа легко справилась с требуемой скоростью анализа в 1536 образцов в сутки, подтвердив правильность заложенных архитектурных решений.
Мнение
Считаю выбор платформы Yandex Cloud правильным решением. Сегодня с помощью платформы обработано более 50 000 образцов. Наши партнёры, включая НИИ пульмонологии, Федеральный научно‑клинический центр ФМБА России, ФГАУ «НМИЦ здоровья детей» оценили надёжность и простоту работы с нашей системой, которая базируется на ресурсах Yandex Cloud.