Генетические исследования
Genotek — медицинская высокотехнологичная компания, российский лидер в области персональной и медицинской генетики, участник российской инициативы «Генетический паспорт». Конкурентное положение компании на рынке генетических услуг обеспечивают передовые геномные и вычислительные технологии, связанные в единой системе — от получения образцов ДНК и роботизированного извлечения генетической информации из массивов образцов до подготовки результатов генетико-медицинских тестов, персонифицированных медицинских рекомендаций, рекомендаций по образу жизни и генеалогической информации.
Выбор платформы
Специфика деятельности Genotek делает генетические услуги массовыми и доступными на федеральном и даже международном уровне. И происходит это во многом благодаря развитию информационных технологий, автоматизации и роботизации процессов. Использование облачной архитектуры в вычислительном процессе компании Genotek отвечает сложившимся особенностям работы:
- высокая вычислительная сложность;
- большие временные колебания в количестве вычислительных ресурсов (от десятка до сотен виртуальных машин);
- высокая надежность, безопасность и доступность;
- сравнительная дешевизна вычислительных ресурсов.
Новые задачи
Изначально Genotek использовал собственные серверы, расположенные в офисе компании, для хранения и обработки персональных и других чувствительных данных, а также облачные ресурсы Google, включая стандартные и прерываемые ВМ (принудительно останавливаются в течение 24 часов), а также высокоуровневые сервисы AppEngine.
Но по мере накопления данных, возникли задачи по ускорению работы ИТ-сервисов, причём наибольшие сложности вызывало поддержание синхронной работы собственной вычислительной инфраструктуры и облачной инфраструктуры сторонних компаний. Было принято решение отказаться от разделения данных, которые отчасти хранятся в Genotek, отчасти в Google, за счёт переезда в Yandex Cloud.
Генетическая информация российских граждан рассматривается как персональные данные. В обозримом будущем это будет установлено законодательно, соответственно, она должна храниться на территории РФ. Помимо этого, Genotek также хранит другие категории чувствительной информации: контакты клиентов, их медицинские данные, информацию о происхождении и самочувствии. В контексте этого было особенно привлекательно, что Yandex Object Storage демонстрирует очень высокий уровень надёжности хранения данных, который полностью соответствует законодательству РФ и нормам GDPR, благодаря тому, что критическая информация о гражданах РФ реплицируется сразу на три площадки.
Для переноса сервисов с собственных серверов Genotek и Google Cloud, платформа Yandex Cloud предложила широкие альтернативы. Также интересен сам процесс переноса, отличающийся от миграции из AWS, для которого поддерживается протокол объектного хранилища.
Внутренняя структура компании
В компании три отдела. Наиболее разнообразные сервисы использует IT-отдел Genotek, который переехал первым. Его специалисты отвечают за портал самообслуживания genotek.ru и запуск нового личного кабинета в Yandex Cloud.
Отделы биоинформатики и биостатистики занимаются обработкой больших данных, собственно анализом ДНК, поэтому потребляют значительный объём ресурсов. Им в первую очередь требуются вычислительные мощности, на которых производится расчёт, и объектное хранилище для данных.
Компания Genotek содержит небольшой штат ИТ-специалистов. В первом отделе трудятся Front-end разработчики, веб-программисты и ответственный за DevOps, в двух других работают учёные, которые одновременно запускают машины.
Требования заказчика
Внутренняя структура наряду со спецификой деятельности, объясняет особенности ИТ-процессов в компании Genotek:
- автоматическое горизонтальное масштабирование вычислительных ресурсов,
- неравномерность и лабильность распределённой IT-экспертизы компании,
- динамический рост требований к вычислительной инфраструктуре (объём обрабатываемых данных на протяжении последних трёх лет увеличивался год от года в среднем в 3 раза),
- короткие циклы выпуска нового функционала по требованию бизнеса, включая обновление биоинфоматических алгоритмов обработки, добавление новых функций,
- высокогетерогенная среда вычислительных платформ и языков программирования.
Несмотря на множество особенностей и требований, переезд прошел организованно в несколько этапов.
Сложная миграция
При переносе вычислительной инфраструктуры в Yandex Cloud со стороны Genotek над проектом работала существующая команда разработчиков программного обеспечения. В отсутствие узких специалистов по отдельным сервисам, экспертиза восполнялась за счёт расширенной платной техподдержки со стороны платформы.
Знакомство с платформой
Разработчики Genotek участвовали в тестировании сервисов Yandex Cloud в числе первых клиентов на протяжении последних полутора лет: проверялись работа прерываемых машин, возможности интерфейса, удобство инструментов и т. п. Обратная связь помогала платформе совершенствоваться, и на момент принятия решения стек Yandex Cloud полностью соответствовал задачам компании Genotek.
Первый шаг
Переезд вычислительной инфраструктуры отдела, который занимается сайтом genotek.ru и личным кабинетом, занял три недели.
Отдел использовал Google Storage, Google Cloud, Google AppEngine. При переезде образа Google AppEngine в виде контейнеров были загружены в Yandex Container Registry, запущены в Managed Service for Kubernetes, через Yandex Managed Service for MySQL присоединены БД, включены Yandex Network Load Balancer и Yandex DDoS Protection.
Второй шаг
Отделы биоинформатики и биостатистики заняты анализом подготовленных генетических данных и используют объектное хранилище.
Единство и доступность
Ключевой итог переезда в том, что хранение и обработка персональных данных клиентов сосредоточена в одном месте — Yandex Cloud, которое обеспечивает надежность хранения и соответствие законодательству РФ. После отказа от разделения данных Genotek получил увеличение масштабируемости и повышение скорости работы.
В процессе переезда в том числе был переписан код существующих сервисов. Но если биостатистики использовали лишь около 30-40% существующего кода, то код личного кабинета с результатами теста, как и код биоинформатической обработки данных, создавался с нуля в Yandex Cloud.
В итоге увеличилась доступность сервисов Genotek, ускорился оборот производства генетических результатов в массовых количествах, была обеспечена безопасность генетических данных в надёжном российском облаке.
Готовность к высокой нагрузке
Генетические данные человека не меняются с течением жизни, поэтому безопасность их хранения является абсолютным приоритетом для Genotek. В то же время, большие объёмы данных и высоконагруженные процессы вынуждают нас использовать облачные сервисы. Yandex Cloud дает нам и нашим клиентам уверенность в том, что генетические и другие чувствительные данные надёжно защищены, а обработка результатов генетических тестов и добавление новых функций в личные кабинеты выполняются быстро с использованием всех возможностей Яндекса. Отдельно хочется отметить профессионализм сотрудников поддержки и архитекторов Yandex Cloud, которые поддерживали наших сотрудников и совершенствовали сервисы Yandex Cloud в соответствии с нашими потребностями на всём протяжении нашего сотрудничества.