О чём эта история

«Петровакс Фарм» — российский разработчик и производитель оригинальных лекарственных препаратов и вакцин, биологических добавок. Фармацевтическая компания выпускает такие препараты, как Лонгидаза, Полиоксидоний, Превенар и другие.

Компания создала аналитическую платформу для точного прогнозирования спроса, управления цепочками поставок и адаптации стратегии к изменениям в поведении потребителей.

Для разработки решения «Петровакс Фарм» привлекла партнёра SQEEL, который специализируется на построении платформ данных. За три месяца команда проекта развернула гибридную инфраструктуру и запустила платформу анализа данных. Сохранили локальное хранилище, а аналитическую часть перенесли в облако Yandex Cloud. 150 сотрудников «Петровакс Фарм» анализируют большой объём информации с помощью новых, гибких инструментов.

Построить платформу данных и снизить риски

Для эффективной работы в фармацевтической отрасли важно быстро анализировать большие объёмы информации и находить неочевидные закономерности, строить точные прогнозы продаж, проектировать цепочки поставок, принимать стратегические решения для развития компании на основе анализа данных.

Раньше компания использовала физические серверы и ПО для анализа данных Microsoft. Но монолитное решение устарело и не справлялось с постоянно растущим объёмом данных.

Перед «Петровакс Фарм» стояло несколько задач:

  • Построить масштабируемую платформу данных, которая легко адаптируется к росту бизнеса и позволит быстро расширять инфраструктуру.
  • Снизить риски вендорлока — для технологической независимости перейти на решения, заменяющие Microsoft SQL, SSAS, SSIS, Power BI.
  • Сохранить привычные сценарии работы: high‑level‑анализ — интерактивные дашборды; lov‑level‑ и ad‑hoc‑анализ — поддержка сводных таблиц в Excel для детального анализа данных (до 300 млн записей).
  • Решение должно соответствовать требованиям 152‑ФЗ, хотя хранить персональные данные не нужно, но при необходимости должна быть такая возможность. Кроме того, инфраструктура должна соответствовать рекомендациям по защите CIS и других методологий.

Сначала «Петровакс Фарм» рассматривала вариант хранения данных в PostgreSQL, исследования и визуализации данных с помощью Apache Superset и использования привычных возможностей MS Excel. Но такое сочетание технологий не могло обеспечить нужную глубину и скорость анализа. А устаревший монолит был не готов к росту количества данных и нагрузке на инструменты. Поэтому компания решила создать полностью новый продукт: гибридную платформу данных, которая будет состоять из облачного контура для анализа данных и локального хранилища.

Для «Петровакс Фарм» при выборе облака были важны быстрое развёртывание и гибкое управление вычислительными ресурсами и наличие управляемых сервисов, чтобы оптимизировать обслуживание инфраструктуры.

Компания рассматривала несколько облачных платформ, учитывая возможности бессерверных вычислений и наличие инструментов анализа и визуализации информации. Выбор пал на Yandex Cloud: благодаря развитому serverless‑стеку, BI‑системе Yandex DataLens, а также рекомендации от компании SQ — EEL — партнёра «Петровакс Фарм» по разработке решения.

Гибридная инфраструктура и привычные сценарии работы с данными

На уточнение требований к проекту ушёл месяц. Неделю настраивали инфраструктуру on‑premises — интеграционные слои DWH в PostgreSQL, Airflow®, Grafana, GitLab для CI/CD. Первый этап разработки хранилища данных занял пять месяцев. За это время спроектировали структуру ETL, схему хранения источников данных: продажи дистрибьюторов и аптечных сетей, данные аналитических агентств IQVIA и IPSOS, планы продаж, данные из системы мониторинга движения лекарственных препаратов (МДЛП), данные исследований TIBURON Research. Параллельно с этим внедрили инструмент автоматизации от SQEEL.

На втором этапе, который длился три месяца, разработали структуры хранения данных для CRM, спроектировали витрины в PostgreSQL, протестировали работу хранилища.

Ещё три месяца ушло на развёртывание облачной части платформы, которая включает в себя витрины данных в ClickHouse®. Доступ к витринам обеспечивают eMondrian и Yandex DataLens.

Гибридная платформа данных состоит из локальной и облачных частей, связанных IPSec‑туннелем.

Локальная часть состоит из:

  • DWH на основе PostgreSQL объёмом 1 ТБ;
  • Виртуальной машины с Airflow® для управления ETL-процессами и синхронизации данных, управления задачами;
  • SQEEL DPA для автоматизации развёртывания и моделирования платформы данных.

SQEEL DPA — фреймворк для построения платформы данных, у него есть генератор модели и процедур загрузок данных. Генерируемой моделью легко пользоваться, слои и объекты именуются понятным образом, для выгрузки данных созданы процедуры с понятным и читаемым кодом, доступной конфигурацией нестандартных типов загрузок и логированием.

В PostgreSQL данные структурированы по уровням:

  • временно хранимые сырые,
  • подготовленные для аналитики,
  • исторические,
  • агрегированные для BI‑отчётов,
  • предназначенные для внешних сервисов (например, для передачи в ClickHouse®).

Облачная часть, развёрнутая в Yandex Cloud, состоит из:

  • Security GateWay — для организации защищённого соединения между ресурсами в Yandex Cloud и локальным хранилищем.

  • Yandex Object Storage — для организации data lake, в котором накоплено уже 400 ГБ данных. Объём некоторой информации, например о тендерах и третичных продажах, слишком велик для загрузки в локальный PostgreSQL. Поэтому они сначала попадают в Object Storage, затем в Yandex Managed Service for ClickHouse®, а уже оттуда — в локальное хранилище в агрегированном виде.

  • Managed Service for ClickHouse® — для создания витрин, объём данных 130 ГБ.

  • Yandex Data Transfer — для переноса данных из локального хранилища данных в Managed Service for ClickHouse®.

  • eMondrian — OLAP-сервер с открытым исходным кодом на языке Java, для работы пользователей через Excel‑таблицы. В нём развёрнуто 27 кубов.

  • Yandex Cloud Functions — для загрузки данных из системы мониторинга движения лекарственных препаратов для авторизации и извлечения секретов.

  • Yandex DataLens — для визуализации данных.

В Managed Service for ClickHouse® создали несколько типов витрин:

  • набор таблиц и представлений из PostgreSQL, который формирует витрины для BI‑отчётов;

  • денормализованные таблицы из PostgreSQL с атрибутами для выгрузки в Excel;

  • большие денормализованные таблицы, наполненные данными, собранными в ClickHouse®, которые используются в построении отчётов в Yandex DataLens и eMondrian.

С помощью Yandex DataLens создали 30 дашбордов:

  • для топ‑менеджмента компании — по выполнению KPI, динамике еженедельных продаж, динамике доли рынка;
  • отчёты для маркетинга по оценке эффективности рекламы, конверсиям;
  • отчёт мониторинга продаж дистрибьюторов и отчёт оценки товарных запасов для коммерческого отдела;
  • отчёты для отделов производства и закупок, отдела врачебного продвижения.
Архитектура проекта после миграции

Лёгкая визуализация данных сложной аналитической платформы

Реализация облачной части проекта заняла три месяца. Компании удалось интегрировать современный стек технологий в существующее решение, сохранить привычные возможности для пользователей и повысить эффективность системы.

Сотрудники сохранили привычные сценарии работы. Данные для детального анализа датасетов объёмом от 100 до 300 млн строк выгружают в Excel из ClickHouse®. Более 150 пользователей используют дашборды DataLens для анализа данных.

Компания минимизировала расходы на поддержку инфраструктуры и освободила время сотрудников на дальнейшее развитие платформы благодаря использованию управляемых сервисов облака.

«Петровакс Фарм» планирует масштабировать систему с учётом растущих объёмов данных, интегрировать новые источники для повышения качества аналитики, оптимизировать гибридную инфраструктуру, чтобы достичь максимальной производительности. Кроме того, команда рассматривает применение технологий искусственного интеллекта и сервисов машинного обучения в проекте.

Мнение

Анна Шарикова,
руководитель отдела бизнес-аналитики «Петровакс Фарм»
Анна Шарикова,
руководитель отдела бизнес-аналитики «Петровакс Фарм»

Наше решение удобно и для аналитиков, и для бизнеса: команда «Петровакс Фарм» освоила новый стек технологий всего за несколько месяцев, а дашборды DataLens и привычные Excel‑таблицы быстро вошли в повседневную работу. Мы легко интегрируем новые источники данных, создаём отчёты и дашборды, адаптируем систему под задачи бизнеса — собственными силами, при помощи специалистов SQEEL. Гибкая архитектура упрощает и ускоряет анализ и помогает выявлять причинно‑следственные связи и корреляцию между различными показателями.

* Фото предоставлено пресс-службой «Петровакс Фарм»