О чём эта история
«Петровакс Фарм» — российский разработчик и производитель оригинальных лекарственных препаратов и вакцин, биологических добавок. Фармацевтическая компания выпускает такие препараты, как Лонгидаза, Полиоксидоний, Превенар и другие.
Компания создала аналитическую платформу для точного прогнозирования спроса, управления цепочками поставок и адаптации стратегии к изменениям в поведении потребителей.
Для разработки решения «Петровакс Фарм» привлекла партнёра SQEEL, который специализируется на построении платформ данных. За три месяца команда проекта развернула гибридную инфраструктуру и запустила платформу анализа данных. Сохранили локальное хранилище, а аналитическую часть перенесли в облако Yandex Cloud. 150 сотрудников «Петровакс Фарм» анализируют большой объём информации с помощью новых, гибких инструментов.
Построить платформу данных и снизить риски
Для эффективной работы в фармацевтической отрасли важно быстро анализировать большие объёмы информации и находить неочевидные закономерности, строить точные прогнозы продаж, проектировать цепочки поставок, принимать стратегические решения для развития компании на основе анализа данных.
Раньше компания использовала физические серверы и ПО для анализа данных Microsoft. Но монолитное решение устарело и не справлялось с постоянно растущим объёмом данных.
Перед «Петровакс Фарм» стояло несколько задач:
- Построить масштабируемую платформу данных, которая легко адаптируется к росту бизнеса и позволит быстро расширять инфраструктуру.
- Снизить риски вендорлока — для технологической независимости перейти на решения, заменяющие Microsoft SQL, SSAS, SSIS, Power BI.
- Сохранить привычные сценарии работы: high‑level‑анализ — интерактивные дашборды; lov‑level‑ и ad‑hoc‑анализ — поддержка сводных таблиц в Excel для детального анализа данных (до 300 млн записей).
- Решение должно соответствовать требованиям 152‑ФЗ, хотя хранить персональные данные не нужно, но при необходимости должна быть такая возможность. Кроме того, инфраструктура должна соответствовать рекомендациям по защите CIS и других методологий.
Сначала «Петровакс Фарм» рассматривала вариант хранения данных в PostgreSQL, исследования и визуализации данных с помощью Apache Superset™ и использования привычных возможностей MS Excel. Но такое сочетание технологий не могло обеспечить нужную глубину и скорость анализа. А устаревший монолит был не готов к росту количества данных и нагрузке на инструменты. Поэтому компания решила создать полностью новый продукт: гибридную платформу данных, которая будет состоять из облачного контура для анализа данных и локального хранилища.
Для «Петровакс Фарм» при выборе облака были важны быстрое развёртывание и гибкое управление вычислительными ресурсами и наличие управляемых сервисов, чтобы оптимизировать обслуживание инфраструктуры.
Компания рассматривала несколько облачных платформ, учитывая возможности бессерверных вычислений и наличие инструментов анализа и визуализации информации. Выбор пал на Yandex Cloud: благодаря развитому serverless‑стеку, BI‑системе Yandex DataLens, а также рекомендации от компании SQ — EEL — партнёра «Петровакс Фарм» по разработке решения.
Гибридная инфраструктура и привычные сценарии работы с данными
На уточнение требований к проекту ушёл месяц. Неделю настраивали инфраструктуру on‑premises — интеграционные слои DWH в PostgreSQL, Airflow®, Grafana, GitLab для CI/CD. Первый этап разработки хранилища данных занял пять месяцев. За это время спроектировали структуру ETL, схему хранения источников данных: продажи дистрибьюторов и аптечных сетей, данные аналитических агентств IQVIA и IPSOS, планы продаж, данные из системы мониторинга движения лекарственных препаратов (МДЛП), данные исследований TIBURON Research. Параллельно с этим внедрили инструмент автоматизации от SQEEL.
На втором этапе, который длился три месяца, разработали структуры хранения данных для CRM, спроектировали витрины в PostgreSQL, протестировали работу хранилища.
Ещё три месяца ушло на развёртывание облачной части платформы, которая включает в себя витрины данных в ClickHouse®. Доступ к витринам обеспечивают eMondrian и Yandex DataLens.
Гибридная платформа данных состоит из локальной и облачных частей, связанных IPSec‑туннелем.
Локальная часть состоит из:
- DWH на основе PostgreSQL объёмом 1 ТБ;
- Виртуальной машины с Airflow® для управления ETL-процессами и синхронизации данных, управления задачами;
- SQEEL DPA для автоматизации развёртывания и моделирования платформы данных.
SQEEL DPA — фреймворк для построения платформы данных, у него есть генератор модели и процедур загрузок данных. Генерируемой моделью легко пользоваться, слои и объекты именуются понятным образом, для выгрузки данных созданы процедуры с понятным и читаемым кодом, доступной конфигурацией нестандартных типов загрузок и логированием.
В PostgreSQL данные структурированы по уровням:
- временно хранимые сырые,
- подготовленные для аналитики,
- исторические,
- агрегированные для BI‑отчётов,
- предназначенные для внешних сервисов (например, для передачи в ClickHouse®).
Облачная часть, развёрнутая в Yandex Cloud, состоит из:
-
Security GateWay — для организации защищённого соединения между ресурсами в Yandex Cloud и локальным хранилищем.
-
Yandex Object Storage — для организации data lake, в котором накоплено уже 400 ГБ данных. Объём некоторой информации, например о тендерах и третичных продажах, слишком велик для загрузки в локальный PostgreSQL. Поэтому они сначала попадают в Object Storage, затем в Yandex Managed Service for ClickHouse®, а уже оттуда — в локальное хранилище в агрегированном виде.
-
Managed Service for ClickHouse® — для создания витрин, объём данных 130 ГБ.
-
Yandex Data Transfer — для переноса данных из локального хранилища данных в Managed Service for ClickHouse®.
-
eMondrian — OLAP-сервер с открытым исходным кодом на языке Java, для работы пользователей через Excel‑таблицы. В нём развёрнуто 27 кубов.
-
Yandex Cloud Functions — для загрузки данных из системы мониторинга движения лекарственных препаратов для авторизации и извлечения секретов.
-
Yandex DataLens — для визуализации данных.
В Managed Service for ClickHouse® создали несколько типов витрин:
-
набор таблиц и представлений из PostgreSQL, который формирует витрины для BI‑отчётов;
-
денормализованные таблицы из PostgreSQL с атрибутами для выгрузки в Excel;
-
большие денормализованные таблицы, наполненные данными, собранными в ClickHouse®, которые используются в построении отчётов в Yandex DataLens и eMondrian.
С помощью Yandex DataLens создали 30 дашбордов:
- для топ‑менеджмента компании — по выполнению KPI, динамике еженедельных продаж, динамике доли рынка;
- отчёты для маркетинга по оценке эффективности рекламы, конверсиям;
- отчёт мониторинга продаж дистрибьюторов и отчёт оценки товарных запасов для коммерческого отдела;
- отчёты для отделов производства и закупок, отдела врачебного продвижения.
Лёгкая визуализация данных сложной аналитической платформы
Реализация облачной части проекта заняла три месяца. Компании удалось интегрировать современный стек технологий в существующее решение, сохранить привычные возможности для пользователей и повысить эффективность системы.
Сотрудники сохранили привычные сценарии работы. Данные для детального анализа датасетов объёмом от 100 до 300 млн строк выгружают в Excel из ClickHouse®. Более 150 пользователей используют дашборды DataLens для анализа данных.
Компания минимизировала расходы на поддержку инфраструктуры и освободила время сотрудников на дальнейшее развитие платформы благодаря использованию управляемых сервисов облака.
«Петровакс Фарм» планирует масштабировать систему с учётом растущих объёмов данных, интегрировать новые источники для повышения качества аналитики, оптимизировать гибридную инфраструктуру, чтобы достичь максимальной производительности. Кроме того, команда рассматривает применение технологий искусственного интеллекта и сервисов машинного обучения в проекте.
Мнение
Наше решение удобно и для аналитиков, и для бизнеса: команда «Петровакс Фарм» освоила новый стек технологий всего за несколько месяцев, а дашборды DataLens и привычные Excel‑таблицы быстро вошли в повседневную работу. Мы легко интегрируем новые источники данных, создаём отчёты и дашборды, адаптируем систему под задачи бизнеса — собственными силами, при помощи специалистов SQEEL. Гибкая архитектура упрощает и ускоряет анализ и помогает выявлять причинно‑следственные связи и корреляцию между различными показателями.
* Фото предоставлено пресс-службой «Петровакс Фарм»