О чём эта история
«Русполимет» — российская металлургическая компания, которая производит стали, сплавы и изделия из них по российским и международным стандартам из широкого спектра металлов. Например, слитки, поковки и кольцевые заготовки для авиа- и машиностроения, морского транспорта, нефтяной, атомной и газовой промышленности.
За год команда «Русполимета» развернула систему хранения и аналитики данных в облаке Yandex Cloud: 60 таблиц и 10 млн записей объёмом в несколько десятков гигабайт. Изначально проект реализовали для трёх крупных подразделений компании, а сейчас «Русполимет» тиражирует его на все остальные службы. Компания сократила время поставки аналитических отчётов для бизнес-пользователей: раньше их формирование могло занимать до двух дней, сейчас — секунды. Отчёты создают по разным уровням: от операционных сводок для руководителей подразделений до информации для топ-менеджеров. «Русполимет» ведёт учёт данных, развивает платформу, дата-компетенции и техподдержку.
Поиск решения для управления данными металлургической компании
С 2019 года компания «Русполимет» начала цифровизацию и внедрила:
-
SAP S4/HANA — систему планирования ресурсов предприятия;
-
SAP HCM — систему управления персоналом для оптимизации кадровых процессов;
-
SAP PP/DS — решение для оптимизации и детального планирования производства;
-
SAP PM (ТОРО) — систему управления технического обслуживания и ремонта оборудования.
После этого бизнес-процессы стали более прозрачными и понятными, а у компании появилось общее информационное пространство.
Команда аналитики формирует отчёты по операционной деятельности. При этом компания столкнулась с различными проблемами. Из-за разных подходов к сбору информации, различий в методиках расчёта и влияния человеческого фактора скорость подготовки отчётов в разных службах отличалась.
Команда решила собирать и анализировать данные в едином цифровом пространстве и по единым правилам. Построение облачной инфраструктуры оказалось оптимальным вариантом: развёртывание основных компонентов систем и масштабирование инфраструктуры проходит быстро, при этом на старте не нужно вкладывать много средств и ресурсов в администрирование.
Компания сформировала два уровня приоритетов в построении корпоративного хранилища и аналитики данных.
Первый уровень:
-
учёт данных,
-
развитие компетенций в аналитике данных,
-
создание платформы данных,
-
создание системы помощи пользователям в работе с данными,
-
контроль безопасности хранения и обработки данных.
Второй уровень:
-
управление дата-продуктами,
-
self-service-аналитика, при которой бизнес-пользователи применяют аналитическую платформу самостоятельно,
-
разработка ML-моделей,
-
увеличение скорости поставки данных,
-
внутренняя монетизация и доступность данных,
-
привлечение внешних данных.
При выборе облачного провайдера «Русполимету» было важно, чтобы поставщик услуг размещал серверы на территории России и имел сертификаты безопасности данных. Компания должна соблюдать требования 152-ФЗ и стандарта ISO/IEC 27001. Также «Русполимет» искала управляемые СУБД и SaaS-инструменты.
Компания выбрала Yandex Cloud из-за управляемых сервисов для PostgreSQL и ClickHouse® для построения корпоративного хранилища данных и из-за собственной облачной BI-системы — Yandex DataLens.
Аналитика для бизнес-пользователей в облаке
Инфраструктура «Русполимета» включает виртуальные машины Yandex Compute Cloud, СУБД Yandex Managed Service for PostgreSQL, Yandex Managed Service for ClickHouse®, а также Yandex Object Storage и DataLens.
В августе 2022 года «Русполимет» запустила пилотный проект корпоративного хранилища данных в облаке. Сначала на тестовых данных сформировали отчёт по сдаче готовой продукции. В первом квартале 2023 года данные в компании разделили по подразделениям (доменам). Во втором квартале 2023 года начали строить BI-отчётность для трёх доменов: закупок, кадров и производства.
Для оркестрации потоков данных на виртуальных машинах Compute Cloud развернули Apache Airflow®. Дата-инженеры спроектировали методы сбора, трансформации и транспортировки данных. Apache Airflow собирает сырые данные из нескольких источников и отправляет их в Object Storage. Также в объектном хранилище размещены дельты. Это обеспечивает надёжное хранение и историчность данных. Из Object Storage данные поступают в кластер Yandex Managed Service for PostgreSQL, в котором реализовали детальный слой DDS по схеме «снежинка».
Чтобы управлять запросами и следить за историей происхождения и изменениями данных, использовали фреймворк с открытым исходным кодом для выполнения, тестирования и документирования SQL-запросов DBT (data build tool). С его помощью дата-инженеры трансформируют данные, делят детальный слой по сущностям и преобразовывают в удобный формат, а затем оркестратор перемещает их в слой Data Mart — витрины данных. Для хранения готовых витрин используется кластер Managed Service for ClickHouse®.
Аналитики на данных из витрин строят дашборды в DataLens. При этом отчёты запускают в продакшн только после того, как данные описаны и учтены в каталоге данных Lottabyte. Там аналитики и бизнес-эксперты ведут учёт дата-активов, фиксируют показатели и метрики, описывают дата-продукты и ведут реестр проверок качества данных. Данные загружаются из источников ежедневно в конце рабочего дня.
Критически важную информацию, например цены и персональные данные, «Русполимет» хранит on-premises. Сейчас совместно с Yandex Cloud и партнёром «БССГ» компания завершила пилот с использованием решения по токенизации данных Damask, чтобы безопасно хранить в облаке любую информацию.
Платформа хранит и обрабатывает около 250 таблиц объёмом до 1,5 млрд записей. Общий объём информации в тестовых и продуктивных окружениях — около 1 ТБ. На данный момент компания развивает слои DDS и Data Mart, расширяет перечень аналитических продуктов, совершенствует архитектуру платформы и оптимизирует процесс загрузки данных.
Развитие дата-компетенций и создание отдела аналитики
Компания «Русполимет» сократила время поставки аналитических данных для бизнес-пользователей и повысила степень доверия к отчётности. Руководители направлений и топ-менеджеры в любой момент могут получить доступ к нужным данным в реальном времени. Компания создаёт различные отчёты: от операционных сводок, фиксирующих процессы внутри подразделений, до критически важных данных, которые поставляются топ-менеджменту компании.
«Русполимет» создала отдел управления данными. Команда реализовала большую часть тех задач, которые поставили в начале проекта: создание платформы, учёт и регламенты работы с данными, повышение качества принимаемых решений, развитие дата-компетенций. Завершили пилотный проект по токенизации данных и в ближайшее время его запустят в продакшн. Учёт данных повысил прозрачность процессов и позволил описать объекты всех слоёв. Терминология в компании стала единой для всех служб. База знаний растёт и ориентирована на то, чтобы сотрудники могли самостоятельно строить аналитические отчёты.
Мнение
Вся инфраструктура платформы расположена в Yandex Cloud, это упрощает управление, повышает скорость работы и гарантирует надёжность. В будущем мы планируем загружать в хранилище потоковые данные, например показатели оборудования. Компания также собирается строить ML-модели, например для планирования ремонта оборудования и контроля качества выплавки. Мы продолжаем работать над безопасностью данных и совместно с компанией-партнёром внедряем Damask — решение по защите конфиденциальных данных при хранении и дальнейшем анализе.