О чём эта история

«Русполимет» — российская металлургическая компания, которая производит стали, сплавы и изделия из них по российским и международным стандартам из широкого спектра металлов. Например, слитки, поковки и кольцевые заготовки для авиа- и машиностроения, морского транспорта, нефтяной, атомной и газовой промышленности.

За год команда «Русполимета» развернула систему хранения и аналитики данных в облаке Yandex Cloud: 60 таблиц и 10 млн записей объёмом в несколько десятков гигабайт. Изначально проект реализовали для трёх крупных подразделений компании, а сейчас «Русполимет» тиражирует его на все остальные службы. Компания сократила время поставки аналитических отчётов для бизнес-пользователей: раньше их формирование могло занимать до двух дней, сейчас — секунды. Отчёты создают по разным уровням: от операционных сводок для руководителей подразделений до информации для топ-менеджеров. «Русполимет» ведёт учёт данных, развивает платформу, дата-компетенции и техподдержку.

Поиск решения для управления данными металлургической компании

С 2019 года компания «Русполимет» начала цифровизацию и внедрила:

  • SAP S4/HANA — систему планирования ресурсов предприятия;

  • SAP HCM — систему управления персоналом для оптимизации кадровых процессов;

  • SAP PP/DS — решение для оптимизации и детального планирования производства;

  • SAP PM (ТОРО) — систему управления технического обслуживания и ремонта оборудования.

После этого бизнес-процессы стали более прозрачными и понятными, а у компании появилось общее информационное пространство.

Команда аналитики формирует отчёты по операционной деятельности. При этом компания столкнулась с различными проблемами. Из-за разных подходов к сбору информации, различий в методиках расчёта и влияния человеческого фактора скорость подготовки отчётов в разных службах отличалась.

Команда решила собирать и анализировать данные в едином цифровом пространстве и по единым правилам. Построение облачной инфраструктуры оказалось оптимальным вариантом: развёртывание основных компонентов систем и масштабирование инфраструктуры проходит быстро, при этом на старте не нужно вкладывать много средств и ресурсов в администрирование.

Компания сформировала два уровня приоритетов в построении корпоративного хранилища и аналитики данных.

Первый уровень:

  • учёт данных,

  • развитие компетенций в аналитике данных,

  • создание платформы данных,

  • создание системы помощи пользователям в работе с данными,

  • контроль безопасности хранения и обработки данных.

Второй уровень:

  • управление дата-продуктами,

  • self-service-аналитика, при которой бизнес-пользователи применяют аналитическую платформу самостоятельно,

  • разработка ML-моделей,

  • увеличение скорости поставки данных,

  • внутренняя монетизация и доступность данных,

  • привлечение внешних данных.

При выборе облачного провайдера «Русполимету» было важно, чтобы поставщик услуг размещал серверы на территории России и имел сертификаты безопасности данных. Компания должна соблюдать требования 152-ФЗ и стандарта ISO/IEC 27001. Также «Русполимет» искала управляемые СУБД и SaaS-инструменты.

Компания выбрала Yandex Cloud из-за управляемых сервисов для PostgreSQL и ClickHouse® для построения корпоративного хранилища данных и из-за собственной облачной BI-системы — Yandex DataLens.

Аналитика для бизнес-пользователей в облаке

Инфраструктура «Русполимета» включает виртуальные машины Yandex Compute Cloud, СУБД Yandex Managed Service for PostgreSQL, Yandex Managed Service for ClickHouse®, а также Yandex Object Storage и DataLens.

В августе 2022 года «Русполимет» запустила пилотный проект корпоративного хранилища данных в облаке. Сначала на тестовых данных сформировали отчёт по сдаче готовой продукции. В первом квартале 2023 года данные в компании разделили по подразделениям (доменам). Во втором квартале 2023 года начали строить BI-отчётность для трёх доменов: закупок, кадров и производства.

Для оркестрации потоков данных на виртуальных машинах Compute Cloud развернули Apache Airflow®. Дата-инженеры спроектировали методы сбора, трансформации и транспортировки данных. Apache Airflow собирает сырые данные из нескольких источников и отправляет их в Object Storage. Также в объектном хранилище размещены дельты. Это обеспечивает надёжное хранение и историчность данных. Из Object Storage данные поступают в кластер Yandex Managed Service for PostgreSQL, в котором реализовали детальный слой DDS по схеме «снежинка».

Чтобы управлять запросами и следить за историей происхождения и изменениями данных, использовали фреймворк с открытым исходным кодом для выполнения, тестирования и документирования SQL-запросов DBT (data build tool). С его помощью дата-инженеры трансформируют данные, делят детальный слой по сущностям и преобразовывают в удобный формат, а затем оркестратор перемещает их в слой Data Mart — витрины данных. Для хранения готовых витрин используется кластер Managed Service for ClickHouse®.

Аналитики на данных из витрин строят дашборды в DataLens. При этом отчёты запускают в продакшн только после того, как данные описаны и учтены в каталоге данных Lottabyte. Там аналитики и бизнес-эксперты ведут учёт дата-активов, фиксируют показатели и метрики, описывают дата-продукты и ведут реестр проверок качества данных. Данные загружаются из источников ежедневно в конце рабочего дня.

Инфраструктура управления данными в «Русполимете»

Критически важную информацию, например цены и персональные данные, «Русполимет» хранит on-premises. Сейчас совместно с Yandex Cloud и партнёром «БССГ» компания завершила пилот с использованием решения по токенизации данных Damask, чтобы безопасно хранить в облаке любую информацию.

Платформа хранит и обрабатывает около 250 таблиц объёмом до 1,5 млрд записей. Общий объём информации в тестовых и продуктивных окружениях — около 1 ТБ. На данный момент компания развивает слои DDS и Data Mart, расширяет перечень аналитических продуктов, совершенствует архитектуру платформы и оптимизирует процесс загрузки данных.

Развитие дата-компетенций и создание отдела аналитики

Компания «Русполимет» сократила время поставки аналитических данных для бизнес-пользователей и повысила степень доверия к отчётности. Руководители направлений и топ-менеджеры в любой момент могут получить доступ к нужным данным в реальном времени. Компания создаёт различные отчёты: от операционных сводок, фиксирующих процессы внутри подразделений, до критически важных данных, которые поставляются топ-менеджменту компании.

«Русполимет» создала отдел управления данными. Команда реализовала большую часть тех задач, которые поставили в начале проекта: создание платформы, учёт и регламенты работы с данными, повышение качества принимаемых решений, развитие дата-компетенций. Завершили пилотный проект по токенизации данных и в ближайшее время его запустят в продакшн. Учёт данных повысил прозрачность процессов и позволил описать объекты всех слоёв. Терминология в компании стала единой для всех служб. База знаний растёт и ориентирована на то, чтобы сотрудники могли самостоятельно строить аналитические отчёты.

Мнение

Димитрий Волков,
директор по цифровой трансформации АО «Русполимет»
Димитрий Волков,
директор по цифровой трансформации АО «Русполимет»

Вся инфраструктура платформы расположена в Yandex Cloud, это упрощает управление, повышает скорость работы и гарантирует надёжность. В будущем мы планируем загружать в хранилище потоковые данные, например показатели оборудования. Компания также собирается строить ML-модели, например для планирования ремонта оборудования и контроля качества выплавки. Мы продолжаем работать над безопасностью данных и совместно с компанией-партнёром внедряем Damask — решение по защите конфиденциальных данных при хранении и дальнейшем анализе.