Как Автостэлс-Тех построил аналитическую платформу для управления данными

О чём эта история
Автостэлс-Тех
Совместно с партнёром компания создала архитектуру для построения математических моделей, хранилище данных для аналитики и отчётности объёмом 1,2 ТБ, на 34% снизила время на разработку дашбордов и экономит 30 часов рабочего времени в неделю, которые раньше уходили на Excel‑отчёты.
Задача компании
В этой статье:
Автостэлс работает более чем с 1200 поставщиками и имеет в системе более 222 млн артикулов. У компании есть собственный склад площадью 10 000 кв. м в Московской области. Клиенты забирают оттуда товары самостоятельно или пользуются услугами специализированной службы доставки по России. Двадцать два филиала Автостэлс расположены от Калининграда до Владивостока. У компании более 5000 клиентов B2B из регионов РФ, от небольших автомастерских до крупных магазинов и дилерских центров.
Кроме портала по продаже автозапчастей компания разрабатывает экосистему для СТО, аналитическую платформу для внутренних пользователей, сервисы для партнёров, панель управления продажами через маркетплейсы, портал по работе с поставщиками.
У Автостэлс отсутствовало единое хранилище данных, а корпоративная отчётность требовала много времени на подготовку и не была достаточно функциональной. Процессы не были автоматизированы, отчёты Excel выполнялись вручную. Компании нужно было создать общее хранилище для аналитики, быстрой и функциональной отчётности и построения математических моделей. Требовалось решение, которое будет развиваться вместе с компанией и обеспечит подключение новых источников, лёгкий доступ для бизнес-пользователей и дальнейшую возможность монетизации данных, будь то продажа наборов данных пользователям или модель, в которой данные — ключевой актив компании.
Для создания системы аналитики компании нужен был управляемый сервис для Greenplum®, сервис визуализации отчётов и виртуальные машины. При выборе Автостэлс‑Тех ориентировался на наличие управляемых сервисов, скорость развёртывания нужных сервисов, возможность масштабирования инфраструктуры, удобство эксплуатации, лучшее соотношение цены и качества и отзывчивую поддержку. В Yandex Cloud для работы выбрали Managed Service for Greenplum®, DataLens, виртуальные машины Compute Cloud.
Решение
Построение нового хранилища заняло пять месяцев. Основная особенность проекта — необходимость загрузить более 222 млн артикулов. Для усиления собственной команды разработки Автостэлс‑Тех привлёк партнёра — GlowByte
Несмотря на то что проект построения data-платформы в Автостэлс является первым подобным решением в отрасли, он прошёл успешно и гладко. Ключевыми факторами успеха считаю слаженную работу совместной команды экспертов от Автостэлс‑Тех и GlowByte, а также надёжную инфраструктуру от Yandex Cloud. Благодаря проекту была решена стратегическая задача по созданию аналитической платформы, которая открывает возможности для реализации новых инициатив и извлечения дополнительной прибыли из имеющихся данных в организации.
Кирилл Солянов,
руководитель группы аналитики GlowByte
На схеме уже реализованная часть проекта показана белым цветом, а то, что запланировано на ближайшее время, — голубым.

Сейчас данные поступают раз в два часа из MSSQL, в дальнейшем источников данных станет больше. Для загрузки данных в raw-слой используют Apache NiFi — open-source-ETL-инструмент, который работает с различными источниками данных. Оркестрацию ведут при помощи Apache AirFlow™. Фреймворк dbt (Data Build Tool) — инструмент для преобразования данных в хранилище.
При выборе инструмента управления и аналитики данных ориентировались на управляемые сервисы и остановились на Greenplum®, потому что он лучше, чем ClickHouse®, работает с join’ами. Dbt передаёт в Greenplum® данные, разложенные на Detailed Data Storage (DDS), Common Data Model (CDM) и Data Mart. DDS — детальный слой данных с нормализованной и унифицированной моделью. CDM решает задачу расширения DDS и унификации общих алгоритмов, результаты которых в дальнейшем можно использовать в прикладных витринах. Data Mart — финальный слой прикладных витрин данных, адаптированных под конкретную бизнес-задачу. Подготовленные для аналитики данные визуализируют в DataLens. С данными из Greenplum® могут в дальнейшем работать инструменты машинного обучения.
На одном из этапов компания столкнулась со сложностями во взаимодействии Greenplum® с DataLens. Количество соединений было чрезмерным, эту проблему решили переключением на другой порт. Также столкнулись с необходимостью учитывать различия между регистрозависимым поиском Greenplum® и регистронезависимыми ключевыми словами в SQL. Автостэлс‑Тех визуализирует данные о продажах, заказах, выручке, валовой прибыли и наценке; прогнозирует выручку до конца месяца, на данных предыдущих периодов, с учётом праздников, дней недели и общего тренда; сравнивает различные показатели год за годом; проводит сегментацию клиентов для разных этапов пользовательских сценариев, оценивая, как новый функционал улучшает конверсию на том или ином этапе.
Для работы коммерческого департамента подготовили отчёты по финансовым показателям, планфактный анализ, показатели конверсии, аналитику юнит-экономики и анализ по сегментам клиентов.
Результаты
Разработка нового хранилища заняла пять месяцев. Коммерческому департаменту оперативно продемонстрировали управленческие отчёты. Объём хранилища сейчас составляет 1,2 ТБ. Обновление данных производится каждые 2 часа; полный цикл обновления всех слоёв хранилища — около часа. Это данные 8 бизнес-областей (например: поставки, товары, продажи), 35 сущностей (клиент, поставщик, контрагент, календарь и др.), 430 атрибутов (идентификатор, ИНН, количество товара и т. д.). Эти данные помогают оценивать продажи в различных срезах и маржинальность, контролировать планы, сравнивать финансовые показатели по временным отрезкам. Благодаря этому основная экономия времени приходится на коммерческий департамент, сотрудникам которого теперь не нужно тратить ежедневно по два часа на создание вручную отчётов Excel. Для коммерческого департамента разработали 6 дашбордов.
Пример дашборда — на слайде.

Возросла скорость решения ad-hoc-задач, появилась разработка ds-моделей и дашбордов для коммерческого департамента. Реализованное решение удобно поддерживать благодаря использованию управляемых сервисов. Все расходы прозрачны, и их просто оценить.


