О компании
«Леруа Мерлен» (входит в GROUPE ADEO) — международная компания, которая специализируется на продаже товаров для строительства и обустройства дома, дачи и сада. Российская сеть насчитывает 75 магазинов, причём гипермаркет в Красногорске занимает 1-е место в мире среди всех магазинов группы по товарообороту и численности покупателей.
Задача компании
Одна из главных задач «Леруа Мерлен» — построить платформу для управления данными, которые сейчас накапливаются децентрализовано. Это более 100 различных баз данных, включая веб-аналитику, данные по товарам и потребительским корзинам.
Два основных требования к платформе:
- масштабируемость на всех уровнях;
- возможность развития в гибридное решение.
Когда платформа будет выстроена, настанет черёд предиктивной аналитики, соединяющей данные из совершенно разных источников — как внутренних, так и внешних
Решение
В проекте использовали сервисы Yandex Compute — для создания парка виртуальных машин, и Yandex Object Storage — для масштабируемого хранилища.
При реализации проекта требовалось интегрировать несколько источников данных, сложить в масштабируемую базу данных и начать аналитику. Реализованное решение выглядит следующим образом:
- NiFi — Greenplum — Kafka,
- Write-Ahead logging в Kafka,
- Поток данных к 1 источнику.
Для создания массивной параллельной базы данных выбрали Greenplum — open-source MPP СУБД. Для транспорта данных выбрали связку Apache Kafka и NiFi. На выбор решения повлиял тот факт, что до начала проекта подрядчики протестировали работу платформы Yandex Cloud и подтвердили возможность развернуть кластер в соответствии с нашими требованиями без существенной деградации производительности.
На начало 2019 года кластер Greenplum, являющийся ядром системы, состоит из семи узлов: 2 хоста vCPU 12, RAM 72 ГБ и 5 хостов vCPU 32, RAM 256, 5TB SSD.
Результаты
Главный результат первого этапа — развёрнутый кластер, способный принять терабайты данных, запуск тестовых стендов Hadoop, S3 и Spark процессинг.
На практике это означает сокращение до минимума временных затрат:
- увеличение количества нод в Greenplum — по клику;
- создание песочницы Greenplum / Spark / Hadoop — 10 минут (по клику).
В ходе реализации проекта были сформулированы правила для команды, без которых бизнес не сможет работать в цифровую эпоху:
- Каждое бизнес-подразделение — собственник данных.
- Владелец данных отвечает за их доступность для бизнеса в реальном времени.
- Владелец данных отвечает за управление и описание данных.
- Операции с данными стоят денег.
Включение элемента биллинга конечных пользователей на первом этапе возможно, но не должно быть барьером для проникновения пользователей в цифровую платформу. При этом должно формироваться понимание логики этих расчётов, а в дальнейшем и аллокация расходов на потребление сервисов.
Мнение
Мы выбрали Yandex Cloud за зрелость, потенциал и возможность совместного развития. Специалисты Яндекс.Облака приложили все усилия для того, чтобы предложить максимально работоспособный сервис с той производительностью, которой требовал конкретный компонент платформы «Леруа Мерлен» в рамках пилота. Объём сервисов, который мы потребляем сегодня, составляет лишь 5% от того, что мы будем потреблять в будущем. Для нас облако — это возможность получить ген масштабируемости и внедрить его в ДНК нашего бизнеса.