О компании

«Леруа Мерлен» (входит в GROUPE ADEO) — международная компания, которая специализируется на продаже товаров для строительства и обустройства дома, дачи и сада. Российская сеть насчитывает 75 магазинов, причём гипермаркет в Красногорске занимает 1-е место в мире среди всех магазинов группы по товарообороту и численности покупателей.

Задача компании

Одна из главных задач «Леруа Мерлен» — построить платформу для управления данными, которые сейчас накапливаются децентрализовано. Это более 100 различных баз данных, включая веб-аналитику, данные по товарам и потребительским корзинам.

Два основных требования к платформе:

  • масштабируемость на всех уровнях;
  • возможность развития в гибридное решение.

Когда платформа будет выстроена, настанет черёд предиктивной аналитики, соединяющей данные из совершенно разных источников — как внутренних, так и внешних

На старте проекта не было возможности точно оценить объём всех данных, и было принято решение запускать пилот в облаке.

Решение

В проекте использовали сервисы Yandex Compute — для создания парка виртуальных машин, и Yandex Object Storage — для масштабируемого хранилища.

При реализации проекта требовалось интегрировать несколько источников данных, сложить в масштабируемую базу данных и начать аналитику. Реализованное решение выглядит следующим образом:

  • NiFi — Greenplum — Kafka,
  • Write-Ahead logging в Kafka,
  • Поток данных к 1 источнику.

Для создания массивной параллельной базы данных выбрали Greenplum — open-source MPP СУБД. Для транспорта данных выбрали связку Apache Kafka и NiFi. На выбор решения повлиял тот факт, что до начала проекта подрядчики протестировали работу платформы Yandex Cloud и подтвердили возможность развернуть кластер в соответствии с нашими требованиями без существенной деградации производительности.

На начало 2019 года кластер Greenplum, являющийся ядром системы, состоит из семи узлов: 2 хоста vCPU 12, RAM 72 ГБ и 5 хостов vCPU 32, RAM 256, 5TB SSD.

Результаты

Главный результат первого этапа — развёрнутый кластер, способный принять терабайты данных, запуск тестовых стендов Hadoop, S3 и Spark процессинг.

На практике это означает сокращение до минимума временных затрат:

  • увеличение количества нод в Greenplum — по клику;
  • создание песочницы Greenplum / Spark / Hadoop — 10 минут (по клику).

В ходе реализации проекта были сформулированы правила для команды, без которых бизнес не сможет работать в цифровую эпоху:

  • Каждое бизнес-подразделение — собственник данных.
  • Владелец данных отвечает за их доступность для бизнеса в реальном времени.
  • Владелец данных отвечает за управление и описание данных.
  • Операции с данными стоят денег.

Включение элемента биллинга конечных пользователей на первом этапе возможно, но не должно быть барьером для проникновения пользователей в цифровую платформу. При этом должно формироваться понимание логики этих расчётов, а в дальнейшем и аллокация расходов на потребление сервисов.

Мнение

Дмитрий Шостко,
Chief Data Officer «Леруа Мерлен Восток»
Дмитрий Шостко,
Chief Data Officer «Леруа Мерлен Восток»

Мы выбрали Yandex Cloud за зрелость, потенциал и возможность совместного развития. Специалисты Яндекс.Облака приложили все усилия для того, чтобы предложить максимально работоспособный сервис с той производительностью, которой требовал конкретный компонент платформы «Леруа Мерлен» в рамках пилота. Объём сервисов, который мы потребляем сегодня, составляет лишь 5% от того, что мы будем потреблять в будущем. Для нас облако — это возможность получить ген масштабируемости и внедрить его в ДНК нашего бизнеса.