На старте проекта не было возможности точно оценить объём всех данных, и было принято решение запускать пилот в облаке.
Time to market как аргумент для внедрения платформы Yandex Cloud в «Леруа Мерлен Восток»

О компании
«Леруа Мерлен
Задача компании
Одна из главных задач «Леруа Мерлен» — построить платформу для управления данными, которые сейчас накапливаются децентрализовано. Это более 100 различных баз данных, включая веб-аналитику, данные по товарам и потребительским корзинам.
Два основных требования к платформе:
- масштабируемость на всех уровнях;
- возможность развития в гибридное решение.
Когда платформа будет выстроена, настанет черёд предиктивной аналитики, соединяющей данные из совершенно разных источников — как внутренних, так и внешних
Решение
В этой статье:
В проекте использовали сервисы Yandex Compute — для создания парка виртуальных машин, и Yandex Object Storage — для масштабируемого хранилища.
При реализации проекта требовалось интегрировать несколько источников данных, сложить в масштабируемую базу данных и начать аналитику. Реализованное решение выглядит следующим образом:
- NiFi — Greenplum — Kafka,
- Write-Ahead logging в Kafka,
- Поток данных к 1 источнику.
Для создания массивной параллельной базы данных выбрали Greenplum — open-source MPP СУБД. Для транспорта данных выбрали связку Apache Kafka и NiFi. На выбор решения повлиял тот факт, что до начала проекта подрядчики протестировали работу платформы Yandex Cloud и подтвердили возможность развернуть кластер в соответствии с нашими требованиями без существенной деградации производительности.

На начало 2019 года кластер Greenplum, являющийся ядром системы, состоит из семи узлов: 2 хоста vCPU 12, RAM 72 ГБ и 5 хостов vCPU 32, RAM 256, 5TB SSD.
Результаты
Главный результат первого этапа — развёрнутый кластер, способный принять терабайты данных, запуск тестовых стендов Hadoop, S3 и Spark процессинг.
На практике это означает сокращение до минимума временных затрат:
- увеличение количества нод в Greenplum — по клику;
- создание песочницы Greenplum / Spark / Hadoop — 10 минут (по клику).
В ходе реализации проекта были сформулированы правила для команды, без которых бизнес не сможет работать в цифровую эпоху:
- Каждое бизнес-подразделение — собственник данных.
- Владелец данных отвечает за их доступность для бизнеса в реальном времени.
- Владелец данных отвечает за управление и описание данных.
- Операции с данными стоят денег.
Включение элемента биллинга конечных пользователей на первом этапе возможно, но не должно быть барьером для проникновения пользователей в цифровую платформу. При этом должно формироваться понимание логики этих расчётов, а в дальнейшем и аллокация расходов на потребление сервисов.

