Запись

Единый источник данных в data-driven компаниях

13 апреля 2021 г. в 19:00Online
  • Managed Service for ClickHouse®

Запись

О мероприятии

На митапе поговорим о методах и инструментах скоринга входных данных, их агрегации и создании единой системы в офлайн- и онлайн-ритейле, банкинге и облачных сервисах. На примерах покажем, как с помощью данных оптимизируются устоявшиеся бизнес-процессы в компаниях.

Поделимся опытом того, как:

  • Yandex.Cloud производит поддержку хранения и обработки данных в СУБД ClickHouse в S3;
  • Авито упростил и консолидировал работу дата-специалистов с витринами данных;
  • Райффайзенбанк решил задачу расположения банкоматов с помощью JupyterHub и создал модель оптимизации ценообразования в тендерах при помощи Jupyter на Mac;
  • Леруа Мерлен обучил модель контролировать качество товара от поставщиков на складах на основе lightGBM.

Докладчики

Программа

19:00

Начало регистрации

19:00

Создание Data Platform в Леруа Мерлен

Расскажу об архитектуре Data Platform Леруа Мерлен, а также сделаю обзор новинок и инструментов для работы с данными и их обработки, покажу, как мы пользуемся ими. Детально обсудим: способы и инструменты интеграции нереляционных источников данных (Kafka/Nifi/Object Storage/Spark); потоковую обработку CDC на платформе Apache Flink; снижение порога вхождения для работы с данными с помощью Apache Superset.

19:20

Данные в S3: поддержка S3 storage в ClickHouse, а также как выполнить select-запрос к файлу, не имея никакой СУБД

Расскажу о поддержке хранения и обработки данных в СУБД ClickHouse в S3. Впервые представлю новый функционал по поддержке select-запросов для parquet/csv файлов в S3 (Yandex Object Storage). Объясню, чем одно отличается от другого.

19:40

Витрины данных в Авито и их применение в бизнес-задачах

Расскажу о витринах данных в Авито и о том, как упростить жизнь аналитиков и дата-инженеров. Детально обсудим, какие бывают витрины; как создать/поправить витрину (отличия от вью, код витрины, проверки витрин); как произвести пересчет витрины за нужную дату, мониторинг, качество данных (чекеры), выгрузки; как произвести регламентный расчет (дерево зависимостей, парсинг кода, потоки, SLA витрины); как пересчитать части дерева, удалить, архивировать; как решить задачи распределения времени 14 дата-инженеров на потребности более 100 аналитиков и сайентистов, задачи постановки витрины на регламент за 1 день, задачи корректировки день в день.

20:00

От анализа данных до внедрения в прод: как инфраструктура помогает обучать и внедрять ML-модели

Расскажу о платформе данных Райффайзенбанка Data Lake. Обсудим, как с ее помощью произвести моделирование тендеров для закупок — моделирование разных параметров и подходов к ценообразованию у заказчика для нахождения оптимального предложения. Как обработать гипотезу по оптимизации расстановки мест для банкоматов с помощью JupyterHub на основе данных транзакционной активности клиентов, исторических данных с банкоматов, а также данных Open Street Map. Как создать чатбот, научиться распознавать паспорта, 2-НДФЛ и отчеты об оценке залогов для ускоренного ввода данных в систему с помощью виртуальной машины в виртуальном частном облаке VMWare, по cenb такой IAAS, есть шаблоны с CPU/GPU.

А также про два паттерна вывода в prod: модель как бэк в веб-сервисе (автоматическая классификация текста жалоб клиентов); модель как UDF-функция в режиме пакетной обработки на Spark (предсказание спроса на наличные в банкоматах).

20:20

Cветофор 2.0: страх и ненависть на пути от экселя к градиентному бустингу

Расскажу о «Светофоре» — сервисе по точечному выявлению проблемных поставок от поставщиков, работающему для оптимизации приемки в магазинах и распределительных центрах Леруа Мерлен Россия.
Поделюсь, с какими трудностями столкнулась наша команда во время разработки. Расскажу про ключевые факторы для успешного внедрения ML-продукта в компании с большим количеством офлайн-процессов и о том, как применить модель lightGBM (сервинг Kubernetes), переобучить на Airflow, DVC, custom model registry.

Как добраться

Online