Архитектура аналитической платформы Flocktory
Flocktory в Yandex Cloud: обработка 699 ГБ данных и аналитика в реальном времени

О чём эта история
Flocktory
Flocktory построила масштабируемую аналитическую платформу в Yandex Cloud, устранив проблему разрозненных источников и медленной обработки данных. Ежедневно она обрабатывает до 699 ГБ данных, формирует витрину более чем с 40 идентификаторами, отвечает за три секунды по любому срезу за год.

Ускорение аналитики и агрегация данных
Изначально Flocktory опиралась на разрозненные и негибкие инструменты, что серьёзно ограничивало эффективность аналитики. Из-за разрозненности источников извлечение и агрегация информации занимали слишком много времени. Метрики не согласовывались между собой, создавая путаницу в данных. Сотрудникам приходилось вручную рассчитывать ключевые показатели, это отнимало много ресурсов и затрудняло понимание реального состояния продукта. Компании не хватало единой витрины данных и системы для оперативного анализа информации.
Для решения этой задачи команда Flocktory решила разработать новую, масштабируемую аналитическую платформу, которая обеспечит полный контроль над бизнесом и позволит обрабатывать метрики в реальном времени.
Начиная с 2020 года компания постепенно переносила свои системы в инфраструктуру Yandex Cloud, поэтому решила задействовать её и для проекта аналитики. Yandex Cloud обеспечивает практически неограниченное масштабирование ресурсов и качественную техническую поддержку, а её облачные ресурсы соответствуют требованиям международных стандартов безопасности. Кроме того, Yandex Cloud предоставляет необходимый для Flocktory набор управляемых сервисов и поддерживает AWS API, что критично для миграции и нового развёртывания.
В этой статье:
Построение масштабируемой аналитической платформы в Yandex Cloud
Flocktory постепенно мигрировала в Yandex Cloud, оптимизируя инфраструктуру под растущие нагрузки и требования к аналитике. Переход стартовал в 2020 году с пилотного развёртывания в облаке. В 2021 году команда перенесла в Yandex Cloud ключевые модули платформы. Следующим шагом стала обработка больших данных и применение машинного обучения — это заметно усилило аналитические возможности платформы. В 2025 году компания завершила миграцию и внедрила гибридные сценарии работы с легаси-системами.
Flocktory работает по модели SaaS. Она собирает, хранит и анализирует поведенческую информацию пользователей, опираясь на технологии работы с большими данными. Архитектура платформы построена по модульному принципу. Её ядро обрабатывает единый поток данных и общую базу профилей пользователей. К ядру подключено более 15 модулей, каждый из которых решает конкретные задачи: генерирует лиды, персонализирует предложения, запускает реферальные программы и триггерные коммуникации. Важную роль играет аналитический блок. Он обеспечивает сквозную отчётность, позволяет проводить A/B-тестирование и детализированную сегментацию. За сбор и передачу данных отвечает интеграционный слой — он работает с кодом, размещённым на сайте партнёра. Платформа поддерживает API-интеграцию с внешними сервисами: CRM и CMS-системами, платёжными шлюзами и рекламными платформами.
Разработка аналитической платформы заняла год. Проект прошёл три этапа. На первом команда собрала требования к данным. Специалисты определили ключевые бизнес-сущности, построили деревья метрик для каждого продукта, выделили модели монетизации и описали сценарии использования данных. Основная трудность при разработке заключалась в построении модели данных с учётом всех бизнес-сущностей. Для этого собрали отдельную рабочую группу.
На втором этапе разработчики выстроили пайплайн для организации сквозного потока данных через все инструменты хранения, обработки и визуализации информации.
На третьем этапе исправили ошибки: дублирование логики между витринами и медленное обновлений при изменениях в схеме.

Технологическая база решения опирается на ряд сервисов Yandex Cloud. Yandex Compute Cloud обеспечивает необходимые вычислительные мощности. За оркестрацию контейнеров отвечает Yandex Managed Service for Kubernetes®. В роли распределённой СУБД для высоконагруженных операций — сегментации аудитории, обработки событий и хранения метаданных — выступает Yandex Managed Service for YDB. Хранение операционных данных организовано с помощью Yandex Managed Service for PostgreSQL. Yandex Object Storage хранит логи пользовательских действий, резервные копии баз данных, медиаконтент для персонализированных кампаний и промежуточные данные ETL-процессов. Движком для обработки больших объёмов информации выступает Trino. В Yandex Managed Service for ClickHouse® агрегируют данные и готовят витрины, а в Yandex DataLens
Для обработки сырых данных развернули Apache Hadoop® и Apache Spark™ с Yandex Data Processing. Бессерверные вычисления для лёгких ETL-процессов выполняют с помощью Yandex Cloud Functions. Анализ изображений, включая модерацию контента в реферальных программах, обеспечивает Yandex Vision OCR. Передачу событий в реальном времени реализовали через Yandex Managed Service for Apache Kafka®, а оркестрацию ETL-процессов с использованием Yandex Managed Service for Apache Airflow®. В работе также применили Yandex Monitoring, Yandex API Gateway, Yandex Virtual Private Cloud, Yandex Certificate Manager и Yandex Identity and Access Management.

Визуализация аналитических данных в DataLens
Аналитика 699 ГБ данных в день
Flocktory создала гибкую масштабируемую аналитическую платформу. Она обеспечивает компанию инструментами для принятия решений в реальном времени и контроля над бизнесом. Ежедневно через платформу проходит до 699 ГБ данных. Сводная информация отображается в единой витрине: там представлено свыше 40 идентификаторов и справочных атрибутов. Получить информацию по любому срезу за период до одного года можно максимум за три секунды. Платформа отслеживает более 60 метрик — от кликов и аксептов до маржи и планов. Поддерживаются разные модели монетизации (CPO, ELGF, Phone Leads). Кроме того, платформа предоставляет точную аналитику по партнёрам, оферам, кампаниям и баннерам. Она оказала прямое влияние на KPI для всей группы продуктов благодаря скорости и правильности принятия решений.
В ближайших планах — развитие модели данных. Специалисты намерены расширить логику и оптимизировать структуру витрин. Также планируют добавить новые метрики и срезы данных: это позволит поддержать новые направления бизнеса. Ещё одна задача на ближайшее будущее — разработка сквозной аналитики для A/B-тестов.

