О чем эта история

Компания RADAR поставила своей целью создать независимую эффективную систему измерения аудитории наружной рекламы. Чтобы измерять аудиторию более точно, компания использует big data из нескольких источников. RADAR искали российского облачного провайдера для миграции из Amazon Web Services. По результатам тестирования компания выбрала платформу Yandex Cloud, оценив возможности быстрого масштабирования.

Система развернута в Yandex Managed Service for Kubernetes®. На данный момент RADAR ежедневно получает большие объемы потоковых данных от сотовых операторов, агрегатора данных мобильных приложений Start.io и DMP-платформ. Облачное развертывание позволило довести охват аудитории мобильных операторов до 40%, а совокупное покрытие GPS-данных до 90% населения страны. Объем данных достигает 10 ТБ в месяц, для их хранения используется Yandex Object Storage.

Эффективный независимый сервис для измерения аудитории наружной рекламы

RADAR — первый в России независимый измеритель аудитории наружной рекламы. Он анализирует не рекламные поверхности, а аудитории, которые с ними взаимодействуют. Для точного и независимого измерения сервис использует big data. RADAR помогает спланировать рекламную кампанию out of home для выделенных сегментов целевых аудиторий, провести ретаргетинг из офлайна в онлайн-системы MyTarget, Yandex, Google или MediaDesk, персонализировать рекламные предложения, оценить эффективность проведенных кампаний.

RADAR регулярно собирает данные об аудитории в городах РФ из нескольких источников — от операторов сотовой связи, от мобильных приложений и от геолокационных сервисов. Для работы с big data нужна надежная физическая инфраструктура. При разработке сервиса возможности собственной серверной инфраструктуры были быстро исчерпаны. Кроме того, в команде не хватало специалистов для обслуживания серверов баз данных и самой инфраструктуры. В этих условиях RADAR решили перейти на облачные технологии, чтобы преодолеть ограничения вычислительных ресурсов, минимизировать финансовые и временные затраты.

Выбор облака

Раньше команда два года работала с Amazon Web Services в другом своем проекте, поэтому сначала использовали инструменты AWS. Скоро стало очевидно, что необходимо расширить набор облачных инструментов и масштабировать физическую инфраструктуру. Приходилось часто взаимодействовать с технической поддержкой, но с иностранной облачной платформой не всегда удавалось решить вопросы быстро. Компания понимала, что в дальнейшем будет разрабатывать именно облачные продукты и нужно выбрать гибкую платформу с широкими возможностями масштабирования, оперативной технической поддержкой и хорошей обратной связью. Веским аргументом за миграцию в российское облако стала существенная разница в законодательстве стран, из-за которой усложнялся документооборот, в частности налоговая отчетность.

Yandex Cloud полностью подходила под требования RADAR. Платформа предлагает оперативную поддержку, хорошую масштабируемость и соответствующий российским нормам документооборот, а кроме того, удовлетворяет требованиям ФЗ-152, обеспечивает безопасность данных и предоставляет очень широкий набор сервисов. RADAR, в свою очередь, активно участвует в развитии облачной платформы, пробуя новые сервисы, находящиеся на стадии Preview, и давая обратную связь. Сначала команда RADAR развернула в облаке проект компании Advance — анализ и прогнозирование для телевизионной рекламы, а затем перенесла в Yandex Cloud и RADAR.

Быстрая обработка и анализ big data

Сервис учитывает скорости движения потоков и движение объектов навстречу поверхности, местоположение каждой рекламной конструкции, ее характеристики и ориентацию к потоку трафика и обновляет все эти данные каждый день. Поэтому главной задачей было адаптировать технологический стек к быстрому масштабированию. Проект начинался с одной небольшой базы данных и одного хоста в Kubernetes®. Но затем потребовалось обрабатывать терабайты данных от геолокационных сервисов, сотовых операторов, платформ управления данных. Часть этих данных должна обрабатываться в потоковом режиме и без возможности потери.

Используя опыт с проектом анализа телевизионной рекламы, RADAR разработали и развернули в облаке MVP всего за три месяца. В MVP входили сервисы и API для обработки потоков данных. К сервису подключили клиента с собственной DSP-системой, который уже мог использовать результаты анализа аудитории RADAR для запуска рекламных кампаний. Первые полгода компания занималась полным развертыванием: запускала сервисы получения, предагрегации и обработки данных. Клиенты тестировали функциональность. При эксплуатации продукта возникла необходимость улучшить горизонтальное масштабирование, и RADAR приняли решение перейти на Apache Kafka®.

Сейчас реализованы и функционируют все сервисы RADAR. Проект разместился на трех кластерах Yandex Managed Service for Kubernetes®. В одном из кластеров развернута вся бизнес-логика: перемещение, обработка и анализ данных. Входящие необработанные данные хранятся в Yandex Object Storage. Менеджментом сообщений сервисов занимается Apache Kafka®.

После обработки информации и получения результатов суточный агрегат данных, который позволяет отдавать аналитику клиенту, записывается в кластер в Yandex Managed Service for ClickHouse. Там же хранятся логи сервисов для мониторинга и последующей аналитики. Более подробные гранулярные рекламные данные, служащие для ad hoc исследований и ведения истории, сохраняются в Object Storage. Система, работающая с этими данными, должна быть высокопроизводительной. RADAR выбрали Trino — механизм SQL-запросов, созданный для работы с big data, — и развернули его в управляемом Kubernetes в Yandex Cloud. Один узел представляет собой примерно 30 CPU и 300 ГБ оперативной памяти, и таких узлов в кластере около десяти.

В третьем кластере Kubernetes® развернут клиентский API, с помощью которого пользователи, например, получают формализованные отчеты из ClickHouse. Метаинформацию о рекламных кампаниях, подключенных поверхностях и аудитории RADAR хранит в Yandex Managed Service for MongoDB. Эти данные используют DSP-системы, которые принимают решения показать креатив на рекламной поверхности. При необходимости данные могут выдаваться и в потоковом режиме. Для представления части отчетов и результатов ad hoc исследований используется Yandex DataLens.

Результаты

Компании удалось создать пайплайн для обработки очень большого объема входных данных, их быстрого анализа и доставки аналитики до конечных пользователей. На данный момент RADAR отслеживает более 300 тысяч рекламных поверхностей по всей стране. Сервис получает данные мобильных операторов с суммарной аудиторией 40% от населения страны. А совокупное покрытие GPS-данных, полученных из разных источников, достигает 90% населения. Сейчас этот объем составляет 10 ТБ в месяц и постоянно растет благодаря подключению новых поставщиков.

Сбор данных ведется постоянно и полностью обезличен. RADAR сегментирует аудиторию по возрастным категориям, полу, доходу, семейному положению и другим параметрам, что позволяет решить большинство задач рекламодателей.

Сейчас компания разрабатывает еще одну модель профилирования данных, которая позволит определять не только принадлежность конкретного трека к региону или городу, но и характер передвижения уникального пользователя и даже его пол. RADAR планируют протестировать эту модель в Yandex DataSphere.

Также в данный момент компания тестирует Yandex Data Streams. Этот сервис может помочь с потоковой обработкой растущего объема логов цифровых рекламных поверхностей, которые все чаще заменяют статические щиты.

Кроме того, RADAR активно тестируют новые инфраструктурные сервисы Yandex Cloud, такие как Yandex Cloud Logging, Application Load Balancer и Cloud DNS.

Мнение

Алексей Хайновский,
co-founder и директор по технологиям компании RADAR
Алексей Хайновский,
co-founder и директор по технологиям компании RADAR

В 2008 году я участвовал в отраслевой конференции, где один из докладчиков рассказывал про светлое будущее в облаках. Конечно, тогда такой подход был очень далек публике. Команда Yandex Cloud очень быстро развивает платформу и набор сервисов, оказывает все необходимое сопровождение и всегда готова слушать. Это позволяет даже не думать о том, чтобы начинать проекты на собственном железе. За год по объему получаемых и обрабатываемых данных проект вырос в десятки раз. Нам бы не успевали серверы подвозить с такой скоростью роста, а в Yandex Cloud это решается несколькими кликами мышки. И, безусловно, мы уверены в безопасности наших данных, в надежности наших сервисов и в будущем совместном развитии.