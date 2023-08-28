Этап I

Сначала нужно загрузить данные счётчиков из Яндекс Метрики в бакет Object Storage. Из бакета легко получать данные для дальнейшей обработки, а также это недорогой способ хранения.

Основная сложность на этом этапе — большой объём данных Метрики у крупных клиентов. Для получения данных компания использует Logs API, который позволяет получать данные из Яндекс Метрики в виде единого отчёта, разделённого на множество партиций. После запроса к Logs API Data Stories с помощью скрипта проверяют статус отчёта и количество партиций в нём.

API_HOST = 'https://api-metrika.yandex.ru' header = {'Authorization': f'OAuth {TOKEN}', 'Content-Type': 'application/x-yametrika+json', 'Accept-Encoding': 'gzip'} url = f'{API_HOST}/management/v1/counter/{COUNTER_ID}/logrequest/{request_id}' r = requests.get(url, headers=header) if json.loads(r.text)['log_request']['status'] == 'processed': parts = json.loads(r.text)['log_request']['parts']

Когда отчёт готов, скрипт запускает последовательное скачивание всех партиций, архивирует их по одной и сохраняет в бакет Object Storage.

for part_num in parts_numbers: url = f'{API_HOST}/management/v1/counter/{COUNTER_ID}/logrequest/{request_id}/part/{part_num}/download' r = requests.get(url, headers=header_dict) if r.status_code == 200: tmp_df = pd.read_csv(StringIO(r.text), sep = ' ', dtype = object) bytes_csv = BytesIO() with gzip.GzipFile(mode='w', fileobj=bytes_csv) as gz_file: tmp_df.to_csv(TextIOWrapper(gz_file, 'utf8'), index=False) bytes_csv.seek(0) s3.upload_fileobj( Fileobj=bytes_csv, Bucket=bucket, Key=f'{DATE}/{PART}.csv.gz', ExtraArgs={ 'ContentType' : 'text/csv', 'ContentEncoding' : 'gzip'})

Этап II

Далее Data Stories предварительно обрабатывают сырые данные. Для этого архивы извлекаются из бакета Object Storage и файлы обрабатываются в Yandex Data Processing с помощью задания PySpark (пример такой обработки есть в документации Yandex Cloud). Кластерами Yandex Data Processing легко управлять, например их можно создавать под конкретные задачи и удалять, когда они больше не нужны. Это позволяет решению Data Stories соблюдать баланс производительности и затрат на вычислительные ресурсы.

В результате обработки из каждого исходного csv-файла формируется более компактный и удобный для дальнейшей работы Parquet-файл. Все полученные файлы записываются в отдельные бакеты Object Storage как промежуточный результат работы.

Этап III

Data Stories продолжают обработку данных в Yandex Data Processing, формируя отдельные Parquet-файлы для каждой из витрин данных. Полученные файлы сохраняются в бакеты Object Storage и сразу же загружаются в базу Yandex Managed Service for ClickHouse®, как уже готовый источник данных для визуализации.

Этап IV

На последнем этапе обработанные данные визуализируют с помощью Yandex DataLens. Так как Data Stories выгружают из Метрики все доступные поля по параметрам Метрики, то визуализация может быть любой и зависит от запросов конкретного клиента. DataLens позволяет создавать дашборды любой сложности и имеет встроенную интеграцию с ClickHouse®, что позволяет не тратить лишние усилия на интеграцию сторонних продуктов и не перемещать данные за пределы вычислительного контура, созданного в Yandex Cloud.

Чаще всего запросы клиентов включают визуализацию динамики просмотров с различных устройств, целевых визитов, просмотров по различным каналам, конверсии из просмотров, посетителей и визитов.