Yandex Cloud
Поиск
Связаться с намиПодключиться
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
    • Популярные
    • Инфраструктура и сеть
    • Платформа данных
    • Контейнеры
    • Инструменты разработчика
    • Бессерверные вычисления
    • Безопасность
    • Мониторинг и управление ресурсами
    • Машинное обучение
    • Бизнес-инструменты
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Облако для интеграторов
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Контент-программа
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Истории успеха
    • Тарифы Yandex Cloud
    • Промоакции и free tier
    • Правила тарификации
  • Документация
  • Блог
Проект Яндекса
© 2025 ООО «Яндекс.Облако»
Yandex DataSphere
  • Начало работы
    • Все руководства
      • Веб-аналитика с расчетом воронок и когорт на данных Яндекс Метрики
      • AppMetrica: экспорт, постобработка и визуализация данных
      • Анализ данных с помощью Query
      • Работа с данными в Object Storage
      • Работа с данными в Managed Service for ClickHouse®
      • Работа с данными в Managed Service for PostgreSQL
      • Федеративные запросы к данным
  • Справочник Terraform
  • Аудитные логи Audit Trails
  • Управление доступом
  • Правила тарификации
  • Публичные материалы
  • История изменений

В этой статье:

  • Подготовьте облако к работе
  • 1. Подключите ClickHouse® и DataSphere
  • 1.1. Подключите ClickHouse®
  • 1.2. Подключите DataSphere
  • 1.3. Клонируйте репозиторий в DataSphere
  • 2. Получите и загрузите данные в ClickHouse®
  • 2.1. DataSphere. Выгрузите данные тестового приложения через Яндекс Диск
  • 2.2. Выгрузите данные из AppMetrica
  • 2.3. ClickHouse®. Получите адрес кластера
  • 2.4. DataSphere. Загрузите данные в ClickHouse®
  • 3. DataSphere. Сравните товары по охвату и частоте
  • 4. Подключите DataLens и создайте чарты
  • 4.1. Подключитесь к DataLens
  • 4.2. Создайте подключение к ClickHouse® в DataLens
  • 4.3. Создайте датасет на базе подключения
  • 4.4. Создайте чарт — точечная диаграмма
  • 4.5. Создайте чарт — таблица
  • 5. Создайте и настройте дашборд в DataLens
  • 6. Customer journey. Создайте QL-чарт и диаграмму Sankey
  • 6.1. Создайте QL-чарт в DataLens
  • 6.2. Создайте диаграмму Sankey в DataSphere
  1. Практические руководства
  2. Аналитика данных
  3. AppMetrica: экспорт, постобработка и визуализация данных

AppMetrica: экспорт, постобработка и визуализация данных

Статья создана
Yandex Cloud
Улучшена
Dmitry A.
Обновлена 6 марта 2025 г.
  • Подготовьте облако к работе
  • 1. Подключите ClickHouse® и DataSphere
    • 1.1. Подключите ClickHouse®
    • 1.2. Подключите DataSphere
    • 1.3. Клонируйте репозиторий в DataSphere
  • 2. Получите и загрузите данные в ClickHouse®
    • 2.1. DataSphere. Выгрузите данные тестового приложения через Яндекс Диск
    • 2.2. Выгрузите данные из AppMetrica
    • 2.3. ClickHouse®. Получите адрес кластера
    • 2.4. DataSphere. Загрузите данные в ClickHouse®
  • 3. DataSphere. Сравните товары по охвату и частоте
  • 4. Подключите DataLens и создайте чарты
    • 4.1. Подключитесь к DataLens
    • 4.2. Создайте подключение к ClickHouse® в DataLens
    • 4.3. Создайте датасет на базе подключения
    • 4.4. Создайте чарт — точечная диаграмма
    • 4.5. Создайте чарт — таблица
  • 5. Создайте и настройте дашборд в DataLens
  • 6. Customer journey. Создайте QL-чарт и диаграмму Sankey
    • 6.1. Создайте QL-чарт в DataLens
    • 6.2. Создайте диаграмму Sankey в DataSphere

В этом сценарии вы проведете анализ поведения пользователей в мобильном приложении на данных AppMetrica:

  • Обработаете данные с помощью скриптов на языке Python, описанных в Jupyter ноутбуках в Yandex DataSphere.
  • Построите чарты и дашборды в Yandex DataLens.
  • Сравните товары по охвату и частоте.

Customer journey — это последовательность действий пользователя. Анализ поведения пользователей поможет узнать, как люди используют продукт: какие страницы посещают и функции используют, где сталкиваются с трудностями. С помощью этой информации легче найти правильные решения для развития продукта.

В качестве источника будут использоваться сэмплированные и анонимизированные данные мобильного приложения Авто.ру, выгруженные из AppMetrica.

Схема архитектуры данных

image

Совет

В сценарии используется файл с предварительно выгруженными данными из AppMetrica, поэтому вы можете пройти сценарий без доступа к мобильному приложению и AppMetrica.

Для решения ваших рабочих задач рекомендуем напрямую экспортировать данные из AppMetrica в ClickHouse®.

Подготовьте облако к работе, затем исследуйте и визуализируйте данные по шагам:

  1. Подключите ClickHouse® и DataSphere
    1. Подключите ClickHouse®
    2. Подключите DataSphere
    3. Клонируйте репозиторий в DataSphere
  2. Получите и загрузите данные в ClickHouse®
    1. DataSphere. Выгрузите данные тестового приложения через Яндекс Диск
    2. Выгрузите данные из AppMetrica
    3. ClickHouse®. Получите адрес кластера
    4. DataSphere. Загрузите данные в ClickHouse®
  3. DataSphere. Сравните товары по охвату и частоте
  4. Подключите DataLens и создайте чарты
    1. Подключитесь к DataLens
    2. Создайте подключение к ClickHouse® в DataLens
    3. Создайте датасет на базе подключения
    4. Создайте чарт — точечная диаграмма
    5. Создайте чарт — таблица
  5. Создайте и настройте дашборд в DataLens
  6. Customer journey. Создайте QL-чарт и диаграмму Sankey
    1. Создайте QL-чарт в DataLens
    2. Создайте диаграмму Sankey в DataSphere

Подготовьте облако к работеПодготовьте облако к работе

Зарегистрируйтесь в Yandex Cloud и создайте платежный аккаунт:

  1. Перейдите в консоль управления, затем войдите в Yandex Cloud или зарегистрируйтесь.
  2. На странице Yandex Cloud Billing убедитесь, что у вас подключен платежный аккаунт, и он находится в статусе ACTIVE или TRIAL_ACTIVE. Если платежного аккаунта нет, создайте его и привяжите к нему облако.

Если у вас есть активный платежный аккаунт, вы можете создать или выбрать каталог, в котором будет работать ваша инфраструктура, на странице облака.

Подробнее об облаках и каталогах.

1. Подключите ClickHouse® и DataSphere1. Подключите ClickHouse® и DataSphere

1.1. Подключите ClickHouse®1.1. Подключите ClickHouse®

  1. В консоли управления выберите в списке слева Managed Service for ClickHouse®.

  2. Нажмите Создать кластер.

  3. Укажите настройки кластера ClickHouse®.

    1. Базовые параметры — укажите имя кластера appmetrica_analysis.

    2. Класс хоста — выберите тип виртуальной машины burstable и тип хоста b2.medium.

      Важно

      Не рекомендуется использовать конфигурации ВМ типа burstable в продакшн-среде. В этом руководстве они используются в качестве примера. Для продакшн-решений используйте конфигурации standard или memory-optimized.

      image

    3. Размер хранилища — оставьте значение 10 ГБ.

    4. База данных — укажите имя базы данных autoru_appmetrica, имя пользователя и пароль. Запомните эти данные.

      image

    5. Хосты — нажмите значок . Включите опцию Публичный доступ и нажмите кнопку Сохранить.

    6. Дополнительные настройки — включите 4 опции:

      • Доступ из DataLens
      • Доступ из консоли управления
      • Доступ из Метрики и AppMetrica
      • Доступ из Serverless
    7. После всех настроек нажмите кнопку Создать кластер.

1.2. Подключите DataSphere1.2. Подключите DataSphere

  1. Перейдите в консоль управления.
  2. Выберите в списке слева DataSphere.
  3. Нажмите Создать проект.
  4. Укажите название проекта appmetrica-analysis и нажмите Создать.
  5. Откройте проект. Для этого в строке с именем проекта нажмите значок → Открыть.

1.3. Клонируйте репозиторий в DataSphere1.3. Клонируйте репозиторий в DataSphere

  1. В левом верхнем углу нажмите значок Git Clone — .

    image

  2. В открывшемся окне укажите URI репозитория https://github.com/firstsvet/yandex_appmetrika_cloud_case и нажмите кнопку CLONE.

2. Получите и загрузите данные в ClickHouse®2. Получите и загрузите данные в ClickHouse®

Если у вас нет приложения AppMetrica или в нем недостаточно данных, или вы гарантированно хотите пройти все шаги инструкции и получить результат, перейдите к разделу 2.1 (пропустите 2.2).

Если у вас есть приложение AppMetrica и доступ к нему, перейдите к разделу 2.2 — этот шаг рекомендуется опытному пользователю, так как может потребоваться самостоятельная доработка скриптов (пропустите 2.1).

2.1. DataSphere. Выгрузите данные тестового приложения через Яндекс Диск2.1. DataSphere. Выгрузите данные тестового приложения через Яндекс Диск

Примечание

Пропустите этот раздел, если вы работаете с данными своего приложения.

  1. В меню слева откройте папку yandex_appmetrika_cloud_case → ноутбук 1.upload_data_from_yadisk.ipynb.

  2. Выполните все шаги (ячейки с кодом) в ноутбуке 1.upload_data_from_yadisk.ipynb.

    Чтобы выполнить шаг, нажмите на номер слева от ячейки, затем — кнопку выполнения вверху. Вместо номера появится символ [*]. После того, как номер появится снова, запустите следующий шаг.

    image

2.2. Выгрузите данные из AppMetrica2.2. Выгрузите данные из AppMetrica

Для настройки подключения и выгрузки данных из своего приложения воспользуйтесь инструкцией Экспорт данных в Yandex Cloud.

2.3. ClickHouse®. Получите адрес кластера2.3. ClickHouse®. Получите адрес кластера

  1. Перейдите в кластер ClickHouse® appmetrica_analysis, который вы создали в разделе 1.1. Дождитесь, когда у кластера появится статус Alive. После этого откройте кластер — нажмите на него.

    image

  2. Выберите в списке слева Хосты.

  3. На вкладке Обзор перейдите к столбцу Имя хоста. Чтобы скопировать имя хоста, наведите указатель мыши справа от названия хоста и нажмите значок копирования.

2.4. DataSphere. Загрузите данные в ClickHouse®2.4. DataSphere. Загрузите данные в ClickHouse®

  1. Откройте папку yandex_appmetrika_cloud_case → ноутбук 2.upload_data_to_ClickHouse®.ipynb.

  2. Вставьте данные в переменные:

    • Имя хоста из раздела 2.3 — в переменную CH_HOST_NAME.

    • Имя пользователя из раздела 1.1 — в переменную CH_USER.

    • Имя базы данных из раздела 1.1 — в переменную CH_DB_NAME.

      image

  3. В папке yandex_appmetrika_cloud_case создайте новый текстовый файл с названием chpass.txt.

    image

  4. Запишите в файл chpass.txt пароль заведенного пользователя. Сохраните и закройте файл.

  5. Выполните все шаги (ячейки с кодом) в ноутбуке.

3. DataSphere. Сравните товары по охвату и частоте3. DataSphere. Сравните товары по охвату и частоте

  1. Откройте папку yandex_appmetrika_cloud_case → ноутбук Case_1.ipynb.

  2. Вставьте данные в переменные:

    • Имя хоста из раздела 2.3 — в переменную CH_HOST_NAME.
    • Имя пользователя из раздела 1.1 — в переменную CH_USER.
    • Имя базы данных из раздела 1.1 — в переменную CH_DB_NAME.
  3. Выполните все шаги (ячейки с кодом) в ноутбуке.

  4. Посмотрите промежуточные результаты.

    image

4. Подключите DataLens и создайте чарты4. Подключите DataLens и создайте чарты

4.1. Подключитесь к DataLens4.1. Подключитесь к DataLens

  1. В консоли управления откройте страницу созданного кластера ClickHouse®.
  2. В левой части окна выберите раздел DataLens.
  3. Нажмите кнопку Создать подключение.

4.2. Создайте подключение к ClickHouse® в DataLens4.2. Создайте подключение к ClickHouse® в DataLens

  1. Заполните настройки подключения:

    1. Введите название AppMetrica_workshop.

    2. Выберите хост ClickHouse® из выпадающего списка Имя хоста.

    3. Выберите имя пользователя и введите пароль из раздела 1.1.

    4. Включите опцию Разрешить подзапросы в датасетах и запросы из чартов.

      image

    5. Нажмите кнопку Проверить подключение.

  2. После успешной проверки подключения нажмите кнопку Создать подключение, затем в открывшемся окне введите имя подключения и нажмите кнопку Создать.

4.3. Создайте датасет на базе подключения4.3. Создайте датасет на базе подключения

  1. В правом верхнем углу нажмите Создать датасет.

  2. Выберите таблицу autoru_appmetrica.auto_data в качестве источника. Для этого перетащите таблицу из списка слева в область редактирования.

  3. Откройте вкладку Поля.

  4. Создайте вычисляемое поле users:

    1. В правом верхнем углу нажмите кнопку Добавить поле.
    2. Слева вверху введите название поля users.
    3. В область справа вставьте формулу countd([appmetrica_device_id]).
    4. Нажмите кнопку Создать.

    image

  5. Повторите предыдущий шаг для других полей:

    • reach с формулой COUNTD([appmetrica_device_id])/COUNTD([appmetrica_device_id] FIXED).
    • events с формулой COUNT([session_id]).
    • events per user с формулой [events]/[users].
  6. В правом верхнем углу нажмите кнопку Сохранить.

  7. Назовите датасет autoru_backend_data и нажмите кнопку Создать.

4.4. Создайте чарт — точечная диаграмма4.4. Создайте чарт — точечная диаграмма

  1. В правом верхнем углу нажмите кнопку Создать чарт.

  2. Выберите тип Точечная диаграмма.

  3. Перетащите поля в область чарта:

    • Показатель reach в секцию X.
    • Показатель events per user в секцию Y.
    • Измерение mark в секцию Точки.
    • Измерение event_name в секцию Цвета.

    image

  4. В правом верхнем углу нажмите кнопку Сохранить.

  5. В открывшемся окне введите имя чарта Охват и события и нажмите кнопку Сохранить.

4.5. Создайте чарт — таблица4.5. Создайте чарт — таблица

  1. Выберите тип Таблица.

  2. Перетащите поля в область чарта:

    • Измерение mark в секцию Столбцы.
    • Показатель users в секцию Столбцы.
    • Показатель users в секцию Сортировка.

    image

  3. В правом верхнем углу нажмите кнопку справа от Сохранить и затем Сохранить как.

  4. В открывшемся окне введите имя чарта Таблица по маркам и нажмите кнопку Сохранить.

5. Создайте и настройте дашборд в DataLens5. Создайте и настройте дашборд в DataLens

  1. Откройте главную страницу DataLens и нажмите Создать дашборд.

  2. Добавьте чарт на дашборд.

    1. В правом верхнем углу нажмите Добавить → Чарт.
    2. Из выпадающего списка Чарт выберите Таблица по маркам. Поле Название заполнится автоматически.
    3. Нажмите кнопку Добавить.

    image

  3. Повторите предыдущий шаг для чарта Охват и события.

  4. Добавьте и настройте селектор.

    1. В правом верхнем углу нажмите Добавить → Селектор.
    2. В списке Датасет выберите autoru_backend_data.
    3. В списке Поле выберите event name.
    4. В списке Значение по умолчанию выберите любой вариант.
    5. Нажмите кнопку Добавить.
  5. Расположите чарты и селектор на дашборде. Чтобы изменить размер элемента, потяните за правый нижний угол.

  6. Сохраните дашборд:

    1. В правом верхнем углу нажмите кнопку Сохранить.
    2. Введите название дашборда auto.ru app и нажмите кнопку Создать.

    image

Попробуйте в селекторе изменить event name на другое значение — посмотрите, как изменится дашборд.

6. Customer journey. Создайте QL-чарт и диаграмму Sankey6. Customer journey. Создайте QL-чарт и диаграмму Sankey

6.1. Создайте QL-чарт в DataLens6.1. Создайте QL-чарт в DataLens

С помощью QL-чартов вы можете изучать последовательности событий и экспериментировать в DataLens.

  1. Откройте главную страницу DataLens и в меню слева выберите Подключения.

  2. Выберите подключение AppMetrica_workshop, которое вы создали на шаге 4.2.

  3. Справа вверху нажмите Создать QL-чарт.

  4. Введите запрос:

    SELECT uniqExact(t.appmetrica_device_id) as counts, events_seq, 
    
    if(events_seq like '%Звонок%', 'Звонок', 
    if(events_seq like '%Сообщение%', 'Сообщение', 'Не было контакта')) as contact
    
    FROM (
    
    SELECT
        appmetrica_device_id,
        num_steps,
        arrayStringConcat(filt_events, ' -> ') as events_seq
    FROM
        (SELECT
            appmetrica_device_id,
            groupArray(event_name) as events,
            count(event_name) as cnt_events,
            groupArray(datetime) as times,
            arrayEnumerate(events) as indexes,
            arrayDifference(arrayMap(x -> toUInt64(x), times)) as times_diffs,
            arrayFilter(e, i -> (i = 1) or (events[i - 1] != events[i]) or (times_diffs[i] >= 1800),
                        events, indexes) as filt_events,
            length(filt_events) as num_steps
        FROM 
            (SELECT
                appmetrica_device_id,
                datetime,
                event_name
            FROM autoru_appmetrica.raw_appmetrica_auto_data
            ORDER BY appmetrica_device_id,
                datetime)
        GROUP BY appmetrica_device_id
        HAVING cnt_events <= 30)) as t
    
    where  t.num_steps<10
    
    GROUP BY t.events_seq
    HAVING counts>10
    ORDER BY counts desc
    
  5. Нажмите Запустить.

  6. Выберите тип Линейчатая диаграмма.

    image

  7. В правом верхнем углу нажмите Сохранить, введите название чарта Цепочки событий.

  8. Добавьте QL-чарт на дашборд.

    1. В меню слева нажмите Дашборды.
    2. В списке выберите дашборд auto.ru app.
    3. Справа вверху нажмите Редактировать.
    4. Нажмите Добавить → Чарт.
    5. В списке Чарт выберите Цепочки событий и нажмите Добавить.
    6. Настройте внешний вид дашборда и нажмите Сохранить.

    image

6.2. Создайте диаграмму Sankey в DataSphere6.2. Создайте диаграмму Sankey в DataSphere

  1. Перейдите в консоль управления.

  2. Выберите в списке слева DataSphere.

  3. Откройте папку yandex_appmetrika_cloud_case → ноутбук Case_2.ipynb.

  4. Выполните все шаги (ячейки с кодом) в ноутбуке Case_2.ipynb.

  5. Вы получите интерактивную диаграмму Sankey, которая показывает сценарии поведения пользователей. Вы можете двигать блоки диаграммы и сохранить результат в виде изображения.

    image

ClickHouse® является зарегистрированным товарным знаком ClickHouse, Inc.

Была ли статья полезна?

Предыдущая
Веб-аналитика с расчетом воронок и когорт на данных Яндекс Метрики
Следующая
Анализ данных с помощью Query
Проект Яндекса
© 2025 ООО «Яндекс.Облако»