Так, онлайн‑школа Skyeng на 10% сократила расходы на аналитику после миграции в облачное корпоративное хранилище и повысила скорость работы с базами данных.

Данные в облаке: как EdTech‑компании оптимизируют процесс обучения и увеличивают продажи
В этой статье Анна Даскал, директор по развитию клиентов Yandex Cloud, рассказывает, как Skyeng и другие образовательные платформы используют облачное хранилище данных для анализа информации и принятия стратегических решений.
Образовательные платформы ежедневно обрабатывают терабайты данных: информацию о студентах и преподавателях, записи уроков, метрики активности участников учебного процесса. Как показывает опыт клиентов Yandex Cloud, единая система сбора и анализа этих данных в облаке помогает EdTech‑компаниям повышать качество продукта и эффективно использовать внутренние ресурсы бизнеса.
Как построить такое хранилище и с помощью каких инструментов анализировать и визуализировать данные — расскажем в статье.
Зачем EdTech‑компаниям хранилище данных в облаке и как его построить
Data Warehouse (DWH, хранилище данных) — централизованная система, предназначенная для обработки и анализа данных из различных источников. Анализ помогает компаниям, в том числе EdTech‑платформам, видеть целостную информационную картину и на основе этого принимать более обоснованные бизнес‑решения.
Архитектура хранилища данных обычно включает несколько уровней:
-
Источники данных. Уровень, на котором собираются первичные данные из всех систем управления базами данных (СУБД) компании: веб‑сайта, биллинговой системы, LMS, CRM и ERP‑систем и других баз данных.
-
Ядро хранилища. На этом уровне разрозненная информация структурируется и приводится к единому формату. Этот процесс называется ETL (extract, transform, load: извлечение, преобразование, загрузка).
-
Аналитические витрины. Уровень, где данные преобразуются в удобную для дальнейшего анализа структуру.
-
Сервисный уровень. Уровень, который обеспечивает управление предыдущими слоями. С его помощью происходит мониторинг данных, управление доступом к облачным ресурсам хранилища и быстрое устранение ошибок.
-
Доступ и бизнес‑логика. Уровень, на котором данные из витрин и хранилищ агрегируются и приводятся к более простому и понятному виду.

Пример архитектуры хранилища данных в Yandex Cloud
Хранилище данных может быть построено как в локальном дата‑центре компании, так и в облаке. Во втором случае пользователи получают доступ к платформе с набором сервисов, на базе которых строится хранилище.
Преимущество облачного хранилища в том, что оно помогает компаниям снизить расходы на IT‑инфраструктуру. Логикой DWH, как правило, занимаются штатные IT‑специалисты, а поддержку и обслуживание инфраструктуры берёт на себя облачный провайдер. Также он обеспечивает бесперебойную работу всех сервисов платформы. Подробнее о пользе облачного хранилища данных для бизнеса рассказали в нашей статье.
Этапы построения DWH для EdTech‑компаний
-
Определение целей и задач проекта. Отвечаем на вопрос, какие образовательные метрики планируется собирать и анализировать (успеваемость студентов, посещаемость, активность на уроках, данные о преподавателях). Формулируем цели: улучшить качество образования, повысить вовлечённость студентов, оптимизировать образовательные программы.
-
Выбор архитектуры DWH. Учитываем возможность работы с текстовыми, видео- и аудиоданными, а также интеграцию с LMS, CRM, ERP‑системами и платформами видеоконференций.
-
Оценка объёма данных. Рассчитываем, какое количество информации будут создавать различные образовательные платформы и системы. Прогнозируем рост данных с увеличением числа студентов, курсов и материалов.
-
Разработка схемы данных. Создаём схему с учётом ключевых образовательных метрик. Определяем, какие данные будут храниться на каждом уровне архитектуры DWH.
-
Проработка вопросов безопасности. Обеспечиваем защиту персональных данных студентов и преподавателей с помощью шифрования и других методов безопасности. Настраиваем контроль доступа к данным, чтобы только определённые группы пользователей могли получать доступ к чувствительной информации.
-
Интеграция с источниками данных. Обеспечиваем автоматический сбор информации о студентах, курсах, преподавателях и административных процессах.
-
Разработка ETL‑процессов. Настраиваем процессы извлечения, преобразования и загрузки данных для автоматического объединения информации из разных источников.
-
Визуализация данных и аналитика. Настраиваем инструменты визуализации данных для создания дашбордов и аналитик. Используем аналитические инструменты, чтобы выявлять инсайты и улучшать учебные программы и образовательные процессы.
-
Мониторинг и поддержка. Настраиваем системы мониторинга, чтобы отслеживать состояние хранилища данных и вовремя замечать проблемы. Регулярно обновляем и поддерживаем инфраструктуру.
Образовательный центр MAXIMUM Education — один из клиентов Yandex Cloud в EdTech‑сфере, который построил DWH в облаке. С помощью облачного хранилища компании удалось оптимизировать управление данными и снизить затраты.
«Мы делим данные на внутренние и внешние. Внутренние генерируют наши ученики и преподаватели. Внешние создаются извне — это обращения клиентов, трансляции видеоуроков, статистика из Яндекс Метрики и многое другое. Все эти данные нужно было как‑то разделить, и в этом нам помогло облачное хранилище. DWH на базе управляемых сервисов Yandex Cloud оказалось очень удобным, надёжным и безопасным. Кроме того, платформа поддерживает встроенную интеграцию между своими сервисами различного функционального класса и легко масштабируется при увеличении нагрузки».
Павел Винар
Руководитель отдела научных исследований и развития систем распределённого хранения данных MAXIMUM Education
Как образовательные платформы оптимизируют аналитику с помощью DWH
DWH строится для того, чтобы анализировать данные. Анализ помогает EdTech‑компаниям персонализировать обучение, выявлять слабые места в учебных программах и корректировать их, автоматизировать бизнес‑процессы, замечать тренды в образовании и быстро адаптироваться к ним.
Образовательная платформа ИнтернетУрок использует для анализа данных Yandex Cloud Managed Service for ClickHouse®. Потоковые данные доставляются в ClickHouse из Kafka, развёрнутой в Yandex Managed Service for Apache Kafka®. Обработанные данные визуализируются с помощью Yandex DataLens
Кстати, процесс перехода на BI‑систему в облаке можно расписать на понятные последовательные шаги, мы оформили их в отдельный чек‑лист.
Чек‑лист миграции на новую BI‑систему
Команды аналитики Яндекс Маркет и Yandex Go делятся опытом переезда с зарубежной BI‑системы на Yandex DataLens. Внутри шаги, которые помогут мигрировать с комфортом.
С помощью облачного DWH ИнтернетУрок ускорил построение отчётности и аналитических исследований. Полученные данные компания использует для оптимизации учебных процессов и грамотного распределения ресурсов преподавателей.
«Мы проанализировали исторические данные по среднему времени проверки домашних заданий за конкретный период времени и автоматизировали ежедневное обновление данных. Затем посчитали количество проверенных заданий за тот же период времени для каждого учителя, а полученную статистику визуализировали на дашборде. Теперь сотрудники учебного отдела компании заранее определяют необходимое количество учителей для проверки заданий на каждый период года, а также своевременно видят задержки по срокам и могут реагировать на них».
Сергей Лысенко
Технический директор компании ИнтернетУрок

Дашборд показывает, в какие периоды были задержки при проверке домашних заданий. Это помогает распределять нагрузку на учителей
Онлайн‑школа Skyeng также построила аналитическое хранилище на базе Yandex Cloud и автоматизировала ключевые процессы. Например, оптимизировала оценку работы преподавателя и вовлечённость учеников в образовательный процесс во время вебинаров.
«Перед нами стояла задача — внедрить модель распознавания речи и разметки, чтобы транскрибировать видеоуроки, а затем анализировать полученный текст. Анализ помогает проверять, соблюдает ли преподаватель план урока, достаточно ли времени уделяет разговорному модулю, вовлечён ли студент в занятие.
Раньше специалисты прослушивали все видеозаписи вручную, что занимало много времени. После построения хранилища данных в облаке и разработки ML‑модели нашей R&D‑командой нам удалось автоматизировать разметку видео и ускорить аналитическую обработку данных».
Дмитрий Криволапов
Директор по данным онлайн-школы английского языка Skyeng
Используя возможности DWH в облаке, Skyeng анализирует различные сегменты образовательного процесса и находит корреляции между продуктовыми метриками каждого ученика и бизнес‑метриками компании. Успешные подходы к обучению компания масштабирует на весь бизнес.
Образовательный центр MAXIMUM Education для анализа использует Yandex Managed Services for ClickHouse® и Yandex Managed Services for PostgreSQL. Система работы с данными в компании помогает принимать стратегические решения по изменению образовательного процесса
Анализ показал, что ученики чаще пересматривают онлайн‑уроки, на которых преподаватель смотрит в сторону камеры, то есть выдерживает качественный визуальный контакт. В результате в компании пересмотрели базовую методику ведения урока: стали развивать жестикуляции преподавателей, визуальный контакт, положение в кадре. Это помогло повысить лояльность учеников и, как следствие, увеличить число пользователей с включёнными камерами. У некоторых преподавателей этот показатель вырос в 2–3 раза — до 50–70%.
Также анализ данных помогает выявлять закономерности в поведении клиентов и оптимизировать маркетинговые процессы:
«В процессе анализа мы заметили, что посетители сайтов компании чаще покупают наши продукты после определённого количества заходов. Этот инсайт позволил нам принять решение об оптимизации воронок продаж и корректировке текущей стратегии. Первые тесты показали увеличение конверсии „посетитель сайта → регистрация“ в 2–6 раз. Конечно, без выстроенной системы аналитики эти возможности были бы вне зоны внимания команды».
Павел Винар
Руководитель отдела научных исследований и развития систем распределённого хранения данных MAXIMUM Education
В чём польза облачного хранилища данных для EdTech‑компаний
С помощью DWH в облаке EdTech‑компании получают мощные инструменты для анализа данных. Интеграция данных из различных источников, их визуализация и анализ помогают платформам оптимизировать обучение, автоматизировать оценку и обратную связь, корректировать различные стратегии.
Например, с помощью обработанных данных можно адаптировать учебные материалы под индивидуальные потребности студентов. Skyeng использует данные для анализа вовлечённости студентов и корректировки учебных планов. В итоге компании удаётся повышать качество обучения и увеличивать удовлетворённость студентов.
ИнтернетУрок применяет данные для автоматизации проверки домашних заданий. Это позволяет преподавателям быстрее реагировать на проблемы и делать учебный процесс более эффективным.
Анализ данных о поведении клиентов помог MAXIMUM Education оптимизировать воронку продаж. На основе полученных инсайтов компания скорректировала маркетинговую стратегию, что позволило увеличить конверсию и, как следствие, продажи.