Тип рабочей нагрузки, при которой система обрабатывает большой поток коротких транзакций (вставка, обновление, удаление данных) в режиме реального времени с минимальной задержкой и высокой пропускной способностью.

Тип аналитической рабочей нагрузки, при которой выполняются сложные многоразмерные запросы к большим объёмам данных с приоритетом операций чтения и агрегирования для последующего построения отчётов и глубокого анализа бизнес‑метрик.

Или Data Lake — централизованное хранилище, куда в исходном виде собираются большие объёмы неструктурированных и структурированных данных для последующего анализа и обработки.

Или Data Warehouse — централизованное хранилище структурированных данных, специально подготовленных и оптимизированных под аналитику и регулярную отчётность.

OLTP — Online Transaction Processing, системы онлайн‑обработки транзакций.

Online Analytical Processing, онлайн‑аналитическая обработка.

Сами по себе транзакции мало что говорят о глобальных тенденциях — для стратегических решений нужны агрегированные аналитические данные. Чтобы получить из россыпи отдельных операций осмысленные инсайты, требуется специальная инфраструктура. Платформа данных объединяет технологии, которые помогают собирать, хранить, обрабатывать и анализировать данные. С её помощью сырой поток транзакций превращается в ясные отчёты, диаграммы и прогнозы. В центре такой платформы — облачные сервисы, позволяющие бизнесу гибко масштабировать хранение и обработку информации.

Цифры говорят лучше слов. Финтех‑сервис Payselection перенёс свою платформу в наше облако и теперь стабильно обрабатывает пиковую нагрузку до 200 транзакций в секунду, а месячный оборот платежей превысил 1 млрд рублей. Стартап SearchBooster после переезда в облако выдержал 10‑кратный рост запросов без единого сбоя. Страховая компания «ЭНЕРГОГАРАНТ» сократила число инцидентов на 60% и ускорила выпуск новых функций благодаря переходу на облачную архитектуру. Эти истории объединяет одно: использование платформы данных для решения критически важных задач бизнеса.

В статье расскажем, какие задачи решает платформа данных Yandex Cloud и как её сервисы помогают бизнесу: развернуть надёжный бэкенд для приложений с высокой OLTP‑нагрузкой, построить аналитическое хранилище и BI‑систему под OLAP‑нагрузку, и реализовать подход Lakehouse — объединение озера данных и традиционного хранилища данных (DWH). Приведём реальные кейсы и расскажем, как компании масштабируют приложения, извлекают ценность из данных и каких результатов это позволяет добиться

Транзакционные и аналитические системы: в чём разница

Каждый день бизнес генерирует данные о своих операциях. В интернет‑магазинах фиксируются заказы и платежи, в банках — переводы и счета, в приложениях — действия пользователей. Эти данные хранятся в транзакционных системах. Их задача — быстро и надёжно записывать каждую операцию: покупку, перевод, клик и так далее. Транзакционные базы данных оптимизированы для большого числа небольших операций записи и чтения, чтобы обеспечить бесперебойную работу приложений — например, заказ должен оформляться мгновенно и без ошибок.

Аналитические системы, напротив, предназначены для получения сводной информации и поиска закономерностей. Они работают с накопленным массивом данных и помогают отвечать на вопросы вроде: «Как изменилась выручка по регионам за год?» или «Какие товары чаще всего покупают вместе?». Такие запросы требуют обработки тысяч и миллионов записей и выполнения сложных вычислений. OLAP — класс систем, оптимизированных под подобные задачи. Аналитические базы данных и хранилища рассчитаны на быстрое выполнение агрегирующих запросов по большим объёмам информации.

Главное отличие: транзакционные системы обслуживают текущие операции, а аналитические помогают принимать решения на основе истории этих операций. Первые сфокусированы на точности и скорости внесения новых данных, вторые — на эффективной выборке и анализе уже накопленных.

Конвейер данных от операций до аналитики

Чтобы бизнес мог извлекать инсайты из транзакций, нужно наладить конвейер данных: информацию из операционных систем регулярно перенаправлять в аналитические хранилища. Этот процесс включает несколько этапов.

Сбор данных

На первом этапе данные собираются из транзакционных источников — например, из баз данных интернет‑магазинов, журналов событий приложений, от устройств интернета вещей. В Yandex Cloud для этого используются инструменты интеграции данных и управляемые базы данных: Yandex Managed Service for MySQL®, Yandex Managed Service for PostgreSQL, Yandex Managed Service for MongoDB и другие.

Передача и трансформация

Сырые данные нужно доставить в аналитическую систему и при необходимости преобразовать. Мы предлагаем инструменты для передачи данных — например, сервис Yandex Data Transfer для репликации баз данных в хранилища и Yandex Managed Service for Apache Kafka® для потоковой передачи событий в реальном времени. С их помощью транзакционные данные практически без задержек поступают туда, где будут анализироваться. При передаче часто выполняется первичная обработка с помощью Yandex Managed Service for Spark™: фильтрация, агрегирование, приведение к нужному формату. Сервис поддерживает пакетную, потоковую и интерактивную обработку, а также вычисления для машинного обучения и графовые алгоритмы.

Хранение больших данных

Собранные сведения нужно где‑то хранить, чтобы аналитические системы могли к ним обращаться. В Yandex Cloud роль хранилищ выполняют масштабируемые базы данных и озёра данных. Например, Yandex Managed Service for ClickHouse® — облачная версия аналитической СУБД ClickHouse®, способной мгновенно обрабатывать миллиарды строк, или Yandex Managed Service for Greenplum® — аналитическая СУБД на базе PostgreSQL, обеспечивающая хранение и обработку больших объёмов данных с привычным SQL‑интерфейсом.

Для неструктурированных данных и архивов подходит Yandex Object Storage — объектное хранилище, в котором можно держать «сырой» материал. Также компания может развернуть единое хранилище формата Data Lake — централизованное облачное хранилище файлов и таблиц, интегрированное с инструментами аналитики.

Аналитическая обработка и отчёты

На заключительном этапе данные анализируются и представляются в удобном виде. BI‑аналитики строят запросы к подготовленному хранилищу. В Yandex Cloud для этого служат, например, всё тот же ClickHouse® для быстрых SQL‑запросов, платформа обработки больших данных Yandex Data Processing для развёртывания кластеров Hadoop® или Spark™ и сервис визуализации Yandex DataLens для создания дашбордов и отчётов.