От транзакций до аналитики: как платформа данных Yandex Cloud приносит пользу бизнесу

Наша платформа данных обеспечивает устойчивую и надёжную работу OLTP‑систем, одновременно превращая транзакционные данные в ценные аналитические инсайты для бизнеса.

Тип рабочей нагрузки, при которой система обрабатывает большой поток коротких транзакций (вставка, обновление, удаление данных) в режиме реального времени с минимальной задержкой и высокой пропускной способностью.

Тип аналитической рабочей нагрузки, при которой выполняются сложные многоразмерные запросы к большим объёмам данных с приоритетом операций чтения и агрегирования для последующего построения отчётов и глубокого анализа бизнес‑метрик.

Или Data Lake — централизованное хранилище, куда в исходном виде собираются большие объёмы неструктурированных и структурированных данных для последующего анализа и обработки.

Или Data Warehouse — централизованное хранилище структурированных данных, специально подготовленных и оптимизированных под аналитику и регулярную отчётность.

OLTP — Online Transaction Processing, системы онлайн‑обработки транзакций.

Online Analytical Processing, онлайн‑аналитическая обработка.

Сами по себе транзакции мало что говорят о глобальных тенденциях — для стратегических решений нужны агрегированные аналитические данные. Чтобы получить из россыпи отдельных операций осмысленные инсайты, требуется специальная инфраструктура. Платформа данных объединяет технологии, которые помогают собирать, хранить, обрабатывать и анализировать данные. С её помощью сырой поток транзакций превращается в ясные отчёты, диаграммы и прогнозы. В центре такой платформы — облачные сервисы, позволяющие бизнесу гибко масштабировать хранение и обработку информации.

Цифры говорят лучше слов. Финтех‑сервис Payselection перенёс свою платформу в наше облако и теперь стабильно обрабатывает пиковую нагрузку до 200 транзакций в секунду, а месячный оборот платежей превысил 1 млрд рублей. Стартап SearchBooster после переезда в облако выдержал 10‑кратный рост запросов без единого сбоя. Страховая компания «ЭНЕРГОГАРАНТ» сократила число инцидентов на 60% и ускорила выпуск новых функций благодаря переходу на облачную архитектуру. Эти истории объединяет одно: использование платформы данных для решения критически важных задач бизнеса.

В статье расскажем, какие задачи решает платформа данных Yandex Cloud и как её сервисы помогают бизнесу: развернуть надёжный бэкенд для приложений с высокой OLTP‑нагрузкой, построить аналитическое хранилище и BI‑систему под OLAP‑нагрузку, и реализовать подход Lakehouse — объединение озера данных и традиционного хранилища данных (DWH). Приведём реальные кейсы и расскажем, как компании масштабируют приложения, извлекают ценность из данных и каких результатов это позволяет добиться

Транзакционные и аналитические системы: в чём разница

Каждый день бизнес генерирует данные о своих операциях. В интернет‑магазинах фиксируются заказы и платежи, в банках — переводы и счета, в приложениях — действия пользователей. Эти данные хранятся в транзакционных системах. Их задача — быстро и надёжно записывать каждую операцию: покупку, перевод, клик и так далее. Транзакционные базы данных оптимизированы для большого числа небольших операций записи и чтения, чтобы обеспечить бесперебойную работу приложений — например, заказ должен оформляться мгновенно и без ошибок.

Аналитические системы, напротив, предназначены для получения сводной информации и поиска закономерностей. Они работают с накопленным массивом данных и помогают отвечать на вопросы вроде: «Как изменилась выручка по регионам за год?» или «Какие товары чаще всего покупают вместе?». Такие запросы требуют обработки тысяч и миллионов записей и выполнения сложных вычислений. OLAP — класс систем, оптимизированных под подобные задачи. Аналитические базы данных и хранилища рассчитаны на быстрое выполнение агрегирующих запросов по большим объёмам информации.

Подход

Назначение

Тип нагрузки

Основные сервисы Yandex Cloud

OLTP (транзакционная обработка)

Оперативная работа приложений: частые транзакции (запись, чтение небольших объёмов данных). Актуален для бэкенда сайтов, финтех‑сервисов, CRM и так далее.

Много краткосрочных операций одновременно. Важны низкие задержки и целостность данных.

OLAP (аналитическая обработка)

Анализ больших массивов накопленных данных: построение отчётов, BI‑дашбордов, аналитические запросы. Используется в хранилищах данных и системах бизнес‑аналитики.

Обработка редких, сложных запросов по большим таблицам. Важна высокая пропускная способность, параллелизм, быстрая агрегация данных.

Главное отличие: транзакционные системы обслуживают текущие операции, а аналитические помогают принимать решения на основе истории этих операций. Первые сфокусированы на точности и скорости внесения новых данных, вторые — на эффективной выборке и анализе уже накопленных.

Конвейер данных от операций до аналитики

Чтобы бизнес мог извлекать инсайты из транзакций, нужно наладить конвейер данных: информацию из операционных систем регулярно перенаправлять в аналитические хранилища. Этот процесс включает несколько этапов.

Сбор данных

На первом этапе данные собираются из транзакционных источников — например, из баз данных интернет‑магазинов, журналов событий приложений, от устройств интернета вещей. В Yandex Cloud для этого используются инструменты интеграции данных и управляемые базы данных: Yandex Managed Service for MySQL®, Yandex Managed Service for PostgreSQL, Yandex Managed Service for MongoDB и другие.

Передача и трансформация

Сырые данные нужно доставить в аналитическую систему и при необходимости преобразовать. Мы предлагаем инструменты для передачи данных — например, сервис Yandex Data Transfer для репликации баз данных в хранилища и Yandex Managed Service for Apache Kafka® для потоковой передачи событий в реальном времени. С их помощью транзакционные данные практически без задержек поступают туда, где будут анализироваться. При передаче часто выполняется первичная обработка с помощью Yandex Managed Service for Apache Spark: фильтрация, агрегирование, приведение к нужному формату. Сервис поддерживает пакетную, потоковую и интерактивную обработку, а также вычисления для машинного обучения и графовые алгоритмы.

Хранение больших данных

Собранные сведения нужно где‑то хранить, чтобы аналитические системы могли к ним обращаться. В Yandex Cloud роль хранилищ выполняют масштабируемые базы данных и озёра данных. Например, Yandex Managed Service for ClickHouse® — облачная версия аналитической СУБД ClickHouse®, способной мгновенно обрабатывать миллиарды строк, или Yandex Managed Service for Greenplum® — аналитическая СУБД на базе PostgreSQL, обеспечивающая хранение и обработку больших объёмов данных с привычным SQL‑интерфейсом.

Для неструктурированных данных и архивов подходит Yandex Object Storage — объектное хранилище, в котором можно держать «сырой» материал. Также компания может развернуть единое хранилище формата Data Lake — централизованное облачное хранилище файлов и таблиц, интегрированное с инструментами аналитики.

Аналитическая обработка и отчёты

На заключительном этапе данные анализируются и представляются в удобном виде. BI‑аналитики строят запросы к подготовленному хранилищу. В Yandex Cloud для этого служат, например, всё тот же ClickHouse® для быстрых SQL‑запросов, платформа обработки больших данных Yandex Data Processing для развёртывания кластеров Hadoop® или Yandex Managed Service for Apache Spark и сервис визуализации Yandex DataLens для создания дашбордов и отчётов.

Такой конвейер часто называют ETL (Extract, Transform, Load) — «извлечение, трансформация, загрузка» данных. С его помощью транзакционные данные регулярно или в реальном времени превращаются в аналитические витрины. Это устраняет разрыв между оперативной деятельностью и стратегическим анализом: решения принимаются не на интуиции, а на основе точных фактов.

Платформа данных Yandex Cloud: компоненты и возможности

Ниже расскажем про наши сервисы, которые расширяют базовый ETL‑контур дополнительными возможностями: шардинг транзакционных БД, стриминговую передачу данных, масс‑параллельную аналитику и визуализацию.

Управляемые базы данных для транзакций

В Yandex Cloud доступны облачные версии популярных СУБД: реляционных (SQL) и нереляционных (NoSQL) — Managed Service for MongoDB и Yandex Managed Service for Valkey — а также распределённая СУБД YDB.

Эти сервисы избавляют от необходимости самостоятельно настраивать и поддерживать серверы баз данных. Инфраструктура автоматически масштабируется под нагрузку, обеспечивая стабильное выполнение транзакций. Данные надёжно хранятся с резервированием и бэкапами. Для бизнеса это означает, что приложения, сайты, сервисы и онлайн‑платформы работают бесперебойно, а все операции мгновенно фиксируются.

Например, банк «Кубань Кредит» адаптировал свои сервисы к двукратному росту нагрузки, обеспечив стабильную работу даже в часы пик. А платформа для продаж BPM Tracker с помощью облачных баз данных увеличила показатель Lifetime Value (LTV) клиентов на 25%.

На масштабах свыше 10 ТБ данных и при нагрузке свыше 100 000 запросов в секунду одиночному инстансу PostgreSQL становится тяжело справляться с таким объёмом. Большинство существующих методов масштабирования PostgreSQL ориентированы на аналитические или смешанные нагрузки, где допустимы более высокие задержки. Наше решение Yandex Managed Service for Sharded PostgreSQL специально разработано для OLTP‑нагрузок: в его основе лежит open source‑проект SPQR (Stateless Postgres Query Router) под лицензией PostgreSQL Global Development Group, который шардингует данные и маршрутизирует запросы между узлами, сохраняя скорость и консистентность. А для популярных бизнес‑систем, таких как «1С:Предприятие», доступна отдельная редакция PostgreSQL, оптимизированная под их характерные транзакционные сценарии.

Интеграция и потоковая обработка данных

Когда данных много и они поступают непрерывно, важно организовать их передачу без задержек. Yandex Managed Service for Apache Kafka® предоставляет популярную стриминговую платформу Apache Kafka® в виде управляемого облачного сервиса. Эти инструменты выстраивают «мост» между операционными и аналитическими системами: свежие данные сразу становятся доступны там, где их анализируют.

Хранилища данных для аналитики

Для глубокого анализа больших массивов мы предлагаем несколько решений. Одно из ключевых — уже упомянутый сервис Managed Service for ClickHouse®, который подходит для хранения событий и логов и даёт возможность мгновенно выполнять сложные аналитические запросы.

Платформа поддерживает и сценарии распределённой обработки данных. Yandex Managed Service for Trino — движок SQL‑аналитики, который объединяет данные из разных источников без их копирования. Yandex Managed Service for YTsaurus — распределённая платформа для хранения и обработки петабайтных массивов.

Другой вариант — Yandex Managed Service for Greenplum®, массивно‑параллельная СУБД для ядра корпоративного хранилища. Витрины данных строятся на Yandex Managed Service for ClickHouse® — колоночной СУБД для быстрой аналитики. При необходимости платформа подключает Yandex Data Processing и экосистему Hadoop®, что упрощает расчёты. Такой стек обрабатывает терабайты данных и помогает находить закономерности.

Аналитика и визуализация

Наконец, собранные и обработанные данные должны быть представлены в понятном виде для принятия решений. Здесь на помощь приходит сервис Yandex DataLens. Он подключается к источникам данных, таким как ClickHouse® и PostgreSQL, и позволяет строить интерактивные дашборды, графики и отчёты.

Диаграммы и графики: как выбрать правильную визуализацию данных

Аналитики и руководители могут без навыков программирования визуализировать ключевые показатели: продажи по регионам, эффективность маркетинговых кампаний, динамику пользовательской активности и так далее.

В результате последний шаг «от транзакций до аналитики» завершается получением конкретных метрик и инсайтов, наглядно представленных для обсуждения и дальнейших действий.

Например, онлайн‑школа Skyeng построила в облаке систему аналитики для 400 бизнес‑пользователей — они ежедневно принимают решения на основе актуальных данных в дашбордах. Ритейлер Hoff совместно с интегратором AERO создал масштабируемое хранилище данных в Yandex Cloud, ускорив подготовку отчётов и анализ продаж. Платформа GameSport обрабатывает в облаке большие объёмы киберспортивных данных, помогая находить новые инсайты и повышать вовлечённость аудитории.

Единая архитектура данных: Lakehouse

Ещё один современный подход к работе с данными — объединение озера и хранилища в единую архитектуру Lakehouse. Он позволяет одновременно хранить сырой массив данных и быстро получать аналитику на его основе.

Полноэкранное изображение

На схеме представлены компоненты Lakehouse-архитектуры и их взаимосвязи. Фундамент — объектное хранилище (Storage layer), где масштабируемо, надёжно и экономично хранятся файлы данных и метаданные в открытом формате. Следующий компонент — уровень табличного формата (Table format), например Iceberg, Delta Lake или Apache Hudi, который управляет логической организацией данных в таблицы с поддержкой транзакций и версионности. Каталог метаданных (Metadata layer), например Yandex MetaData Hub, хранит схемы и правила доступа, обеспечивая data discovery, lineage и управление lakehouse. На верхнем уровне — движок запросов (Query engine): Yandex Query, Yandex Managed Service for Trino, ClickHouse или Yandex Managed Service for Apache Spark. Он использует метаданные и оптимизации для анализа данных через SQL и другие языки запросов. Слева указаны источники данных: стриминговые платформы, устройства IoT, логи приложений и базы данных. Справа — клиентские приложения: инструменты BI, datasphere-ноутбуки и системы ETL/ELT, которые подключаются к lakehouse для анализа и визуализации данных.

Владелец бренда ROSTIC’S.

Благодаря механизму, в озеро попадают только новые изменения — это снижает нагрузку на исходные системы.

Инструмент для преобразования данных, который позволяет аналитикам создавать и управлять витринами данных напрямую через SQL‑запросы.

Платформа для автоматизированного извлечения и загрузки данных из разных источников, упрощающая сбор и передачу данных в аналитические хранилища.

Excel‑файлы, 1С и локальные ERP.

Промежуточный слой в архитектуре хранения данных, куда попадают сырые данные в исходном виде перед дальнейшей обработкой и интеграцией.

Слой централизованного хранения интегрированных данных в виде нормализованной модели, обеспечивающей гибкость, масштабируемость и возможность отслеживать историю изменений.

Распределённая система обработки очередей.

Высокопроизводительная in memory key‑value база данных с поддержкой разнообразных структур данных (строки, списки, множества, хэш‑таблицы и др.), широко используемая для кэширования, очередей сообщений и реализации механизмов pub/sub.

Распределённая система хранения и поиска данных, полностью поддерживающая REST‑API и запросный язык Elasticsearch, основанная на Apache Lucene и обеспечивающая масштабируемый полнотекстовый поиск, агрегации и аналитику в реальном времени.

Кейс ROSTIC’S

Сеть ресторанов ROSTIC’S построила платформу данных в Yandex Cloud по принципу Lakehouse. IT‑команда «Юнирест» пересмотрела архитектуру при миграции в облако: входящие данные теперь «стекаются» в озеро данных на базе Yandex Object Storage с механизмом Change Data Capture.

Историческая информация хранится в Object Storage по временным партициям — это позволяет хранить длинную историю, не раздувая «горячее» хранилище. Для хранения и обработки данных выбрана связка Yandex Managed Service for Greenplum® и Yandex Managed Service for ClickHouse®. Greenplum выполняет роль основного хранилища (DWH): в нём данные из озера структурируются, очищаются и агрегируются. Затем «готовые» данные отправляются в ClickHouse®, где формируются финальные витрины для отчётов и сервисов. Такой двухфазный подход позволил оптимально распределить нагрузку и обеспечить и глубину хранения, и высокую скорость отдачи данных.

Команда ROSTIC’S также внедрила инструменты Data Build Tool (DBT) и Airbyte для автоматизации потоков данных — аналитики могут сами создавать витрины с помощью SQL, не отвлекая разработчиков. В результате производительность обработки данных и формирования отчётов выросла вдвое, а разработчики высвободили время для стратегических задач: внедрение новых функций ускорилось втрое. Платформа данных гибко масштабируется под рост бизнеса ROSTIC’S: объём информации растёт, а архитектура Lakehouse справляется без сбоев.

Кейс AlmaWine

Другой пример — казахстанская компания AlmaWine, дистрибьютор алкогольной продукции. Она создала в Yandex Cloud платформу анализа данных, объединившую 40 разрозненных учётных систем. Раньше сведение отчётов из множества региональных баз занимало несколько дней. За четыре месяца команда AlmaWine развернула облачную инфраструктуру и с помощью коннекторов подключила все источники данных.

Архитектура решения напоминает Lakehouse. Сырые данные сначала поступают в управляемую базу Yandex Managed Service for MongoDB — слой Stage, — затем интегрируются в Yandex Managed Service for PostgreSQL — слой Data Vault. Для быстрых витрин используется Yandex Managed Service for ClickHouse® — держит копии ключевых наборов данных, — а визуализация реализована в DataLens.

С новой платформой AlmaWine перешла от «ручного» принятия решений к проактивному: большинство отчётов теперь обновляется каждые четыре часа, а самые важные данные — ежечасно. Время подготовки аналитики сократилось с нескольких дней до считанных часов, а оборачиваемость запасов по некоторым товарам выросла на 30–40% благодаря более точному анализу спроса. Руководство отмечает, что небольшая команда — три аналитика и один инженер — запустила надёжное единое хранилище за считанные месяцы — самостоятельно на это ушло бы гораздо больше времени.

Объединяя все эти компоненты, компания получает сквозную платформу данных — от места, где данные рождаются, до инструментов, где они приносят пользу. Вся инфраструктура работает в облаке и управляется через единый интерфейс Yandex Cloud, что упрощает поддержку решения и его масштабирование по мере роста бизнеса.

Единая платформа данных: от транзакций до аналитики

Платформа данных в Yandex Cloud помогает компаниям не только строить сквозную аналитику, но и надёжно обрабатывать транзакции, быстро масштабировать сервисы и снижать прямые убытки при сбоях. Например, финтех‑сервис «Мокка» построил хранилище и DWH в облаке и поднял ROI с 300% до 450%:

  • Медиагруппа «Виасат» перенесла платформу viju в Yandex Cloud. Данные обрабатываются в связке управляемых сервисов: Yandex Managed Service for PostgreSQL, Yandex Managed Service for ClickHouse®, Yandex Managed Service for Valkey, Yandex Managed Service for Apache Kafka® и Yandex Managed Service for OpenSearch®. Такой стек поддерживает транзакции, потоковую передачу и быстрые запросы к витринам. После миграции число посетителей выросло на 87% без потерь в производительности.

  • Платёжная система Payselection масштабировала приём онлайн‑платежей на основе Yandex Managed Service for Kubernetes® и Managed Service for PostgreSQL, обеспечив стабильную обработку транзакций объёмом до 2 млрд рублей в месяц.

  • Фонд «Смелость быть первым» для Almaty Marathon внедрил решение на основе Yandex DataLens, что позволило в реальном времени отслеживать результаты 15 тыс. спортсменов и мгновенно публиковать их в дашбордах.

  • Сеть доставки еды «Фарфор» перенесла ERP‑платформу в Yandex Cloud. Очереди задач обрабатывает Celery вместе с Yandex Managed Service for Valkey — in‑memory key‑value хранилищем, совместимым с Redis. Основные данные хранятся в СУБД MariaDB. Несколько реплик дают отказоустойчивость. Кэш и полнотекстовый поиск работают через Yandex Managed Service for OpenSearch — Elasticsearch‑совместимый движок. Каждый микросервис обращается к собственной базе в Yandex Managed Service for PostgreSQL®. Такой стек помог избежать потерь до 4 млн рублей за час простоя.

  • Платформа цифрового маркетинга DataGo! построила своё хранилище на Yandex Managed Service for PostgreSQL и визуализацию на Yandex DataLens, что позволило обрабатывать сотни проектов в различных отраслях.

Таким образом сквозная аналитика на единой платформе данных помогает компаниям:

  • Принимать решения на основе данных. Руководителям больше не нужно полагаться на интуицию или устаревшие отчёты. Актуальная информация с операционного уровня поступает в аналитические панели практически моментально.

  • Повышать эффективность и доходы. Анализ транзакций помогает находить узкие места и точки роста. Выявление самых популярных продуктов, наиболее активных сегментов клиентов, причин оттока — всё это становится возможным благодаря единой платформе данных и ведёт к увеличению выручки.

  • Масштабироваться без лишних сложностей. Когда увеличивается поток данных, облачные сервисы автоматически выделяют дополнительные ресурсы для баз, хранилищ и вычислений. Компании не нужно заранее инвестировать в собственные серверы — инфраструктура предоставляется «как сервис».

  • Организовать целостное хранилище «единой правды». Платформа данных объединяет разрозненные источники — сайты, приложения, внутренние базы — в единое хранилище. Это устраняет проблему расходящихся показателей, когда разные отделы оперируют разными данными. Все подразделения работают с одной и той же достоверной информацией: маркетинг, продажи, логистика — все видят полную картину и действуют слаженно.

  • Быстро адаптироваться к изменениям. В современном рынке выигрывают те, кто быстрее реагирует на новые тренды и колебания спроса. Сквозная аналитика в Yandex Cloud позволяет мгновенно заметить изменение поведения клиентов или динамики продаж и быстро скорректировать стратегию. Бизнес становится более гибким и готовым к переменам.

  • Получать техническую экспертизу. В Yandex Cloud мы берём на себя техническую сторону — от обслуживания баз данных до обеспечения безопасности, — позволяя компаниям сосредоточиться на главном. Она становится доступным и практичным инструментом, который могут использовать организации любого масштаба.

Переход от транзакций до аналитики с помощью облачной платформы данных открывает для компаний новые возможности. Повседневные операции превращаются в ценные подсказки о том, как развивать продукт, где сократить издержки, на чём сфокусироваться.

От транзакций до аналитики: как платформа данных Yandex Cloud приносит пользу бизнесу
Войдите, чтобы сохранить пост