ETL против ELT: как меняется архитектура данных в облачную эпоху
Выбор между ETL и ELT определяет скорость аналитики, стоимость инфраструктуры и гибкость бизнеса. Разбираемся, какой подход эффективнее в условиях облачных вычислений и строгих требований регуляторов.
13 ноября 2025 г.
20 минут чтения
Краткий пересказ YandexGPT
ETL (Extract, Transform, Load) и ELT (Extract, Load, Transform) — два подхода к интеграции данных, которые различаются последовательностью операций и местом выполнения трансформаций данных.
В ETL данные извлекаются из источника, трансформируются на промежуточном сервере и затем загружаются в целевое хранилище. В ELT данные извлекаются и сразу загружаются в целевое хранилище в сыром виде, а трансформации выполняются внутри хранилища.
Переход к облачным хранилищам данных сделал ELT более популярным благодаря возможности дешёво накапливать большие объёмы сырых данных и использовать мощные вычислительные ресурсы по требованию.
Выбор между ETL и ELT зависит от характеристик источников данных и требуемой скорости доставки данных: ELT подходит для сценариев, где важна скорость загрузки данных и гибкость анализа, ETL — для сфер с жёсткими требованиями комплаенса и необходимостью обеспечения качества и безопасности данных (например, финансы, здравоохранение).
Ключевые различия между ETL и ELT касаются места выполнения трансформаций, влияния на стоимость, задержки данных, управления качеством данных, масштаба и эластичности, комплаенса, требуемой экспертности команды и качества данных.
Соблюдение требований 152-ФЗ и других регуляторов — ключевой фактор при выборе архитектуры обработки данных. ETL позволяет маскировать чувствительные данные до загрузки в хранилище, а ELT требует строгого контроля доступа к сырым данным внутри хранилища.
Yandex Cloud предоставляет полный набор управляемых сервисов для построения ETL- и ELT-архитектур, соответствующих требованиям безопасности и локализации данных.
Переход в облачные хранилища данных изменил экономику обработки информации. Разделение хранения и вычислений позволило накапливать практически неограниченные объёмы сырых данных дёшево, а мощные вычислительные ресурсы задействовать по требованию. Это стало катализатором перехода от традиционного ETL к более гибкому подходу ELT.
Принципиальное различие между ETL и ELT заключается в последовательности операций и месте выполнения трансформаций:
В ETL данные извлекаются из источника, затем трансформируются — очищаются, обогащаются, агрегируются — на отдельном промежуточном сервере и только после этого загружаются в целевое хранилище.
В ELT данные извлекаются и сразу загружаются в целевое хранилище в сыром виде. Все трансформации выполняются уже внутри хранилища, используя его собственные вычислительные мощности.
В статье расскажем, в чём разница между ETL и ELT, как облачные технологии повлияли на их развитие и почему выбор архитектуры критичен для российского рынка с учётом требований 152‑ФЗ. А ещё сравним экономику обоих подходов и рассмотрим, какие инструменты нашей платформы подходят для реализации каждого из них.
Покупка каждого рекламного показа на мгновенном аукционе в реальном времени.
Финальный этап цепочки поставок: доставка товара из ближайшего узла до конечного получателя.
Типы нагрузок и источников данных
Выбор между ETL и ELT во многом зависит от характеристик источников и требуемой скорости доставки данных.
Скорость критична прежде всего для операционных контуров, где промедление даже в несколько минут губительно: для платежей и антифрода, RTB‑рекламы и логистики «последней мили». ELT позволяет быстро загрузить сырые данные и сразу предоставить их аналитикам и дата‑сайентистам для проверки гипотез, минуя длительный этап предварительного моделирования.
Облачные платформы ускоряют внедрение ELT благодаря своей эластичности и мощности управляемых баз данных, таких как MPP‑системы, например, Yandex MPP Analytics Engine for PostgreSQL.
Personally Identifiable Information — персонально идентифицируемая информация, любые данные, позволяющие установить личность человека: Ф. И. О., адрес, телефон, email, паспортные данные.
ETL выигрывает в сценариях с жёсткими требованиями комплаенса и в чувствительных сферах, например финансах или здравоохранении, где критически важно обеспечить качество, безопасность и анонимизацию данных до их попадания в центральное хранилище. Это особенно актуально для соблюдения требований 152‑ФЗ о локализации и защите персональных данных, где предварительная обработка и маскирование PII часто являются обязательными.
Типы нагрузок и источников данных
Источники данных
OLTP‑системы — транзакционные базы данных, такие как PostgreSQL или MySQL®, которые лежат в основе большинства бизнес‑приложений. Для минимизации нагрузки на эти системы часто используют CDC (Change Data Capture) — захват изменений данных или чтение логов транзакций, например с помощью Yandex Data Transfer.
Файлы и объектные хранилища — неструктурированные или полуструктурированные данные, такие как логи, CSV, JSON, Parquet, хранящиеся в S3‑хранилищах.
Batch (пакетная обработка) — обработка больших объёмов данных по расписанию. Традиционная область применения ETL.
Micro‑batch (микропакетная обработка) — обработка небольших пакетов данных с высокой частотой, например каждые несколько минут. Часто используют в ELT для обеспечения аналитики почти в реальном времени.
Stream (потоковая обработка) — непрерывная обработка данных по мере их поступления. Требует специализированных инструментов для реализации ETL- или ELT‑процессов в реальном времени.
Дальше подробно разберём каждый из подходов, их сильные и слабые стороны, а также типовые паттерны применения.
Один из самых влиятельных мировых экспертов, автор и консультант в области хранилищ данных (Data Warehousing) и бизнес‑аналитики (Business Intelligence). Разработал и популяризировал методологию многомерного моделирования (dimensional modeling). Его подход к проектированию хранилищ данных, ориентированный на простоту и скорость анализа, стал отраслевым стандартом.
ETL: классический подход к интеграции
ETL исторически был золотым стандартом для интеграции данных в корпоративных хранилищах. Этот подход подробно описалРальф Кимбалл, и он подразумевает строгую последовательность действий для обеспечения качества и консистентности данных.
Процесс ETL:
Извлечение. Данные извлекаются из исходных систем и копируются в промежуточную область (Staging Area).
Трансформация. В этой области данные проходят очистку, валидацию, стандартизацию, обогащение и агрегацию. Применяются сложные бизнес‑правила для приведения данных к целевой схеме (Schema‑on‑Write — схема при записи).
Загрузка. Обработанные и структурированные данные загружаются в целевое хранилище данных — например, в DWH.
Как Data Warehouse помогает бизнесу экономить деньги и принимать решения
Чтобы усилить преимущества и сгладить ограничения ETL, в продакшене опираются на устоявшиеся практики. К ключевым паттернам относятся pre‑load валидация — проверка соответствия данных ожидаемым форматам и диапазонам значений до начала трансформаций, — а также выстроенное управление качеством данных (DQ) до загрузки: на ранних этапах выявляются аномалии, пропуски и дубликаты, чтобы не допустить их в целевое хранилище.
ELT: облачный подход к интеграции
ELT стал доминирующим подходом с развитием мощных облачных хранилищ данных и платформ больших данных. Он меняет парадигму: сначала данные собираются, а уже затем аналитики решают, как их использовать.
Процесс ELT:
Извлечение. Данные извлекаются из исходных систем.
Загрузка. Сырые данные загружаются напрямую в целевое хранилище.
Трансформация. Выполняется по требованию внутри хранилища, обычно с помощью SQL‑запросов.
Чтобы раскрыть потенциал ELT и при этом держать риски под контролем, в продакшне опираются на устоявшиеся практики. Ключевые паттерны:
SQL‑pushdown — максимальное выполнение логики трансформации на стороне базы данных с помощью SQL. Это снижает перемещение данных.
Позднее моделирование — когда модель данных определяется не на этапе загрузки, а при анализе, обеспечивая гибкость интерпретации.
Гибридные архитектуры: Lambda, Kappa и медальоны
На практике компании часто используют гибридные подходы, комбинируя элементы ETL и ELT или используя специализированные архитектуры для обработки данных разной скорости.
Архитектуры Lambda и Kappa
Они решают задачу объединения пакетной и потоковой обработки:
Lambda‑архитектура. Использует два параллельных пути: «горячий» (Speed Layer) для обработки потоковых данных в реальном времени с возможными аппроксимациями и «холодный» (Batch Layer) для точной пакетной обработки исторических данных. Результаты объединяются на уровне сервисного слоя. Это сложная в реализации архитектура.
Kappa‑архитектура. Упрощённая Lambda. Все данные рассматриваются как поток событий. Текущее состояние и исторические данные обрабатываются единым потоковым движком. Восстановление или пересчёт данных происходит путём повторного проигрывания потока событий.
ETL для мастер‑данных, ELT для аналитики
Распространённый гибридный подход: критически важные мастер‑данные, например справочники клиентов или продуктов, требующие строгого контроля качества и управления, обрабатываются через ETL. В то же время большие объёмы транзакционных и поведенческих данных, где важна скорость и гибкость анализа, обрабатываются через ELT.
Медальонная архитектура
Это паттерн организации данных в Lakehouse, структурирующий ELT‑процессы по слоям качества:
Бронза (сырые данные) — загружаются «как есть» из источников.
Серебро (очищенные и стандартизированные данные) — проходят валидацию, очистку и приводятся к единому формату.
Золото (агрегированные данные) — готовые для бизнес‑аналитики, отчётности и машинного обучения.
Ключевые различия ETL и ELT
Выбор между ETL и ELT влияет на многие аспекты работы с данными. Сравним ключевые различия.
Критерий
ETL
ELT
Место выполнения трансформаций
На отдельном сервере или ETL‑платформе, например, в кластере Spark™.
DWH: внутри хранилища с помощью SQL и вычислительных ресурсов самой базы данных (Snowflake, BigQuery, Redshift).
Data Lake: с помощью отдельных вычислительных движков (Apache Spark, Presto, Athena), которые читают данные из озера, обрабатывают их и записывают обратно.
Влияние на стоимость
Затраты на ETL‑платформы (лицензии или облачные сервисы) и отдельную инфраструктуру для трансформаций. Меньше нагрузка на DWH.
Затраты на ELT‑инструменты (Fivetran, Matillion, dbt) и значительно большие compute ресурсы DWH для выполнения трансформаций.
Задержка данных
Высокая — данные доступны только после завершения всего цикла трансформации.
Низкая — сырые данные доступны почти сразу после загрузки.
Управление качеством данных
Проактивное — очистка и валидация до загрузки в хранилище.
Структурированное внутри DWH, например через медальонную архитектуру.
Масштаб и эластичность
Современные облачные ETL‑платформы (AWS Glue, Azure Data Factory, Dataflow) автоматически масштабируются. Legacy on‑premises решения требуют ручного управления инфраструктурой.
Автоматическое масштабирование compute‑ресурсов DWH. Стоимость может расти непредсказуемо без оптимизации запросов.
Комплаенс и локализация данных
Чувствительные данные можно обработать или замаскировать до загрузки.
Требует строгого контроля доступа к сырым данным внутри хранилища.
Экспертность команды
Инженеры данных с навыками SQL, Python/Scala и знанием ETL‑платформ (Glue, DataFactory, Informatica).
Инженеры данных с навыками SQL и знанием ELT‑инструментов (dbt, Fivetran, Matillion).
Качество данных и наблюдаемость
Валидация до загрузки — плохие данные не попадают в хранилище. Data quality встроен в ETL‑инструменты.
Валидация после загрузки — сырые данные попадают в DWH, проверяются с помощью dbt tests, Great Expectations.
Безопасность и комплаенс: фокус на 152‑ФЗ
Соблюдение требований регуляторов, в частности российского 152‑ФЗ «О персональных данных», — это один из ключевых факторов при выборе архитектуры:
152‑ФЗ и GDPR. Эти законы накладывают строгие требования на сбор, обработку, хранение и передачу персональных данных. 152‑ФЗ также требует локализации баз данных с персональными данными граждан РФ на территории России.
PII‑маскирование. В ETL маскирование или анонимизация чувствительных данных выполняется на этапе трансформации — до того, как они попадут в общедоступное хранилище. Это снижает риски утечек. В ELT сырые данные, включая PII, загружаются в хранилище, и это требует реализации строгих политик доступа на уровне сырого слоя или использования подхода EtLT — «лёгкой» трансформации перед загрузкой для маскирования.
Политики хранения. Управление жизненным циклом данных и их удаление по истечении срока хранения должны быть реализованы в обеих архитектурах.
Аудит. Для комплаенса критична возможность отслеживать, кто, когда и к каким данным обращался. В облачных DWH это реализуется через встроенные механизмы логирования и аудита — например, Yandex Audit Trails.
Экономика процессов
Сравнение совокупной стоимости владения между ETL и ELT зависит от множества факторов.
Стоимость трансформаций. В ETL вы платите за вычислительные ресурсы ETL‑платформы. В ELT вы используете вычислительные ресурсы DWH. Если трансформации неоптимальны, стоимость выполнения SQL‑запросов в облачном DWH может быть высокой. Но стоимость хранения сырых данных в облаке обычно ниже.
Расходы на оркестрацию и мониторинг. Обе архитектуры требуют инструментов для планирования запуска задач и мониторинга выполнения пайплайнов.
Исходящий трафик. При использовании облачных платформ нужно учитывать стоимость исходящего трафика, особенно если данные перемещаются между разными облаками или регионами.
Хранилища. ELT требует больше места для хранения сырых данных, но использует дешёвые объектные хранилища. ETL требует меньше места в целевом DWH, но нуждается в промежуточном хранилище.
Экономика каждого проекта индивидуальна
Выбор между ETL и ELT зависит не только от технических требований, но и от особенностей вашей инфраструктуры, объёмов данных и бизнес‑приоритетов. Для точного расчёта стоимости конкретного сценария можно использовать калькулятор или обратиться к нашим экспертам — мы поможем подобрать оптимальную архитектуру и рассчитать совокупную стоимость владения для вашей задачи.
Наша платформа предоставляет полный набор управляемых сервисов для построения как ETL-, так и ELT‑архитектур, соответствующих требованиям безопасности и локализации данных.
Полный Hadoop-кластер (Spark, HDFS, YARN, Hive) с возможностью хранения данных как в HDFS, так и в Object Storage. Подходит для сложных пакетных трансформаций с промежуточным хранением в HDFS.
Serverless Spark без HDFS, работающий напрямую с Object Storage. Оптимален для потоковых трансформаций и задач, не требующих распределённой файловой системы.
Высокопроизводительная колоночная СУБД для аналитики в реальном времени. Поддерживает сложные SQL‑запросы и материализованные представления для трансформаций.
Управляемый сервис распределённого SQL‑движка для федеративных запросов и ad‑hoc аналитики данных из разнородных источников (транзакционные СУБД, Object Storage, аналитические хранилища) без их физического перемещения и копирования.