Apache Iceberg™ в Yandex Data Processing
Apache Iceberg™
-
Добавляет поддержку высокопроизводительных таблиц формата Apache Iceberg™, с которыми можно работать как с обычными SQL-таблицами.
-
Предоставляет механизм эволюции схемы данных
(schema evolution), при котором изменение схемы не имеет побочных эффектов. -
Обеспечивает скрытое партиционирование данных
(hidden partitioning) без участия пользователя, предотвращая ошибки, связанные с ручным партиционированием. -
Позволяет выполнять ретроспективные запросы с помощью механизма time travel
. Например, можно выполнять воспроизводимые запросы, которые используют снимки таблиц, или сравнивать изменения.Примечание
Для работы этого механизма требуется Apache Spark™ версии 3.3.x и выше.
-
Позволяет откатывать таблицы до предыдущих версий (version rollback), чтобы быстро реагировать на проблемы.
-
Обеспечивает продвинутую фильтрацию
(advanced filtering) с использованием статистики, которая собирается на уровне колонок и партиций, а также метаданных таблицы. Это позволяет ускорить выполнение запросов в том числе и для очень больших таблиц: файлы с данными, которые не относятся к запросу, не будут обработаны. -
Обеспечивает самый строгий уровень изоляции транзакций — serializable
. Все изменения в таблицах атомарны, и читатели видят только зафиксированные (committed) изменения. -
Поддерживает конкурентную запись
по оптимистичной стратегии — писатель попробует повторить операцию, если его изменения конфликтуют с изменениями, которые вносит другой писатель.
Вы можете настроить Apache Iceberg™ в кластере Yandex Data Processing версии 2.0 и выше.
Примечание
Apache Iceberg™ не является частью сервиса Yandex Data Processing и не сопровождается командой разработки и службой поддержки Yandex Cloud, а его использование не входит в условия использования Yandex Data Processing
Подробную информацию об Apache Iceberg™ см. в официальной документации
Совместимость версий Apache Iceberg™ и образов Yandex Data Processing
Версии Apache Iceberg™ и образы Yandex Data Processing совместимы, только если версия Apache Iceberg™ совместима с используемой в кластере версией Apache Spark™. В таблице ниже приведены совместимые версии и ссылки на файлы библиотек, которые понадобятся при настройке Apache Iceberg™ в кластере.
Образ Yandex Data Processing |
Версия Apache Spark™ |
Версия Apache Iceberg™ |
Файлы JAR |
2.0.x |
3.0.3 |
||
2.1.x (2.1.0–2.1.3) |
3.2.1 |
||
2.1.x (2.1.4 и выше) |
3.3.2 |
||
2.2.x |
3.5.0 |
Примечание
Доступ к образу версии 2.2 предоставляется по запросу. Обратитесь в техническую поддержку