Передача данных в эндпоинт-приемник Apache Iceberg™
С помощью сервиса Yandex Data Transfer вы можете переносить данные в таблицы Apache Iceberg™ в кластере Apache Hive™ Metastore и реализовывать различные сценарии переноса, обработки и трансформации данных. Для реализации трансфера:
- Ознакомьтесь с возможными сценариями передачи данных.
- Настройте один из поддерживаемых источников данных.
- Настройте эндпоинт-приемник в Yandex Data Transfer.
- Создайте и запустите трансфер.
- Выполняйте необходимые действия по работе с таблицами и контролируйте трансфер.
Сценарии передачи данных в Apache Iceberg™
Подробное описание возможных сценариев передачи данных в Yandex Data Transfer см. в разделе Практические руководства.
Настройка источника данных
Настройте один из поддерживаемых источников данных:
- ClickHouse®;
- Greenplum®;
- MongoDB;
- MySQL®;
- PostgreSQL;
- Elasticsearch;
- Yandex Object Storage;
- Oracle;
- Managed Service for YDB;
- YTsaurus.
Полный список поддерживаемых источников и приемников в Yandex Data Transfer см. в разделе Доступные трансферы.
Настройка эндпоинта-приемника Apache Iceberg™
При создании или изменении эндпоинта вы можете задать:
- Настройки подключения к кластеру Apache Hive™ Metastore.
- Настройки конфигурации для бакета Yandex Object Storage или пользовательского S3-совместимого хранилища.
- Дополнительные параметры.
Кластер Apache Hive™ Metastore
Важно
Для создания или редактирования эндпоинта управляемой базы данных вам потребуется роль managed-metastore.viewer или примитивная роль viewer, выданная на каталог кластера этой управляемой базы данных.
Подключение с указанием кластера в Yandex Cloud.
-
Кластер Apache Hive™ Metastore — идентификатор кластера, каталог которого используется для таблиц Apache Iceberg™.
-
Группы безопасности — выберите облачную сеть для размещения эндпоинта и группы безопасности для сетевого трафика. Это позволит применить указанные правила групп безопасности к ВМ и кластерам в выбранной сети без изменения их настроек. Подробнее см. в разделе Сеть в Yandex Data Transfer.
Убедитесь, что выбранные группы безопасности настроены.
Настройки конфигурации бакета
- Бакет — имя бакета, в который будут загружаться данные из источника.
- Сервисный аккаунт — выберите или создайте сервисный аккаунт с ролью
storage.uploader, от имени которого сервис Data Transfer будет подключаться к бакету.
- (Опционально) Эндпоинт — эндпоинт для службы, совместимой с Amazon S3. Оставьте поле пустым для использования Amazon.
- Регион — регион для отправки запросов.
- Бакет — имя бакета.
- Идентификатор статического ключа и Содержимое статического ключа — идентификатор и содержимое ключа AWS
для доступа к частному бакету.
- (Опционально) Префикс пути — префикс путей для записи объектов в бакет.
Дополнительные настройки
-
Политика очистки — выберите способ очистки данных в базе-приемнике перед переносом:
-
Не очищать— существующие таблицы с данными будут использоваться для дальнейшей записи данных. -
DROP— полное удаление таблиц, участвующих в трансфере.Используйте эту опцию, чтобы при любой активации трансфера в базу-приемник всегда передавалась самая последняя версия схемы таблиц из источника.
-
После настройки источника и приемника данных создайте и запустите трансфер.