Передача данных из эндпоинта-источника S3
С помощью сервиса Yandex Data Transfer вы можете переносить данные из хранилища S3 в управляемые базы данных Yandex Cloud и реализовывать различные сценарии обработки и трансформации данных. Для реализации трансфера:
- Ознакомьтесь с возможными сценариями передачи данных.
- Подготовьте базу данных S3 к трансферу.
- Настройте эндпоинт-источник в Yandex Data Transfer.
- Настройте один из поддерживаемых приемников данных.
- Cоздайте и запустите трансфер.
- При возникновении проблем, воспользуйтесь готовыми решениями по их устранению.
Сценарии передачи данных из S3
Вы можете реализовывать сценарии миграции и поставки данных из хранилища Amazon Simple Storage Service (S3) в управляемые базы данных для дальнейшего хранения в облаке, обработки и загрузки в витрины данных с целью последующей визуализации.
Подробное описание возможных сценариев передачи данных в Yandex Data Transfer см. в разделе Практические руководства.
Подготовка базы данных S3
Если вы используете частный бакет в качестве источника, предоставьте разрешения read
и list
учетной записи, которую будете использовать для подключения.
Подробнее см. в документации Airbyte®
Настройки
При создании или изменении эндпоинта задайте настройки доступа к S3-совместимому хранилищу.
-
Набор данных — укажите имя служебной таблицы, которое будет использоваться для подключения.
-
Path Pattern — укажите шаблон пути. Если в бакете только файлы, используйте значение
**
. -
Схема — укажите JSON-схему в виде
{"<столбец>": "<тип_данных>"}
. Используйте значение{}
для автоматического определения схемы из файлов. -
format — выберите формат, соответствующий вашим файлам:
CSV
,parquet
,Avro
илиJSON Lines
.-
CSV — укажите настройки csv-файлов:
- Разделитель — символ-разделитель.
- Символ кавычек — символ для экранирования зарезервированных символов.
- Escape-символ — escape-символ, используемый для экранирования специальных символов.
- Кодировка — кодировка
. - Двойные кавычки — включите, чтобы заменять две кавычки на одинарную.
- Новые строки в значениях — включите, если значения текстовых данных могут содержать символы переноса строки.
- Размер блока — размер в байтах, одновременно обрабатываемый при чтении файлов.
- Дополнительные параметры для считывания — необходимые CSV ConvertOptions
для редактирования. Указываются в виде JSON-строки. - Дополнительные настройки — необходимые CSV ReadOptions
для редактирования. Указываются в виде JSON-строки.
-
parquet — укажите настройки parquet-файлов:
- Размер буфера — размер буфера при десериализации отдельных частей столбцов.
- Столбцы — столбцы для чтения. Оставьте поле пустым, чтобы считать все.
- Размер пакета — максимальное количество записей в пакете.
-
JSON Lines — укажите настройки для JSON Lines:
- Allow newlines in values — включите, чтобы разрешить перенос строк в значениях JSON. Включение этой опции может повлиять на скорость трансфера.
- Unexpected field behavior — укажите, как должны обрабатываться поля JSON за пределами
explicit_schema
(если поля заданы). Подробнее см. в документации PyArrow . - Block Size — укажите размер блока (в байтах) для одновременной обработки в памяти из каждого файла. Слишком большое значение может привести к ошибке
Out of memory
при выполнении трансфера.
-
-
S3: Amazon Web Services — укажите настройки провайдера S3:
- Бакет — имя бакета.
- Идентификатор ключа доступа AWS и Секретный ключ доступа AWS — идентификатор и содержимое ключа AWS
для доступа к частному бакету. - (Опционально) Префикс пути — префикс для каталогов и файлов, которые не должны обрабатываться AWS.
- (Опционально) Эндпоинт — службы, не совместимые с Amazon S3, которые необходимо использовать. Оставьте поле пустым для использования службы Amazon.
- Использовать SSL — включите, чтобы использовать пользовательские серверы по протоколу HTTPS. Игнорируется при использовании службы Amazon.
- Проверить SSL-сертификат — включите, чтобы пропустить проверку подлинности SSL-сертификата сервера. Эта настройка полезна, если вы используете самоподписанные сертификаты. Игнорируется при использовании службы Amazon.
Подробнее о настройках см. в документации Airbyte®
Airbyte® является зарегистрированным товарным знаком Airbyte, Inc в США и/или других странах.
Настройка приемника данных
Настройте один из поддерживаемых приемников данных:
- MySQL®;
- MongoDB;
- ClickHouse®;
- Greenplum®;
- Yandex Managed Service for YDB;
- Apache Kafka®;
- YDS;
- PostgreSQL.
Полный список поддерживаемых источников и приемников в Yandex Data Transfer см. в разделе Доступные трансферы.
Убедитесь, что настройки сети, в которой размещен кластер-приемник, разрешают подключение к интернету. Чтобы открыть доступ в интернет, настройте маршрутизацию.
После настройки источника и приемника данных создайте и запустите трансфер.