Yandex Cloud
Поиск
Связаться с намиПодключиться
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
    • Популярные
    • Инфраструктура и сеть
    • Платформа данных
    • Контейнеры
    • Инструменты разработчика
    • Бессерверные вычисления
    • Безопасность
    • Мониторинг и управление ресурсами
    • Машинное обучение
    • Бизнес-инструменты
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Облако для интеграторов
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Контент-программа
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Истории успеха
    • Тарифы Yandex Cloud
    • Промоакции и free tier
    • Правила тарификации
  • Документация
  • Блог
Проект Яндекса
© 2025 ООО «Яндекс.Облако»
Yandex Data Transfer
  • Доступные трансферы
  • Начало работы
    • Все инструкции
    • Подготовка к трансферу
      • Управление эндпоинтами
      • Миграция эндпоинтов в другую зону доступности
        • Источник
    • Управление трансфером
    • Работа с базами данных во время трансфера
    • Мониторинг состояния трансфера
  • Решение проблем
  • Управление доступом
  • Справочник Terraform
  • Метрики Monitoring
  • Аудитные логи Audit Trails
  • Публичные материалы
  • Обучающие курсы

В этой статье:

  • Сценарии передачи данных из S3
  • Подготовка базы данных S3
  • Настройки
  • Настройка приемника данных
  1. Пошаговые инструкции
  2. Настройка эндпоинтов
  3. S3
  4. Источник

Передача данных из эндпоинта-источника S3

Статья создана
Yandex Cloud
Обновлена 25 декабря 2024 г.
  • Сценарии передачи данных из S3
  • Подготовка базы данных S3
  • Настройки
  • Настройка приемника данных

С помощью сервиса Yandex Data Transfer вы можете переносить данные из хранилища S3 в управляемые базы данных Yandex Cloud и реализовывать различные сценарии обработки и трансформации данных. Для реализации трансфера:

  1. Ознакомьтесь с возможными сценариями передачи данных.
  2. Подготовьте базу данных S3 к трансферу.
  3. Настройте эндпоинт-источник в Yandex Data Transfer.
  4. Настройте один из поддерживаемых приемников данных.
  5. Cоздайте и запустите трансфер.
  6. При возникновении проблем, воспользуйтесь готовыми решениями по их устранению.

Сценарии передачи данных из S3Сценарии передачи данных из S3

Вы можете реализовывать сценарии миграции и поставки данных из хранилища Amazon Simple Storage Service (S3) в управляемые базы данных для дальнейшего хранения в облаке, обработки и загрузки в витрины данных с целью последующей визуализации.

Подробное описание возможных сценариев передачи данных в Yandex Data Transfer см. в разделе Практические руководства.

Подготовка базы данных S3Подготовка базы данных S3

Если вы используете частный бакет в качестве источника, предоставьте разрешения read и list учетной записи, которую будете использовать для подключения.

Подробнее см. в документации Airbyte®.

НастройкиНастройки

При создании или изменении эндпоинта задайте настройки доступа к S3-совместимому хранилищу.

Консоль управления
  • Набор данных — укажите имя служебной таблицы, которое будет использоваться для подключения.

  • Path Pattern — укажите шаблон пути. Если в бакете только файлы, используйте значение **.

  • Схема — укажите JSON-схему в виде {"<столбец>": "<тип_данных>"}. Используйте значение {} для автоматического определения схемы из файлов.

  • format — выберите формат, соответствующий вашим файлам: CSV, parquet, Avro или JSON Lines.

    • CSV — укажите настройки csv-файлов:

      • Разделитель — символ-разделитель.
      • Символ кавычек — символ для экранирования зарезервированных символов.
      • Escape-символ — escape-символ, используемый для экранирования специальных символов.
      • Кодировка — кодировка.
      • Двойные кавычки — включите, чтобы заменять две кавычки на одинарную.
      • Новые строки в значениях — включите, если значения текстовых данных могут содержать символы переноса строки.
      • Размер блока — размер в байтах, одновременно обрабатываемый при чтении файлов.
      • Дополнительные параметры для считывания — необходимые CSV ConvertOptions для редактирования. Указываются в виде JSON-строки.
      • Дополнительные настройки — необходимые CSV ReadOptions для редактирования. Указываются в виде JSON-строки.
    • parquet — укажите настройки parquet-файлов:

      • Размер буфера — размер буфера при десериализации отдельных частей столбцов.
      • Столбцы — столбцы для чтения. Оставьте поле пустым, чтобы считать все.
      • Размер пакета — максимальное количество записей в пакете.
    • JSON Lines — укажите настройки для JSON Lines:

      • Allow newlines in values — включите, чтобы разрешить перенос строк в значениях JSON. Включение этой опции может повлиять на скорость трансфера.
      • Unexpected field behavior — укажите, как должны обрабатываться поля JSON за пределами explicit_schema (если поля заданы). Подробнее см. в документации PyArrow.
      • Block Size — укажите размер блока (в байтах) для одновременной обработки в памяти из каждого файла. Слишком большое значение может привести к ошибке Out of memory при выполнении трансфера.
  • S3: Amazon Web Services — укажите настройки провайдера S3:

    • Бакет — имя бакета.
    • Идентификатор ключа доступа AWS и Секретный ключ доступа AWS — идентификатор и содержимое ключа AWS для доступа к частному бакету.
    • (Опционально) Префикс пути — префикс для каталогов и файлов, которые не должны обрабатываться AWS.
    • (Опционально) Эндпоинт — службы, не совместимые с Amazon S3, которые необходимо использовать. Оставьте поле пустым для использования службы Amazon.
    • Использовать SSL — включите, чтобы использовать пользовательские серверы по протоколу HTTPS. Игнорируется при использовании службы Amazon.
    • Проверить SSL-сертификат — включите, чтобы пропустить проверку подлинности SSL-сертификата сервера. Эта настройка полезна, если вы используете самоподписанные сертификаты. Игнорируется при использовании службы Amazon.

Подробнее о настройках см. в документации Airbyte®.

Airbyte® является зарегистрированным товарным знаком Airbyte, Inc в США и/или других странах.

Настройка приемника данныхНастройка приемника данных

Настройте один из поддерживаемых приемников данных:

  • MySQL®;
  • MongoDB;
  • ClickHouse®;
  • Greenplum®;
  • Yandex Managed Service for YDB;
  • Apache Kafka®;
  • YDS;
  • PostgreSQL.

Полный список поддерживаемых источников и приемников в Yandex Data Transfer см. в разделе Доступные трансферы.

Убедитесь, что настройки сети, в которой размещен кластер-приемник, разрешают подключение к интернету. Чтобы открыть доступ в интернет, настройте маршрутизацию.

После настройки источника и приемника данных создайте и запустите трансфер.

Была ли статья полезна?

Предыдущая
Приемник
Следующая
Источник
Проект Яндекса
© 2025 ООО «Яндекс.Облако»