Параллельное копирование
Сервис Data Transfer может одновременно задействовать для трансфера несколько потоков исполнения. Это существенно увеличивает пропускную способность трансфера и позволяет использовать для него больший объем ресурсов. Параллельное копирование применяется для всех видов копирования в трансферах типа Копирование и Копирование и репликация, находящихся в статусе Копируется.
Возможности масштабирования зависят от типа базы-источника:
- Источники PostgreSQL, MongoDB и Greenplum® поддерживают разделение таблиц на части и параллельное копирование данных из одной таблицы. Для PostgreSQL первичный ключ должен быть типа
serial
. - Источники OpenSearch и Elasticsearch поддерживают параллельное копирование данных из одного индекса.
- Источники ClickHouse® поддерживают параллельное копирование по партициям. Для этого таблица должна иметь несколько партиций. Таблица из одной партиции будет скопирована в один поток. Параллельное копирование доступно только для трансферов из ClickHouse® в ClickHouse®.
- Источник Yandex Object Storage поддерживает параллельное копирование данных из одного каталога.
Чтобы включить параллельное копирование, укажите его настройки. Настройки параллельного копирования рекомендуется подбирать для каждого трансфера отдельно.
Особенности параллельного копирования Greenplum®
Сервис подключается напрямую к сегментам кластера Greenplum® и переносит данные из выбранной таблицы параллельно из всех сегментов. Консистентность данных в каждом сегменте обеспечивается механизмом Snapshot isolation
Настройки
Настройки копирования → Настройки параллельного копирования:
-
Количество воркеров — количество воркеров, которые будут параллельно запущены для копирования данных. Каждый воркер запускается на независимой виртуальной машине с собственными ресурсами CPU и RAM и собственным сетевым подключением.
-
Количество потоков — количество потоков, которое будет запущено в каждом воркере. Каждый поток запускается в отдельном контейнере на виртуальной машине воркера и копирует одну таблицу или ее часть (в зависимости от типа источника).
Степень распараллеливания трансфера определяется произведением количества воркеров на количество потоков внутри воркера.
Greenplum® и Greenplum Database® являются зарегистрированными товарными знаками или товарными знаками VMware, Inc в США и/или других странах.