Поставка данных в Yandex Managed Service for Greenplum® с помощью Yandex Data Transfer
Вы можете настроить перенос данных из топика Yandex Managed Service for Apache Kafka® в Yandex Managed Service for Greenplum® с помощью сервиса Yandex Data Transfer. Для этого:
- Подготовьте тестовые данные.
- Подготовьте и активируйте трансфер.
- Проверьте работоспособность трансфера.
Если созданные ресурсы вам больше не нужны, удалите их.
Перед началом работы
-
Подготовьте инфраструктуру:
ВручнуюTerraform-
Создайте кластер-источник Yandex Managed Service for Apache Kafka® любой подходящей конфигурации c хостами в публичном доступе.
-
Создайте в кластере-источнике топик с именем
sensors
. -
Создайте в кластере-источнике пользователя с именем
mkf-user
и правами доступа к созданному топикуACCESS_ROLE_PRODUCER
иACCESS_ROLE_CONSUMER
. -
Создайте кластер-приемник Yandex Managed Service for Greenplum® любой подходящей конфигурации с именем пользователя-администратора
user
и хостами в публичном доступе. -
Убедитесь, что группы безопасности кластеров настроены правильно и допускают подключение к ним:
-
Если у вас еще нет Terraform, установите его.
-
Получите данные для аутентификации. Вы можете добавить их в переменные окружения или указать далее в файле с настройками провайдера.
-
Настройте и инициализируйте провайдер. Чтобы не создавать конфигурационный файл с настройками провайдера вручную, скачайте его
. -
Поместите конфигурационный файл в отдельную рабочую директорию и укажите значения параметров. Если данные для аутентификации не были добавлены в переменные окружения, укажите их в конфигурационном файле.
-
Скачайте в ту же рабочую директорию файл конфигурации kafka-greenplum.tf
.В этом файле описаны:
- сети и подсети для размещения кластеров;
- группы безопасности для подключения к кластерам;
- кластер-источник Managed Service for Apache Kafka®;
- кластер-приемник Managed Service for Greenplum®;
- трансфер.
-
Укажите в файле
kafka-greenplum.tf
пароли пользователя и версии Apache Kafka® и Greenplum®. -
Проверьте корректность файлов конфигурации Terraform с помощью команды:
terraform validate
Если в файлах конфигурации есть ошибки, Terraform на них укажет.
-
Создайте необходимую инфраструктуру:
-
Выполните команду для просмотра планируемых изменений:
terraform plan
Если конфигурации ресурсов описаны верно, в терминале отобразится список изменяемых ресурсов и их параметров. Это проверочный этап: ресурсы не будут изменены.
-
Если вас устраивают планируемые изменения, внесите их:
-
Выполните команду:
terraform apply
-
Подтвердите изменение ресурсов.
-
Дождитесь завершения операции.
-
В указанном каталоге будут созданы все требуемые ресурсы. Проверить появление ресурсов и их настройки можно в консоли управления
. -
-
-
Установите утилиты:
-
kafkacat
— для чтения и записи данных в топики Apache Kafka®.sudo apt update && sudo apt install --yes kafkacat
Убедитесь, что можете с ее помощью подключиться к кластеру-источнику Managed Service for Apache Kafka® через SSL.
-
jq
— для потоковой обработки JSON-файлов.sudo apt update && sudo apt-get install --yes jq
-
Подготовьте тестовые данные
Пусть в качестве сообщения в топик Apache Kafka® sensors
кластера-источника поступают данные от сенсоров автомобиля в формате JSON.
Создайте на рабочей машине файл sample.json
с тестовыми данными:
sample.json
{
"device_id": "iv9a94th6rzt********",
"datetime": "2020-06-05 17:27:00",
"latitude": 55.70329032,
"longitude": 37.65472196,
"altitude": 427.5,
"speed": 0,
"battery_voltage": 23.5,
"cabin_temperature": 17,
"fuel_level": null
}
Подготовьте и активируйте трансфер
-
Создайте эндпоинт-источник типа
Apache Kafka®
и задайте для него:- Полное имя топика —
sensors
. - Правила конвертации типа
json
. В поле Схема данных выберитеJSON-спецификация
и в открывшуюся форму скопируйте следующую спецификацию полей:
sensors-specification
[ { "name": "device_id", "type": "utf8", "key": true }, { "name": "datetime", "type": "utf8" }, { "name": "latitude", "type": "double" }, { "name": "longitude", "type": "double" }, { "name": "altitude", "type": "double" }, { "name": "speed", "type": "double" }, { "name": "battery_voltage", "type": "double" }, { "name": "cabin_temperature", "type": "uint16" }, { "name": "fuel_level", "type": "uint16" } ]
- Полное имя топика —
-
Создайте эндпоинт-приемник типа
Greenplum®
, укажите имя пользователяuser
. -
Создайте и активируйте трансфер:
ВручнуюTerraform- Создайте трансфер типа Репликация, использующий созданные эндпоинты.
- Активируйте трансфер и дождитесь его перехода в статус Реплицируется.
-
Укажите в файле
kafka-greenplum.tf
переменные:kf_source_endpoint_id
— значение идентификатора эндпоинта для источника;gp_target_endpoint_id
— значение идентификатора эндпоинта для приемника;transfer_enabled
– значение1
для создания трансфера.
-
Проверьте корректность файлов конфигурации Terraform с помощью команды:
terraform validate
Если в файлах конфигурации есть ошибки, Terraform на них укажет.
-
Создайте необходимую инфраструктуру:
-
Выполните команду для просмотра планируемых изменений:
terraform plan
Если конфигурации ресурсов описаны верно, в терминале отобразится список изменяемых ресурсов и их параметров. Это проверочный этап: ресурсы не будут изменены.
-
Если вас устраивают планируемые изменения, внесите их:
-
Выполните команду:
terraform apply
-
Подтвердите изменение ресурсов.
-
Дождитесь завершения операции.
-
-
-
Трансфер активируется автоматически. Дождитесь его перехода в статус Реплицируется.
Проверьте работоспособность трансфера
Убедитесь, что в базу данных Managed Service for Greenplum® переносятся данные из топика кластера-источника Managed Service for Apache Kafka®:
-
Отправьте данные из файла
sample.json
в топикsensors
Managed Service for Apache Kafka® с помощью утилитjq
иkafkacat
:jq -rc . sample.json | kafkacat -P \ -b <FQDN_хоста-брокера>:9091 \ -t sensors \ -k key \ -X security.protocol=SASL_SSL \ -X sasl.mechanisms=SCRAM-SHA-512 \ -X sasl.username="<имя_пользователя_в_кластере-источнике>" \ -X sasl.password="<пароль_пользователя_в_кластере-источнике>" \ -X ssl.ca.location=/usr/local/share/ca-certificates/Yandex/YandexInternalRootCA.crt -Z
Подробнее о настройке SSL-сертификата и работе с
kafkacat
см. в разделе Подключение к кластеру Apache Kafka® из приложений. -
Убедитесь, что в базу данных Managed Service for Greenplum® перенеслись данные из кластера-источника Managed Service for Apache Kafka®:
-
Проверьте, что база данных содержит таблицу
sensors
с тестовыми данными из топика:SELECT * FROM public.sensors;
Удалите созданные ресурсы
Некоторые ресурсы платные. Чтобы за них не списывалась плата, удалите ресурсы, которые вы больше не будете использовать:
-
Убедитесь, что трансфер находится в статусе Завершен и удалите его.
-
Удалите кластеры:
ВручнуюTerraformЕсли вы создали ресурсы с помощью Terraform:
-
В терминале перейдите в директорию с планом инфраструктуры.
-
Удалите конфигурационный файл
kafka-greenplum.tf
. -
Проверьте корректность файлов конфигурации Terraform с помощью команды:
terraform validate
Если в файлах конфигурации есть ошибки, Terraform на них укажет.
-
Подтвердите изменение ресурсов.
-
Выполните команду для просмотра планируемых изменений:
terraform plan
Если конфигурации ресурсов описаны верно, в терминале отобразится список изменяемых ресурсов и их параметров. Это проверочный этап: ресурсы не будут изменены.
-
Если вас устраивают планируемые изменения, внесите их:
-
Выполните команду:
terraform apply
-
Подтвердите изменение ресурсов.
-
Дождитесь завершения операции.
-
Все ресурсы, которые были описаны в конфигурационном файле
kafka-greenplum.tf
, будут удалены. -
-