Поставка данных из очереди Data Streams в Managed Service for Apache Kafka® с помощью Yandex Data Transfer
С помощью сервиса Data Transfer можно поставлять данные из потока Data Streams в кластер Managed Service for Apache Kafka®.
Чтобы перенести данные:
- Подготовьте поток данных Data Streams.
- Подготовьте и активируйте трансфер.
- Проверьте работоспособность трансфера.
Если созданные ресурсы вам больше не нужны, удалите их.
Перед началом работы
Подготовьте инфраструктуру поставки данных:
-
Создайте базу данных Managed Service for YDB любой подходящей конфигурации.
-
Создайте кластер Managed Service for Apache Kafka® любой подходящей конфигурации c хостами в публичном доступе.
-
Создайте в кластере Managed Service for Apache Kafka® топик с именем
sensors
. -
Создайте в кластере Managed Service for Apache Kafka® пользователя с именем
mkf-user
и правами доступаACCESS_ROLE_PRODUCER
иACCESS_ROLE_CONSUMER
к созданному топику.
-
Если у вас еще нет Terraform, установите его.
-
Получите данные для аутентификации. Вы можете добавить их в переменные окружения или указать далее в файле с настройками провайдера.
-
Настройте и инициализируйте провайдер. Чтобы не создавать конфигурационный файл с настройками провайдера вручную, скачайте его
. -
Поместите конфигурационный файл в отдельную рабочую директорию и укажите значения параметров. Если данные для аутентификации не были добавлены в переменные окружения, укажите их в конфигурационном файле.
-
Скачайте в ту же рабочую директорию файл конфигурации yds-to-kafka.tf
.В этом файле описаны:
- сеть;
- подсеть;
- группа безопасности и правила, необходимые для подключения к кластеру Managed Service for Apache Kafka®;
- база данных Managed Service for YDB;
- кластер Managed Service for Apache Kafka®;
- топик Managed Service for Apache Kafka® с именем
sensors
; - пользователь Managed Service for Apache Kafka® с правами доступа
ACCESS_ROLE_PRODUCER
,ACCESS_ROLE_CONSUMER
к топикуsensors
; - трансфер.
-
Укажите в файле
yds-to-kafka.tf
значения параметров:mkf_version
— версия кластера Apache Kafka®;ydb_name
— имя базы данных Managed Service for YDB;mkf_user_name
— имя пользователя в кластере Managed Service for Apache Kafka®;mkf_user_password
— пароль пользователя в кластере Managed Service for Apache Kafka®;transfer_enabled
— значение0
, чтобы не создавать трансфер до создания эндпоинтов вручную.
-
Проверьте корректность файлов конфигурации Terraform с помощью команды:
terraform validate
Если в файлах конфигурации есть ошибки, Terraform на них укажет.
-
Создайте необходимую инфраструктуру:
-
Выполните команду для просмотра планируемых изменений:
terraform plan
Если конфигурации ресурсов описаны верно, в терминале отобразится список изменяемых ресурсов и их параметров. Это проверочный этап: ресурсы не будут изменены.
-
Если вас устраивают планируемые изменения, внесите их:
-
Выполните команду:
terraform apply
-
Подтвердите изменение ресурсов.
-
Дождитесь завершения операции.
-
В указанном каталоге будут созданы все требуемые ресурсы. Проверить появление ресурсов и их настройки можно в консоли управления
. -
Создайте поток данных Data Streams
Создайте поток данных Data Streams.
Подготовьте и активируйте трансфер
-
Создайте эндпоинт для источника Data Streams.
-
Тип базы данных —
Yandex Data Streams
. -
Параметры эндпоинта:
-
Настройки подключения:
- База данных — выберите базу данных Managed Service for YDB из списка.
- Поток — укажите имя потока Data Streams.
- Сервисный аккаунт — выберите или создайте сервисный аккаунт с ролью
yds.editor
.
-
Расширенные настройки:
- Правила конвертации —
JSON
. - Схема данных —
JSON-спецификация
:
Заполните схему данных:
Схема данных
[ { "name": "device_id", "type": "string" }, { "name": "datetime", "type": "datetime" }, { "name": "latitude", "type": "double" }, { "name": "longitude", "type": "double" }, { "name": "altitude", "type": "double" }, { "name": "speed", "type": "double" }, { "name": "battery_voltage", "type": "any" }, { "name": "cabin_temperature", "type": "double" }, { "name": "fuel_level", "type": "any" } ]
- Правила конвертации —
-
-
-
Создайте эндпоинт для приемника Managed Service for Apache Kafka®.
-
Тип базы данных —
Kafka
. -
Параметры эндпоинта:
-
Настройки подключения:
- Тип подключения — выберите
Кластер Managed Service for Apache Kafka
. - Кластер Managed Service for Apache Kafka — выберите кластер Managed Service for Apache Kafka® из списка.
- Аутентификация — выберите SASL.
- Имя пользователя — введите имя пользователя в кластере Managed Service for Apache Kafka®.
- Пароль — введите пароль пользователя в кластере Managed Service for Apache Kafka®.
- Топик — выберите Полное имя топика.
- Полное имя топика — введите имя топика в кластере Managed Service for Apache Kafka®.
- Тип подключения — выберите
-
-
-
Создайте трансфер:
ВручнуюTerraform- Создайте трансфер типа Репликация, использующий созданные эндпоинты.
- Активируйте его.
-
Укажите в файле
yds-to-kafka.tf
значения переменных:source_endpoint_id
— идентификатор эндпоинта для источника;target_endpoint_id
— идентификатор эндпоинта для приемника;transfer_enabled
– значение1
для создания трансфера.
-
Проверьте корректность файлов конфигурации Terraform с помощью команды:
terraform validate
Если в файлах конфигурации есть ошибки, Terraform на них укажет.
-
Создайте необходимую инфраструктуру:
-
Выполните команду для просмотра планируемых изменений:
terraform plan
Если конфигурации ресурсов описаны верно, в терминале отобразится список изменяемых ресурсов и их параметров. Это проверочный этап: ресурсы не будут изменены.
-
Если вас устраивают планируемые изменения, внесите их:
-
Выполните команду:
terraform apply
-
Подтвердите изменение ресурсов.
-
Дождитесь завершения операции.
-
Трансфер активируется автоматически.
-
Проверьте работоспособность трансфера
-
Дождитесь перехода трансфера в статус Реплицируется.
-
Отправьте в поток Data Streams тестовые данные:
{ "device_id":"iv9a94th6rzt********", "datetime":"2020-06-05T17:27:00", "latitude":"55.70329032", "longitude":"37.65472196", "altitude":"427.5", "speed":"0", "battery_voltage":"23.5", "cabin_temperature":"17", "fuel_level":null }
-
Убедитесь, что данные перенеслись в топик
sensors
кластера Managed Service for Apache Kafka®:- Получите SSL-сертификат для подключения к кластеру Managed Service for Apache Kafka®.
- Установите утилиту
kafkacat
. - Запустите команду получения сообщений из топика.
Удалите созданные ресурсы
Примечание
Перед тем как удалить созданные ресурсы, деактивируйте трансфер.
Некоторые ресурсы платные. Чтобы за них не списывалась плата, удалите ресурсы, которые вы больше не будете использовать:
- Удалите трансфер.
- Удалите эндпоинты для источника и приемника.
- Если при создании эндпоинта для источника вы создавали сервисный аккаунт, удалите его.
Остальные ресурсы удалите в зависимости от способа их создания:
-
В терминале перейдите в директорию с планом инфраструктуры.
Важно
Убедитесь, что в директории нет Terraform-манифестов с ресурсами, которые вы хотите сохранить. Terraform удаляет все ресурсы, которые были созданы с помощью манифестов в текущей директории.
-
Удалите ресурсы:
-
Выполните команду:
terraform destroy
-
Подтвердите удаление ресурсов и дождитесь завершения операции.
Все ресурсы, которые были описаны в Terraform-манифестах, будут удалены.
-