Подключение к Yandex Managed Service for ClickHouse®
С помощью направленного ациклического графа (DAG) можно настроить подключение к БД в кластере Yandex Managed Service for ClickHouse®. Данные для подключения к БД хранятся в Yandex Lockbox и автоматически подставляются в граф.
Перед началом работы
-
Создайте кластер Managed Service for ClickHouse® с параметрами:
- Имя БД —
default-bd; - Имя пользователя —
admin; - Пароль —
admin-password.
Важно
Создание базы данных с именем
defaultзапрещено. - Имя БД —
-
Создайте бакет Yandex Object Storage, в котором будет храниться DAG-файл.
-
Настройте кластер Managed Service for Apache Airflow™:
- Включите опцию Использовать Lockbox Secret Backend, которая позволяет использовать секреты в сервисе Yandex Lockbox для хранения конфигурационных данных, переменных и параметров подключений Apache Airflow™.
- В блоке Зависимости добавьте pip-пакет
airflow-clickhouse-plugin. - В блоке Хранилище DAG-файлов выберите созданный ранее бакет Object Storage. Из него будет загружен DAG-файл.
-
Выдайте своему сервисному аккаунту роль
lockbox.payloadViewer.Роль
lockbox.payloadViewerне обязательно выдавать на весь каталог. Достаточно назначить ее на конкретный секрет Yandex Lockbox после его создания.
Создайте секрет Yandex Lockbox
Для корректной работы кластера Apache Airflow™ секрет в Yandex Lockbox должен иметь имя в формате airflow/<тип_артефакта>/<идентификатор_артефакта>, где:
<тип_артефакта>— определяет, какие данные будут храниться в секрете. Возможные значения:connections— подключения;variables— переменные;config— данные конфигурации.
<идентификатор_артефакта>— идентификатор, который будет использоваться для обращения к артефакту в Apache Airflow™.
Создайте секрет Yandex Lockbox с параметрами:
-
Имя —
airflow/connections/ch. -
Тип секрета —
Пользовательский. -
Ключ —
conn. -
Значение — выберите Текст и укажите следующее содержимое:
{ "conn_type": "clickhouse", "host": "<FQDN_хоста_кластера_ClickHouse®>", "port": 9440, "schema": "default-bd", "login": "admin", "password": "admin-password", "extra": { "secure": "True" } }
Подробнее о том, как узнать FQDN хоста кластера ClickHouse®, см. в разделе FQDN хостов ClickHouse®.
В секрете будут сохранены данные для подключения к БД в кластере Managed Service for ClickHouse®.
Подготовьте DAG-файл и запустите граф
-
Создайте локально файл с именем
clickhouse.pyи скопируйте в него скрипт:from airflow.decorators import dag, task from airflow_clickhouse_plugin.hooks.clickhouse import ClickHouseHook @dag(schedule=None) def clickhouse(): @task def query_clickhouse(): ch_hook = ClickHouseHook(clickhouse_conn_id="ch") result = ch_hook.execute('select 1;') print(f'query result: {result}') query_clickhouse() clickhouse() -
Загрузите DAG-файл
clickhouse.pyв созданный ранее бакет. -
Убедитесь, что в разделе Dags появился новый граф
clickhouse.Загрузка DAG-файла из бакета может занять несколько минут.
-
Чтобы запустить граф, в строке с его именем нажмите кнопку
.
Проверьте результат
Чтобы проверить результат в веб-интерфейсе Apache Airflow™:
- В разделе DAGs откройте граф
clickhouse. - Перейдите в раздел Graph.
- Выберите задание query_clickhouse.
- Перейдите в раздел Logs.
- Убедитесь, что в логах есть строка
query result: [(1,)]. Это значит, что запрос выполнен успешно.
- В разделе Dags нажмите на граф
clickhouse. - Перейдите в раздел Tasks.
- Выберите задание query_clickhouse.
- Перейдите в раздел Task Instances.
- Выберите экземпляр задания.
- Откроется раздел Logs.
- Убедитесь, что в логах есть строка
query result: [(1,)]. Это значит, что запрос выполнен успешно.