Создание внешнего источника данных HDFS
В Managed Service for Greenplum® в качестве внешнего источника данных с типом подключения HDFS можно использовать систему HDFS в составе сервиса Yandex Data Processing или другие сторонние сервисы HDFS.
Создайте внешний источник
- Перейдите на страницу каталога
и выберите сервис Managed Service for Greenplum. - Откройте страницу нужного кластера Managed Service for Greenplum®.
- На панели слева выберите
PXF. - Нажмите кнопку Создать источник данных.
- Выберите тип подключения
HDFS
. - Укажите имя источника.
- Задайте хотя бы одну опциональную настройку.
- Нажмите кнопку Создать.
Чтобы добавить источник данных HDFS в кластер Managed Service for Greenplum®, воспользуйтесь методом REST API create для ресурса PXFDatasource или вызовом gRPC API PXFDatasourceService/Create и передайте в запросе:
- Идентификатор кластера в параметре
clusterId
. Чтобы узнать идентификатор, получите список кластеров в каталоге. - Имя источника в параметре
name
. - Настройки внешнего источника в параметре
hdfs
.
Пример запроса REST API
В примере ниже рассматривается, как создать внешний источник данных HDFS с помощью REST API Managed Service for Greenplum®. Чтобы создать источник:
-
Получите IAM-токен. Он используется для аутентификации в API.
-
Добавьте IAM-токен в переменную окружения:
export IAM_TOKEN=<токен>
-
Отправьте запрос с помощью утилиты cURL
:curl --location "https://mdb.api.cloud.yandex.net/managed-greenplum/v1/clusters/<идентификатор_кластера>/pxf_datasources" \ --header "Content-Type: text/plain" \ --header "Authorization: Bearer ${IAM_TOKEN}" \ --data "{ \"datasource\": { \"name\": \"hdfs:csv\", \"hdfs\": { \"core\": { \"defaultFs\": \"<тип_хранения:_DISK_или_ARCHIVE>\" } } } }"
В теле запроса передаются параметры:
-
name
— имя источника, напримерhdfs:csv
. -
defaultFs
— тип хранения данных, используемый по умолчанию (опциональный параметр). Возможные значения:DISK
— хранение данных на физическом диске.ARCHIVE
— архивное хранение данных. В этом случае можно разместить в HDFS больше данных, но скорость их обработки будет ниже.
-
Greenplum® и Greenplum Database® являются зарегистрированными товарными знаками или товарными знаками VMware, Inc в США и/или других странах.