Совместная работа с таблицами Yandex Data Processing с использованием Apache Hive™ Metastore

Статья создана

Обновлена 5 марта 2026 г.

Необходимые платные ресурсы
Перед началом работы
Подключите Yandex Data Processing к Apache Hive™ Metastore
Создайте тестовую таблицу
Получите данные во втором кластере
Удалите созданные ресурсы

Важно

Часть ресурсов, необходимых для прохождения практического руководства, доступны только в регионе Россия.

Вы можете сохранять данные из кластера Yandex Data Processing в бакет Yandex Object Storage, используя отдельный кластер Apache Hive™ Metastore для хранения метаданных таблиц. Это позволит затем работать с сохраненными данными другому кластеру Yandex Data Processing, имеющему доступ к бакету и подключенному к тому же кластеру Apache Hive™ Metastore.

Чтобы настроить совместное использование таблиц двумя кластерами Yandex Data Processing с помощью Apache Hive™ Metastore:

Если созданные ресурсы вам больше не нужны, удалите их.

Если в кластере Yandex Data Processing есть таблицы, которые должны быть доступны в другом кластере Yandex Data Processing, перенесите таблицы в нужный кластер с помощью Apache Hive™ Metastore.

Важно

Если вы хотите настроить политику доступа для бакета и подключаться к нему из кластера Apache Hive™ Metastore, вам потребуется дополнительная настройка инфраструктуры. Подробнее см. в инструкции.

Необходимые платные ресурсы

В стоимость поддержки инфраструктуры входит:

плата за вычислительные ресурсы кластера Yandex Data Processing и объем хранилища (см. тарифы Yandex Data Processing);
плата за вычислительные ресурсы кластера Apache Hive™ Metastore (см. тарифы Yandex MetaData Hub);
плата за хранение данных и операции с данными в бакете (см. тарифы Yandex Object Storage);
плата за использование NAT-шлюза и исходящий через шлюз трафик (см. тарифы Yandex Virtual Private Cloud).

Перед началом работы

Подготовьте инфраструктуру:

Вручную

Terraform

Создайте сервисный аккаунт с именем dataproc-s3-sa и назначьте ему роли dataproc.agent и dataproc.provisioner.
В Object Storage создайте бакеты и настройте доступ к ним:
1. Создайте бакет для исходных данных и предоставьте сервисному аккаунту кластера разрешение READ для этого бакета.
2. Создайте бакет для результатов обработки и предоставьте сервисному аккаунту кластера разрешение READ и WRITE для этого бакета.
Создайте облачную сеть с именем dataproc-network.
В сети dataproc-network создайте подсеть в любой зоне доступности.
Настройте NAT-шлюз для созданной подсети.
Создайте два кластера Yandex Data Processing с именами dataproc-source и dataproc-target, с любой подходящей конфигурацией хостов и следующими настройками:
- Окружение — PRODUCTION.
- Сервисы:
  - SPARK;
  - YARN.
- Сервисный аккаунт — dataproc-sa.
- Свойства — spark:spark.sql.hive.metastore.sharedPrefixes со значением com.amazonaws,ru.yandex.cloud. Нужно для выполнения заданий PySpark и для интеграции с Apache Hive™ Metastore.
- Имя бакета — бакет, который вы создали для выходных данных.
- Сеть — dataproc-network.
Если в облачной сети используются группы безопасности, добавьте в группу безопасности кластеров Yandex Data Processing следующее правило для исходящего трафика:
- Диапазон портов — 9083.
- Протокол — Любой (Any).
- Источник — CIDR.
- CIDR блоки — 0.0.0.0/0.

Если у вас еще нет Terraform, установите его.
Получите данные для аутентификации. Вы можете добавить их в переменные окружения или указать далее в файле с настройками провайдера.
Настройте и инициализируйте провайдер. Чтобы не создавать конфигурационный файл с настройками провайдера вручную, скачайте его.
Поместите конфигурационный файл в отдельную рабочую директорию и укажите значения параметров. Если данные для аутентификации не были добавлены в переменные окружения, укажите их в конфигурационном файле.
Скачайте в ту же рабочую директорию файл конфигурации dataproc-to-dataproc.tf.

В этом файле описаны:
- сеть;
- подсеть;
- NAT-шлюз и таблица маршрутизации, необходимые для работы Yandex Data Processing;
- группы безопасности, необходимые для кластеров Yandex Data Processing;
- сервисный аккаунт, необходимый для работы кластера Yandex Data Processing;
- сервисный аккаунт, необходимый для создания бакетов в Object Storage;
- бакеты для входных и выходных данных;
- два кластера Yandex Data Processing.
Укажите в файле dataproc-to-dataproc.tf:
- folder_id — идентификатор облачного каталога, такой же как в настройках провайдера.
- input-bucket — имя бакета для входных данных.
- output-bucket — имя бакета для выходных данных.
- dp_ssh_key — абсолютный путь к публичному ключу для кластеров Yandex Data Processing. Подробнее о подключении к хосту Yandex Data Processing по SSH.
Проверьте корректность файлов конфигурации Terraform с помощью команды:
```
terraform validate
```
Если в файлах конфигурации есть ошибки, Terraform на них укажет.
Создайте необходимую инфраструктуру:
1. Выполните команду для просмотра планируемых изменений:
```
terraform plan
```
  Если конфигурации ресурсов описаны верно, в терминале отобразится список изменяемых ресурсов и их параметров. Это проверочный этап: ресурсы не будут изменены.
2. Если вас устраивают планируемые изменения, внесите их:
  1. Выполните команду:
```
terraform apply
```
  2. Подтвердите изменение ресурсов.
  3. Дождитесь завершения операции.
В указанном каталоге будут созданы все требуемые ресурсы. Проверить появление ресурсов и их настройки можно в консоли управления.

Подключите Yandex Data Processing к Apache Hive™ Metastore

Создайте кластер Apache Hive™ Metastore с версией 3.1 в сети dataproc-network.
Добавьте в настройки кластеров Yandex Data Processing свойство spark:spark.hive.metastore.uris со значением thrift://<IP-адрес_кластера_Apache Hive™ Metastore>:9083.

Чтобы узнать IP-адрес кластера Apache Hive™ Metastore, откройте консоль управления, затем перейдите в сервис Yandex MetaData Hub и на левой панели выберите страницу Metastore-сервер. Для нужного кластера скопируйте значение из колонки IP-адрес.

Создайте тестовую таблицу

В кластере dataproc-source создайте тестовую таблицу countries и загрузите ее в Object Storage:

Spark

Подготовьте файл скрипта:

Создайте локально файл с именем create-table.py и скопируйте в него следующий скрипт:

create-table.py

from pyspark.sql.types import *
from pyspark.sql import SparkSession

# Создание Spark-сессии
spark = SparkSession.builder \
    .appName("create-table") \
    .enableHiveSupport() \
    .getOrCreate()

# Создание схемы данных
schema = StructType([StructField('Name', StringType(), True),
StructField('Capital', StringType(), True),
StructField('Area', IntegerType(), True),
StructField('Population', IntegerType(), True)])

# Создание датафрейма
df = spark.createDataFrame([('Австралия', 'Канберра', 7686850, 19731984), ('Австрия', 'Вена', 83855, 7700000)], schema)

# Запись датафрейма в бакет в виде таблицы countries
df.write.mode("overwrite").option("path","s3a://<имя_выходного_бакета>/countries").saveAsTable("countries")

Укажите в скрипте имя выходного бакета, в который будет сохранен файл с таблицей countries.
Создайте в бакете для входных данных папку scripts и загрузите в нее файл create-table.py.

Создайте задание PySpark, указав в поле Main python файл путь к файлу скрипта: s3a://<имя_входного_бакета>/scripts/create-table.py.
Дождитесь завершения задания и проверьте, что в выходном бакете в папке countries появился файл part-00000-....

Теперь данные из созданной таблицы хранятся в бакете Object Storage, а метаинформация о ней — в кластере Apache Hive™ Metastore. Кластер dataproc-source можно удалить.

Получите данные во втором кластере

Загрузите метаинформацию о таблице countries в кластер dataproc-target и убедитесь, что таблица стала доступна в кластере для дальнейшей работы:

Spark

Подготовьте файл скрипта:

Создайте локально файл с именем obtain-table.py и скопируйте в него следующий скрипт:

obtain-table.py

from pyspark.sql import SparkSession

# Создание Spark-сессии
spark = SparkSession.builder \
    .appName("obtain-table") \
    .enableHiveSupport() \
    .getOrCreate()

spark.catalog.listDatabases()

# Получение информации о таблице countries из Apache Hive™ Metastore
df = spark.sql("describe extended countries")

# Запрос данных из таблицы countries
df = spark.sql("select * from countries")

# Перенос таблицы в бакет для проверки
df.repartition(1).write.csv(path='s3a://<имя_выходного_бакета>/csv', header=True, sep=',')

Укажите в скрипте имя выходного бакета, в который будет сохранен CSV-файл с таблицей countries.
Загрузите файл obtain-table.py в бакет для входных данных в папку scripts.

Создайте задание PySpark, указав в поле Main python файл путь к файлу скрипта: s3a://<имя_входного_бакета>/scripts/obtain-table.py.
Дождитесь выполнения задания и убедитесь, что в выходном бакете появилась папка csv с таблицей в формате CSV.

Удалите созданные ресурсы

Некоторые ресурсы платные. Удалите ресурсы, которые вы больше не будете использовать, чтобы не платить за них:

Удалите кластер Apache Hive™ Metastore.
Удалите объекты из бакетов.
Удалите остальные ресурсы в зависимости от способа их создания:
Вручную

Terraform
1. В терминале перейдите в директорию с планом инфраструктуры.
  
  Важно
  
  Убедитесь, что в директории нет Terraform-манифестов с ресурсами, которые вы хотите сохранить. Terraform удаляет все ресурсы, которые были созданы с помощью манифестов в текущей директории.
2. Удалите ресурсы:
  1. Выполните команду:
    
    terraform destroy
  2. Подтвердите удаление ресурсов и дождитесь завершения операции.
  Все ресурсы, которые были описаны в Terraform-манифестах, будут удалены.

Apache® и Apache Hive™ являются зарегистрированными товарными знаками или товарными знаками Apache Software Foundation в США и/или других странах.

Совместная работа с таблицами Yandex Data Processing с использованием Apache Hive™ Metastore

Необходимые платные ресурсыНеобходимые платные ресурсы

Перед началом работыПеред началом работы

Подключите Yandex Data Processing к Apache Hive™ MetastoreПодключите Yandex Data Processing к Apache Hive™ Metastore

Создайте тестовую таблицуСоздайте тестовую таблицу

Получите данные во втором кластереПолучите данные во втором кластере