Начало работы с Apache Hive™ Metastore
В сервисе Yandex MetaData Hub вы можете создавать кластеры Apache Hive™ Metastore и использовать их для работы с кластерами Yandex Data Processing.
Перед началом работы
-
Перейдите в консоль управления
, затем войдите в Yandex Cloud или зарегистрируйтесь, если вы еще не зарегистрированы. -
Если у вас еще нет каталога, создайте его:
-
В консоли управления
в списке слева выберите нужное облако. -
Справа сверху нажмите кнопку Создать каталог.
-
Введите имя каталога. Требования к имени:
- длина — от 2 до 63 символов;
- может содержать строчные буквы латинского алфавита, цифры и дефисы;
- первый символ — буква, последний — не дефис.
-
(Опционально) Введите описание каталога.
-
Выберите опцию Создать сеть по умолчанию. Будет создана сеть с подсетями в каждой зоне доступности. Также в этой сети будет создана группа безопасности по умолчанию, внутри которой весь сетевой трафик разрешен.
-
Нажмите кнопку Создать.
-
-
Для привязки сервисного аккаунта к кластеру Apache Hive™ Metastore назначьте вашему аккаунту в Yandex Cloud роль iam.serviceAccounts.user или выше.
Примечание
Если вы не можете управлять ролями, обратитесь к администратору вашего облака или организации.
-
Настройте NAT-шлюз в подсети, в которой будут размещены кластеры Apache Hive™ Metastore и Yandex Data Processing.
-
Создайте группу безопасности для кластеров Apache Hive™ Metastore и Yandex Data Processing.
-
Добавьте в группу безопасности правила для кластера Apache Hive™ Metastore:
-
Для входящего трафика от клиентов:
- Диапазон портов —
30000-32767. - Протокол —
Любой(Any). - Источник —
CIDR. - CIDR блоки —
0.0.0.0/0.
- Диапазон портов —
-
Для входящего трафика от балансировщика:
- Диапазон портов —
10256. - Протокол —
Любой(Any). - Источник —
Проверки состояния балансировщика.
- Диапазон портов —
-
-
Добавьте в группу безопасности правила для кластера Yandex Data Processing:
-
По одному правилу для входящего и исходящего служебного трафика:
- Диапазон портов —
0-65535. - Протокол —
Любой. - Источник/Назначение —
Группа безопасности. - Группа безопасности —
Текущая.
- Диапазон портов —
-
Отдельное правило для исходящего HTTPS-трафика на все адреса. Это позволит использовать бакеты Yandex Object Storage, UI Proxy и автоматическое масштабирование подкластеров Yandex Data Processing.
- Диапазон портов —
443. - Протокол —
TCP. - Назначение —
CIDR. - CIDR блоки —
0.0.0.0/0.
- Диапазон портов —
-
Правило, разрешающее доступ к NTP-серверам для синхронизации времени:
- Диапазон портов —
123. - Протокол —
UDP. - Назначение —
CIDR. - CIDR блоки —
0.0.0.0/0.
- Диапазон портов —
-
-
Создайте сервисный аккаунт с ролями
dataproc.agent,dataproc.provisionerиmanaged-metastore.integrationProvider. -
Создайте бакет Object Storage для работы с кластером Yandex Data Processing.
-
В созданной ранее сети создайте кластер Yandex Data Processing. В настройках задайте:
- Сервисы
SPARKиYARN. - Сервисный аккаунт, созданный ранее.
- Свойство
spark:spark.sql.hive.metastore.sharedPrefixesсо значениемcom.amazonaws,ru.yandex.cloud. Нужно для выполнения заданий PySpark и для интеграции с Apache Hive™ Metastore. - Бакет, созданный ранее.
- Группу безопасности, настроенную ранее.
- Сервисы
Создайте кластер Apache Hive™ Metastore
- В консоли управления перейдите в ранее созданный каталог.
- Выберите сервис Yandex MetaData Hub.
- На панели слева выберите
Metastore-сервер. - Нажмите кнопку Создать кластер.
- Введите имя кластера. Оно должно быть уникальным в рамках каталога.
- Выберите сервисный аккаунт, от имени которого кластер Apache Hive™ Metastore будет взаимодействовать с другими сервисами Yandex Cloud, или создайте новый.
- Выберите версию Apache Hive™ Metastore 3.1.
- В блоке Сетевые настройки выберите созданную ранее сеть и подсеть. Укажите заранее настроенную группу безопасности.
- В блоке Metastore выберите конфигурацию кластера.
- (Опционально) В блоке Логирование включите запись логов, выберите минимальный уровень логирования и укажите каталог или лог-группу.
- При необходимости включите защиту кластера от непреднамеренного удаления пользователем.
- Нажмите кнопку Создать.
Подключите кластер Apache Hive™ Metastore к кластеру Yandex Data Processing
-
В созданном ранее кластере Yandex Data Processing задайте следующее свойство:
spark:spark.hive.metastore.uris : thrift://<IP-адрес_кластера_Apache Hive™ Metastore>:9083Чтобы узнать IP-адрес кластера Apache Hive™ Metastore, в консоли управления выберите сервис Yandex MetaData Hub и на панели слева выберите
Metastore-сервер. Для нужного кластера скопируйте значение из колонки IP-адрес. -
Добавьте в группу безопасности следующее правило для исходящего трафика:
- Диапазон портов —
9083. - Протокол —
Любой(Any). - Источник —
CIDR. - CIDR блоки —
0.0.0.0/0.
- Диапазон портов —
Что дальше
- Работайте с таблицами при помощи Apache Hive™ Metastore.
- Используйте Apache Hive™ Metastore для переноса данных между кластерами Yandex Data Processing.
- Храните в Apache Hive™ Metastore табличные данные при работе с Apache Airflow™.
- Экспортируйте или импортируйте метаданные Hive в кластере Apache Hive™ Metastore.
Apache® и Apache Hive™