Начало работы с Hive Metastore
Примечание
Функциональность находится на стадии Preview.
В сервисе Yandex MetaData Hub вы можете создавать кластеры Hive Metastore и использовать их для работы с кластерами Yandex Data Processing.
Перед началом работы
-
Перейдите в консоль управления
, затем войдите в Yandex Cloud или зарегистрируйтесь, если вы еще не зарегистрированы. -
Если у вас еще нет каталога, создайте его:
-
В консоли управления
в списке слева выберите нужное облако. -
Справа сверху нажмите кнопку Создать каталог.
-
Введите имя каталога. Требования к имени:
- длина — от 3 до 63 символов;
- может содержать строчные буквы латинского алфавита, цифры и дефисы;
- первый символ — буква, последний — не дефис.
-
(Опционально) Введите описание каталога.
-
Выберите опцию Создать сеть по умолчанию. Будет создана сеть с подсетями в каждой зоне доступности. Также в этой сети будет создана группа безопасности по умолчанию, внутри которой весь сетевой трафик разрешен.
-
Нажмите кнопку Создать.
-
-
Для привязки сервисного аккаунта к кластеру Metastore убедитесь, что вашему аккаунту в Yandex Cloud назначена роль iam.serviceAccounts.user или выше.
-
Настройте NAT-шлюз в подсети, в которой будут размещены кластеры Metastore и Yandex Data Processing.
-
Создайте группу безопасности для кластеров Metastore и Yandex Data Processing.
-
Добавьте в группу безопасности правила для кластера Metastore:
-
Для входящего трафика от клиентов:
- Диапазон портов —
30000-32767
. - Протокол —
Любой
(Any
). - Источник —
CIDR
. - CIDR блоки —
0.0.0.0/0
.
- Диапазон портов —
-
Для входящего трафика от балансировщика:
- Диапазон портов —
10256
. - Протокол —
Любой
(Any
). - Источник —
Проверки состояния балансировщика
.
- Диапазон портов —
-
-
Добавьте в группу безопасности правила для кластера Yandex Data Processing:
-
По одному правилу для входящего и исходящего служебного трафика:
- Диапазон портов —
0-65535
. - Протокол —
Любой
. - Источник/Назначение —
Группа безопасности
. - Группа безопасности —
Текущая
.
- Диапазон портов —
-
Отдельное правило для исходящего HTTPS-трафика на все адреса. Это позволит использовать бакеты Yandex Object Storage, UI Proxy и автоматическое масштабирование подкластеров Yandex Data Processing.
- Диапазон портов —
443
. - Протокол —
TCP
. - Назначение —
CIDR
. - CIDR блоки —
0.0.0.0/0
.
- Диапазон портов —
-
Правило, разрешающее доступ к NTP-серверам для синхронизации времени:
- Диапазон портов —
123
. - Протокол —
UDP
. - Назначение —
CIDR
. - CIDR блоки —
0.0.0.0/0
.
- Диапазон портов —
-
-
Создайте сервисный аккаунт с ролями
dataproc.agent
,dataproc.provisioner
иmanaged-metastore.integrationProvider
. -
Создайте бакет Object Storage для работы с кластером Yandex Data Processing.
-
В созданной ранее сети создайте кластер Yandex Data Processing. В настройках задайте:
- Сервисы
SPARK
иYARN
. - Сервисный аккаунт, созданный ранее.
- Свойство
spark:spark.sql.hive.metastore.sharedPrefixes
со значениемcom.amazonaws,ru.yandex.cloud
. Нужно для выполнения заданий PySpark и для интеграции с Metastore. - Бакет, созданный ранее.
- Группу безопасности, настроенную ранее.
- Сервисы
Создайте кластер Metastore
- В консоли управления перейдите в ранее созданный каталог.
- Выберите сервис Yandex MetaData Hub.
- На левой панели выберите страницу
Metastore-сервер. - Нажмите кнопку Создать кластер.
- Введите имя кластера. Оно должно быть уникальным в рамках каталога.
- Выберите сервисный аккаунт, от имени которого кластер Metastore будет взаимодействовать с другими сервисами Yandex Cloud, или создайте новый.
- В блоке Сетевые настройки выберите созданную ранее сеть и подсеть. Укажите заранее настроенную группу безопасности.
- (Опционально) В блоке Логирование включите запись логов, выберите минимальный уровень логирования и укажите каталог или лог-группу.
- При необходимости включите защиту кластера от непреднамеренного удаления пользователем.
- Нажмите кнопку Создать.
Подключите кластер Metastore к кластеру Yandex Data Processing
-
В созданном ранее кластере Yandex Data Processing задайте следующее свойство:
spark:spark.hive.metastore.uris : thrift://<IP-адрес_кластера_Metastore>:9083
Чтобы узнать IP-адрес кластера Metastore, в консоли управления выберите сервис Yandex MetaData Hub, на левой панели выберите страницу
Metastore-сервер и откройте нужный кластер. IP-адрес кластера указан в блоке Общая информация. -
Добавьте в группу безопасности следующее правило для исходящего трафика:
- Диапазон портов —
9083
. - Протокол —
Любой
(Any
). - Источник —
CIDR
. - CIDR блоки —
0.0.0.0/0
.
- Диапазон портов —