Yandex Cloud
Поиск
Связаться с намиПодключиться
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
    • Популярные
    • Инфраструктура и сеть
    • Платформа данных
    • Контейнеры
    • Инструменты разработчика
    • Бессерверные вычисления
    • Безопасность
    • Мониторинг и управление ресурсами
    • Машинное обучение
    • Бизнес-инструменты
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Облако для интеграторов
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Контент-программа
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Истории успеха
    • Тарифы Yandex Cloud
    • Промоакции и free tier
    • Правила тарификации
  • Документация
  • Блог
Проект Яндекса
© 2025 ООО «Яндекс.Облако»
Yandex MetaData Hub
    • Обзор
    • Connection Manager
    • Hive Metastore
    • Schema Registry
  • Аудитные логи Audit Trails
  • Правила тарификации
  • Решение проблем
  • Публичные материалы
  • История изменений

В этой статье:

  • Перед началом работы
  • Создайте кластер Metastore
  • Подключите кластер Metastore к кластеру Yandex Data Processing
  • Что дальше
  1. Начало работы
  2. Hive Metastore

Начало работы с Hive Metastore

Статья создана
Yandex Cloud
Улучшена
Danila N.
Обновлена 14 апреля 2025 г.
  • Перед началом работы
  • Создайте кластер Metastore
  • Подключите кластер Metastore к кластеру Yandex Data Processing
  • Что дальше

Примечание

Функциональность находится на стадии Preview.

В сервисе Yandex MetaData Hub вы можете создавать кластеры Hive Metastore и использовать их для работы с кластерами Yandex Data Processing.

Перед началом работыПеред началом работы

  1. Перейдите в консоль управления, затем войдите в Yandex Cloud или зарегистрируйтесь, если вы еще не зарегистрированы.

  2. Если у вас еще нет каталога, создайте его:

    1. В консоли управления в списке слева выберите нужное облако.

    2. Справа сверху нажмите кнопку Создать каталог.

    3. Введите имя каталога. Требования к имени:

      • длина — от 2 до 63 символов;
      • может содержать строчные буквы латинского алфавита, цифры и дефисы;
      • первый символ — буква, последний — не дефис.
    4. (Опционально) Введите описание каталога.

    5. Выберите опцию Создать сеть по умолчанию. Будет создана сеть с подсетями в каждой зоне доступности. Также в этой сети будет создана группа безопасности по умолчанию, внутри которой весь сетевой трафик разрешен.

    6. Нажмите кнопку Создать.

  3. Для привязки сервисного аккаунта к кластеру Metastore назначьте вашему аккаунту в Yandex Cloud роль iam.serviceAccounts.user или выше.

    Примечание

    Если вы не можете управлять ролями, обратитесь к администратору вашего облака или организации.

  4. Настройте NAT-шлюз в подсети, в которой будут размещены кластеры Metastore и Yandex Data Processing.

  5. Создайте группу безопасности для кластеров Metastore и Yandex Data Processing.

  6. Добавьте в группу безопасности правила для кластера Metastore:

    • Для входящего трафика от клиентов:

      • Диапазон портов — 30000-32767.
      • Протокол — Любой (Any).
      • Источник — CIDR.
      • CIDR блоки — 0.0.0.0/0.
    • Для входящего трафика от балансировщика:

      • Диапазон портов — 10256.
      • Протокол — Любой (Any).
      • Источник — Проверки состояния балансировщика.
  7. Добавьте в группу безопасности правила для кластера Yandex Data Processing:

    • По одному правилу для входящего и исходящего служебного трафика:

      • Диапазон портов — 0-65535.
      • Протокол — Любой.
      • Источник/Назначение — Группа безопасности.
      • Группа безопасности — Текущая.
    • Отдельное правило для исходящего HTTPS-трафика на все адреса. Это позволит использовать бакеты Yandex Object Storage, UI Proxy и автоматическое масштабирование подкластеров Yandex Data Processing.

      • Диапазон портов — 443.
      • Протокол — TCP.
      • Назначение — CIDR.
      • CIDR блоки — 0.0.0.0/0.
    • Правило, разрешающее доступ к NTP-серверам для синхронизации времени:

      • Диапазон портов — 123.
      • Протокол — UDP.
      • Назначение — CIDR.
      • CIDR блоки — 0.0.0.0/0.
  8. Создайте сервисный аккаунт с ролями dataproc.agent, dataproc.provisioner и managed-metastore.integrationProvider.

  9. Создайте бакет Object Storage для работы с кластером Yandex Data Processing.

  10. В созданной ранее сети создайте кластер Yandex Data Processing. В настройках задайте:

    • Сервисы SPARK и YARN.
    • Сервисный аккаунт, созданный ранее.
    • Свойство spark:spark.sql.hive.metastore.sharedPrefixes со значением com.amazonaws,ru.yandex.cloud. Нужно для выполнения заданий PySpark и для интеграции с Metastore.
    • Бакет, созданный ранее.
    • Группу безопасности, настроенную ранее.

Создайте кластер MetastoreСоздайте кластер Metastore

Консоль управления
  1. В консоли управления перейдите в ранее созданный каталог.
  2. Выберите сервис Yandex MetaData Hub.
  3. На левой панели выберите страницу Metastore-сервер.
  4. Нажмите кнопку Создать кластер.
  5. Введите имя кластера. Оно должно быть уникальным в рамках каталога.
  6. Выберите сервисный аккаунт, от имени которого кластер Metastore будет взаимодействовать с другими сервисами Yandex Cloud, или создайте новый.
  7. В блоке Сетевые настройки выберите созданную ранее сеть и подсеть. Укажите заранее настроенную группу безопасности.
  8. (Опционально) В блоке Логирование включите запись логов, выберите минимальный уровень логирования и укажите каталог или лог-группу.
  9. При необходимости включите защиту кластера от непреднамеренного удаления пользователем.
  10. Нажмите кнопку Создать.

Подключите кластер Metastore к кластеру Yandex Data ProcessingПодключите кластер Metastore к кластеру Yandex Data Processing

Консоль управления
  1. В созданном ранее кластере Yandex Data Processing задайте следующее свойство:

    spark:spark.hive.metastore.uris : thrift://<IP-адрес_кластера_Metastore>:9083
    

    Чтобы узнать IP-адрес кластера Metastore, в консоли управления выберите сервис Yandex MetaData Hub, на левой панели выберите страницу Metastore-сервер. Для нужного кластера скопируйте значение из колонки IP-адрес.

  2. Добавьте в группу безопасности следующее правило для исходящего трафика:

    • Диапазон портов — 9083.
    • Протокол — Любой (Any).
    • Источник — CIDR.
    • CIDR блоки — 0.0.0.0/0.

Что дальшеЧто дальше

  • Работайте с таблицами при помощи Metastore.
  • Используйте Metastore для переноса данных между кластерами Yandex Data Processing.
  • Храните в Metastore табличные данные при работе с Apache Airflow™.
  • Экспортируйте или импортируйте метаданные Hive в кластере Metastore.

Была ли статья полезна?

Предыдущая
Connection Manager
Следующая
Schema Registry
Проект Яндекса
© 2025 ООО «Яндекс.Облако»