Yandex Cloud
Поиск
Связаться с намиПодключиться
  • Истории успеха
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
    • Доступны в регионе
    • Инфраструктура и сеть
    • Платформа данных
    • Контейнеры
    • Инструменты разработчика
    • Бессерверные вычисления
    • Безопасность
    • Мониторинг и управление ресурсами
    • ML Services
    • Бизнес-инструменты
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Партнёрская программа
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Тарифы Yandex Cloud
    • Промоакции и free tier
    • Правила тарификации
  • Истории успеха
  • Документация
  • Блог
Проект Яндекса
© 2025 ТОО «Облачные Сервисы Казахстан»
Yandex MetaData Hub
  • О сервисе Yandex MetaData Hub
    • Начало работы
      • Кластеры Apache Hive™ Metastore
      • Имперсонация в Apache Hive™ Metastore
    • Сервисные роли для управления доступом
    • Решение проблем
    • Аудитные логи Audit Trails
  • Управление доступом
  • Квоты и лимиты
  • Правила тарификации
  • Публичные материалы
  • История изменений

В этой статье:

  • Назначение Apache Hive™ Metastore
  • Конфигурация кластера Apache Hive™ Metastore
  • Сценарии использования
  • Работа с данными из разных аналитических инструментов
  • Управление жизненным циклом кластеров
  • Работа с современными форматами данных для аналитики
  • Интеграция Apache Hive™ Metastore с сервисами Yandex Cloud
  • Yandex Data Processing и Apache Hive™ Metastore
  • Managed Service for Trino и Apache Hive™ Metastore
  • Текущие особенности работы с Apache Hive™ Metastore
  • Примеры использования
  1. Apache Hive™ Metastore
  2. Концепции
  3. Кластеры Apache Hive™ Metastore

Кластеры Apache Hive™ Metastore

Статья создана
Yandex Cloud
Обновлена 9 октября 2025 г.
  • Назначение Apache Hive™ Metastore
  • Конфигурация кластера Apache Hive™ Metastore
  • Сценарии использования
    • Работа с данными из разных аналитических инструментов
    • Управление жизненным циклом кластеров
    • Работа с современными форматами данных для аналитики
  • Интеграция Apache Hive™ Metastore с сервисами Yandex Cloud
    • Yandex Data Processing и Apache Hive™ Metastore
    • Managed Service for Trino и Apache Hive™ Metastore
  • Текущие особенности работы с Apache Hive™ Metastore
  • Примеры использования

В сервисе Yandex MetaData Hub вы можете создавать кластеры Apache Hive™ Metastore.

Apache Hive™ Metastore — это сервер табличных метаданных, который:

  • Предоставляет клиентским приложениям информацию о том, где брать данные для обработки и как их интерпретировать.
  • Сохраняет метаданные таблиц между запусками вычислительных кластеров с коротким временем жизни.
  • Делит пространство данных между одновременно работающими кластерами.
  • Связывает разнородные ETL-системы и инструменты для работы с общими данными и упрощает их развертывание.
  • Обеспечивает отказоустойчивость, масштабирование хранилища и резервное копирование метаданных.
  • Упрощает отправку логов и метрик, процессы обновления и миграции.
  • Играет ключевую роль в облачных сценариях обработки данных, позволяя различным инструментам (Spark, Trino, Hive) работать с одними и теми же метаданными.

Ряд продуктов Apache®, среди которых Hive, Spark и Impala, поддерживает работу с Apache Hive™ Metastore.

Назначение Apache Hive™ MetastoreНазначение Apache Hive™ Metastore

При работе с большими данными и аналитикой в облаке часто возникает вопрос о преобразовании наборов файлов в таблицы, с которыми удобно работать через SQL. Apache Hive™ Metastore представляет собой персистентную базу данных со словарем данных. Персистентность означает, что информация сохраняется на диск и остается доступной после выключения компьютера или перезапуска системы. Словарь данных содержит набор определений, описывающих структуру и формат данных. Apache Hive™ Metastore хранит метаданные о таблицах, физически расположенных в Yandex Object Storage. В нем содержится информация о местоположении файлов с данными, их организации, структуре колонок, типах данных, партиционировании и других аспектах. По сути, Apache Hive™ Metastore создает абстракцию над сырыми файлами, преобразуя их в логические таблицы для работы через SQL.

Это можно сравнить с каталогизацией книг в библиотеке. В большой библиотеке с тысячами книг без каталога пришлось бы проверять все полки в поисках нужной книги. Каталог позволяет быстро определить точное местоположение книги. Apache Hive™ Metastore выполняет аналогичную функцию для данных в Object Storage.

В реляционных базах данных (Oracle, PostgreSQL) словарь данных встроен в саму СУБД. При создании таблицы в PostgreSQL информация о ее структуре сохраняется в системных таблицах внутри той же базы данных. Однако в экосистеме больших данных, где файлы могут храниться отдельно от средств их обработки, требуется отдельный сервис для хранения этой информации — Apache Hive™ Metastore.

Конфигурация кластера Apache Hive™ MetastoreКонфигурация кластера Apache Hive™ Metastore

Конфигурация определяет вычислительные мощности, которые выделяются для кластера. Доступны два типа конфигураций:

  • standard — 2 vCPU и 8 ГБ RAM.

    Для этой конфигурации соотношение количества гигабайт RAM к количеству vCPU равно 4:1.

  • cpu-optimized — 2 vCPU и 4 ГБ RAM.

    Для этой конфигурации соотношение количества гигабайт RAM к количеству vCPU уменьшено и равно 2:1.

Конфигурацию можно выбрать при создании кластера или изменить при его редактировании.

Сценарии использованияСценарии использования

Apache Hive™ Metastore сам по себе не решает бизнес-задачи, но становится необходимым инструментом в определенных сценариях использования.

Работа с данными из разных аналитических инструментовРабота с данными из разных аналитических инструментов

В современных архитектурах обработки данных часто используется несколько инструментов для работы с одними и теми же данными в Object Storage. Это обусловлено тем, что разные инструменты оптимальны для различных задач. Например, Apache Spark™ эффективен для массовой обработки данных и ETL-процессов (Extract, Transform, Load), в то время как Trino лучше подходит для интерактивной аналитики и быстрых запросов.

Без единого кластера каждый инструмент будет поддерживать собственную копию метаданных, что создает проблемы при изменении структуры данных. При добавлении новой колонки в таблицу и обновлении метаданных в Apache Spark™, без соответствующего обновления в Trino, запросы из Trino будут возвращать неполные данные или приводить к ошибкам.

Apache Hive™ Metastore решает эту проблему, предоставляя единый источник истины для всех метаданных. Структура таблицы описывается один раз, и все подключенные инструменты автоматически получают доступ к актуальной информации. Это не только упрощает администрирование, но и значительно снижает риск ошибок из-за несогласованности метаданных.

В ситуации, когда команда аналитиков использует Trino для интерактивных запросов, а команда инженеров данных применяет Apache Spark™ для ETL-процессов, единый Apache Hive™ Metastore обеспечивает согласованность представления данных для обеих команд, гарантируя точность результатов.

Управление жизненным циклом кластеровУправление жизненным циклом кластеров

Одно из основных преимуществ облачных вычислений — возможность оплаты только за фактически использованные ресурсы. Это особенно актуально для задач обработки данных с периодическим характером.

В Yandex Cloud многие клиенты используют мощные вычислительные кластеры (Yandex Data Processing с Apache Spark™ или собственные кластеры Apache Hadoop®) только для периодических задач — формирования отчетов, ночных пакетных обработок данных, обновления аналитических моделей и других подобных операций.

Такие кластеры могут включать сотни процессорных ядер и терабайты оперативной памяти, что делает их эксплуатацию дорогостоящей. Постоянное использование таких ресурсов экономически нецелесообразно, особенно если они активно задействованы лишь несколько часов в сутки.

Более эффективный подход заключается в создании кластеров на время выполнения задачи с последующим удалением. Однако в традиционной архитектуре Apache Hadoop® Apache Hive™ Metastore является частью кластера, и при удалении кластера происходит потеря всех метаданных о таблицах. При следующем запуске потребуется заново определять структуру таблиц, что трудоемко и чревато ошибками.

Отдельный управляемый Apache Hive™ Metastore решает эту проблему. Он существует независимо от вычислительных кластеров и продолжает хранить все метаданные после удаления кластеров. При создании нового кластера для следующего сеанса обработки он подключается к тому же Apache Hive™ Metastore и получает доступ ко всем определениям таблиц.

В Yandex Cloud многие пользователи реализуют подобный сценарий через Managed Service for Apache Airflow™ — сервис для оркестрации рабочих процессов. Managed Service for Apache Airflow™ по расписанию создает мощные кластеры Yandex Data Processing для обработки данных, а после завершения расчетов удаляет их для оптимизации затрат. Все метаданные сохраняются в отдельном управляемом Apache Hive™ Metastore, обеспечивая бесшовный процесс для пользователей.

Работа с современными форматами данных для аналитикиРабота с современными форматами данных для аналитики

В последние годы появились новые форматы данных, специально разработанные для аналитических задач: Apache Iceberg, Delta Lake, Apache Hudi. Эти форматы значительно превосходят традиционные (CSV или Parquet) по функциональности и удобству использования.
Они обеспечивают следующие возможности:

  • атомарные транзакции при записи данных;
  • контроль версий данных и путешествие во времени (time travel);
  • схематизация и эволюция схемы;
  • оптимизация таблиц и управление их компактностью;
  • изоляция запросов от параллельных записей.

Для реализации этих функций форматы, подобные Iceberg и Delta Lake, требуют централизованного управления метаданными. Им необходимо хранилище для информации о версиях таблиц, транзакциях, изменениях схемы и других аспектах. Apache Hive™ Metastore предоставляет оптимальную инфраструктуру для этой цели.

Без Apache Hive™ Metastore работа с этими продвинутыми форматами была бы значительно сложнее, а некоторые функции вообще были бы недоступны. С Apache Hive™ Metastore доступны все преимущества современных форматов данных без необходимости создания собственной инфраструктуры для управления метаданными.

В Yandex Cloud Apache Hive™ Metastore особенно полезен при создании озер данных (Data Lake) и озер аналитических данных (Data Lakehouse) с использованием форматов Delta Lake и Iceberg. Он обеспечивает необходимую инфраструктуру для хранения метаданных этих форматов, делая их использование простым и надежным.

Интеграция Apache Hive™ Metastore с сервисами Yandex CloudИнтеграция Apache Hive™ Metastore с сервисами Yandex Cloud

В Yandex Cloud Apache Hive™ Metastore интегрируется с другими сервисами, расширяя их возможности для работы с данными и упрощая создание комплексных решений.

Примечание

Для интеграции с другими сервисами Yandex Cloud используйте кластеры Apache Hive™ Metastore версии 3.1.

Yandex Data Processing и Apache Hive™ MetastoreYandex Data Processing и Apache Hive™ Metastore

Yandex Data Processing — это сервис для запуска распределенных вычислений на базе Apache Spark™, Apache Hive и других инструментов экосистемы Apache Hadoop®. Apache Spark™ активно использует Apache Hive™ Metastore для хранения схем таблиц и доступа к данным через SQL-интерфейс.

Подключение Yandex Data Processing к управляемому Apache Hive™ Metastore в Yandex Cloud осуществляется просто: при создании кластера указывается URI Apache Hive™ Metastore в дополнительных настройках. После этого Apache Spark™ автоматически подключается к Apache Hive™ Metastore и получает доступ ко всем определенным в нем таблицам.

Это открывает широкие возможности для работы с данными:

  • использование SparkSQL для выполнения сложных аналитических запросов к данным в Object Storage;
  • работа разных кластеров Yandex Data Processing с одними и теми же таблицами без дублирования определений;
  • создание и удаление кластеров по мере необходимости без потери метаданных о таблицах.

Например, Yandex Data Processing может использоваться для создания ETL-пайплайнов, которые читают данные из различных источников, преобразуют их и записывают в таблицы, определенные в Apache Hive™ Metastore. Затем эти данные будут доступны для аналитики через любой другой сервис, подключенный к тому же Apache Hive™ Metastore.

Managed Service for Trino и Apache Hive™ MetastoreManaged Service for Trino и Apache Hive™ Metastore

Trino — это распределенный SQL-движок для аналитических запросов, который может работать с различными источниками данных, включая файлы в Object Storage. В Yandex Cloud доступен сервис Managed Service for Trino с возможностью подключения к Apache Hive™ Metastore.

Trino использует систему коннекторов для доступа к различным источникам данных. Для работы с данными через Apache Hive™ Metastore применяется коннектор Hive. При создании кластера Managed Service for Trino можно добавить каталог с типом Hive и указать URI Apache Hive™ Metastore, после чего Trino получит доступ ко всем таблицам, определенным в Apache Hive™ Metastore.

Интеграция Managed Service for Trino с Apache Hive™ Metastore особенно полезна для интерактивной аналитики. Аналитики могут выполнять SQL-запросы к данным в Object Storage без знания деталей их физического хранения. Они работают с абстракцией таблиц, а Apache Hive™ Metastore и Trino обеспечивают все аспекты, связанные с доступом к данным.

Например, бизнес-аналитик может подключиться к Managed Service for Trino через WebSQL или BI-инструмент, выполнить сложный аналитический запрос к данным, загруженным и обработанным через Yandex Data Processing, и получить результаты за несколько секунд. При этом не требуется знать физическое местоположение файлов, методы их партиционирования и формат записи — всю эту информацию Trino получает из Apache Hive™ Metastore.

Текущие особенности работы с Apache Hive™ MetastoreТекущие особенности работы с Apache Hive™ Metastore

На текущий момент при работе с управляемым Apache Hive™ Metastore в Yandex Cloud существует несколько важных особенностей, которые необходимо учитывать при проектировании и развертывании решений.

Первая особенность связана с доступностью сервиса. В настоящее время Apache Hive™ Metastore работает только с объектными хранилищами внутри Yandex Cloud и не поддерживает подключение к внешним S3-совместимым хранилищам. Это означает невозможность использования для работы с данными, хранящимися, например, в Amazon S3 или MinIO, развернутом в собственном дата-центре.

Кроме того, Apache Hive™ Metastore доступен только по внутреннему IP-адресу в виртуальной частной сети (VPC) и не имеет публичного DNS-имени. Это обеспечивает дополнительную безопасность, но требует, чтобы все сервисы, подключающиеся к Apache Hive™ Metastore, находились в той же VPC или имели настроенный сетевой доступ.

Вторая особенность касается сетевой безопасности. Для корректной работы Apache Hive™ Metastore необходима правильная настройка групп безопасности, разрешающих необходимый сетевой трафик. Без этого кластер может отображаться в состоянии DEAD, что затрудняет диагностику проблем (см. инструкцию по настройке групп безопасности).

Подробнее о Apache Hive™ Metastore см. в документации Apache®.

Примеры использованияПримеры использования

  • Перенос метаданных между кластерами Yandex Data Processing с помощью Apache Hive™ Metastore
  • Совместная работа с таблицами Yandex Data Processing с использованием Apache Hive™ Metastore

Apache® и Apache Hive™ являются зарегистрированными товарными знаками или товарными знаками Apache Software Foundation в США и/или других странах.

Была ли статья полезна?

Предыдущая
Интеграция Yandex Managed Service for Apache Spark™ и Apache Hive™ Metastore
Следующая
Имперсонация в Apache Hive™ Metastore
Проект Яндекса
© 2025 ТОО «Облачные Сервисы Казахстан»