Новый тип кластеров Hive Metastore в сервисе Yandex Data Proc

У нас отличная новость: в сервисе Yandex Data Proc теперь доступно создание управляемых кластеров Hive Metastore.

2 июня 2023 г.

5 минут чтения

Что такое Hive Metastore

Hive Metastore связывает разнородные ETL-системы и инструменты для работы с общими данными и упрощает их развёртывание. Кластеры Metastore управляют табличными метаданными объектов, которые находятся в бакетах Object Storage.

Hive Metastore даёт приложениям информацию о том, где брать данные и как их интерпретировать, а также позволяет обнаруживать в хранилище конкретные данные и обрабатывать их.

Как это работает

Кластеры Hive Metastore сохраняют метаданные таблиц между запусками короткоживущих вычислительных кластеров Yandex Data Proc. Как и для других кластеров, для них можно настроить автоматическое масштабирование и создание резервных копий.

Инструменты Apache Hive и Apache Spark, входящие в сервис управляемых баз данных Yandex Data Proc, поддерживают непосредственную работу с Hive Metastore. Это позволяет создавать полноценные хранилища, решать задачи подготовки и очистки данных, создавать предметно-ориентированные витрины данных.

Как использовать кластеры Hive Metastore в различных системах

Архитектура аналитической системы, в которую встроены кластеры Hive Metastore, выглядит так:

Для первичного хранения и предобработки данных используется Object Storage, а метаданные таблиц находятся в Hive Metastore.
Процессы доставки и подготовки данных размещают исходную информацию в виде дополнительных файлов. Данные из этих файлов доступны потребителям в таблицах Hive или Spark.

Дата-сайентисты часто применяют Apache Spark при обучении ML-моделей, когда возможностей единственного сервера или виртуальной машины оказывается недостаточно и нужна горизонтально-масштабируемая инфраструктура.

Подготовка данных для задач машинного обучения осуществляется путём построения необходимых витрин, сохраняемых в Object Storage, ClickHouse^® или Greenplum.

Для чего это нужно

Надёжное функционирование Hive Metastore необходимо для бесперебойной работы современных инструментов подготовки и аналитической обработки данных.

Управляемые кластеры Hive Metastore сервиса Yandex Data Proc позволяют существенно экономить время администраторов и инженеров данных, а также сократить вероятность отказов и потерь из-за недоступности метаданных.

Максим Зиналь

Архитектор продуктов управления данными

В этой статье мы расскажем:

Что такое Hive Metastore
Как это работает
Как использовать кластеры Hive Metastore в различных системах
Для чего это нужно

Yandex Data Proc

Подробнее

Yandex Object Storage

Подробнее

Новый тип кластеров Hive Metastore в сервисе Yandex Data Proc

2 июня 2023 г.

5 минут чтения

Новый тип кластеров Hive Metastore в сервисе Yandex Data Proc

Что такое Hive Metastore

Как это работает

Как использовать кластеры Hive Metastore в различных системах

Для чего это нужно

Попробуйте Hive Metastore сегодня

Yandex Data Proc

Yandex Object Storage

Для работы

Почему Yandex Cloud

Сообщество

Компания

Контакты

Мобильное приложение