Новый тип кластеров Hive Metastore в сервисе Yandex Data Proc

У нас отличная новость: в сервисе Yandex Data Proc теперь доступно создание управляемых кластеров Hive Metastore.

Что такое Hive Metastore

Hive Metastore связывает разнородные ETL-системы и инструменты для работы с общими данными и упрощает их развёртывание. Кластеры Metastore управляют табличными метаданными объектов, которые находятся в бакетах Object Storage.

Hive Metastore даёт приложениям информацию о том, где брать данные и как их интерпретировать, а также позволяет обнаруживать в хранилище конкретные данные и обрабатывать их.

Как это работает

Кластеры Hive Metastore сохраняют метаданные таблиц между запусками короткоживущих вычислительных кластеров Yandex Data Proc. Как и для других кластеров, для них можно настроить автоматическое масштабирование и создание резервных копий.

Инструменты Apache Hive и Apache Spark, входящие в сервис управляемых баз данных Yandex Data Proc, поддерживают непосредственную работу с Hive Metastore. Это позволяет создавать полноценные хранилища, решать задачи подготовки и очистки данных, создавать предметно-ориентированные витрины данных.

Как использовать кластеры Hive Metastore в различных системах

Архитектура аналитической системы, в которую встроены кластеры Hive Metastore, выглядит так:

  • Для первичного хранения и предобработки данных используется Object Storage, а метаданные таблиц находятся в Hive Metastore.

  • Процессы доставки и подготовки данных размещают исходную информацию в виде дополнительных файлов. Данные из этих файлов доступны потребителям в таблицах Hive или Spark.

Дата-сайентисты часто применяют Apache Spark при обучении ML-моделей, когда возможностей единственного сервера или виртуальной машины оказывается недостаточно и нужна горизонтально-масштабируемая инфраструктура.

Подготовка данных для задач машинного обучения осуществляется путём построения необходимых витрин, сохраняемых в Object Storage, ClickHouse® или Greenplum.

Для чего это нужно

Надёжное функционирование Hive Metastore необходимо для бесперебойной работы современных инструментов подготовки и аналитической обработки данных.

Управляемые кластеры Hive Metastore сервиса Yandex Data Proc позволяют существенно экономить время администраторов и инженеров данных, а также сократить вероятность отказов и потерь из-за недоступности метаданных.

Попробуйте Hive Metastore сегодня

Чтобы получить доступ к новой функциональности Yandex Data Proc, подайте заявку через консоль управления Yandex Cloud → сервис Yandex Data Proc → вкладка Metastore-сервер → Создать кластер Metastore и заполните форму для получения доступа.
author
Максим Зиналь
Архитектор продуктов управления данными

Yandex Data Proc

Yandex Object Storage

Новый тип кластеров Hive Metastore в сервисе Yandex Data Proc
Войдите, чтобы сохранить пост