Новый тип кластеров Hive Metastore в сервисе Yandex Data Proc
У нас отличная новость: в сервисе Yandex Data Proc теперь доступно создание управляемых кластеров Hive Metastore.
Что такое Hive Metastore
Hive Metastore связывает разнородные ETL-системы и инструменты для работы с общими данными и упрощает их развёртывание. Кластеры Metastore управляют табличными метаданными объектов, которые находятся в бакетах Object Storage.
Hive Metastore даёт приложениям информацию о том, где брать данные и как их интерпретировать, а также позволяет обнаруживать в хранилище конкретные данные и обрабатывать их.
Как это работает
Кластеры Hive Metastore сохраняют метаданные таблиц между запусками короткоживущих вычислительных кластеров Yandex Data Proc. Как и для других кластеров, для них можно настроить автоматическое масштабирование и создание резервных копий.
Инструменты Apache Hive и Apache Spark, входящие в сервис управляемых баз данных Yandex Data Proc, поддерживают непосредственную работу с Hive Metastore. Это позволяет создавать полноценные хранилища, решать задачи подготовки и очистки данных, создавать предметно-ориентированные витрины данных.
Как использовать кластеры Hive Metastore в различных системах
Архитектура аналитической системы, в которую встроены кластеры Hive Metastore, выглядит так:
-
Для первичного хранения и предобработки данных используется Object Storage, а метаданные таблиц находятся в Hive Metastore.
-
Процессы доставки и подготовки данных размещают исходную информацию в виде дополнительных файлов. Данные из этих файлов доступны потребителям в таблицах Hive или Spark.
Дата-сайентисты часто применяют Apache Spark при обучении ML-моделей, когда возможностей единственного сервера или виртуальной машины оказывается недостаточно и нужна горизонтально-масштабируемая инфраструктура.
Подготовка данных для задач машинного обучения осуществляется путём построения необходимых витрин, сохраняемых в Object Storage, ClickHouse® или Greenplum.
Для чего это нужно
Надёжное функционирование Hive Metastore необходимо для бесперебойной работы современных инструментов подготовки и аналитической обработки данных.
Управляемые кластеры Hive Metastore сервиса Yandex Data Proc позволяют существенно экономить время администраторов и инженеров данных, а также сократить вероятность отказов и потерь из-за недоступности метаданных.
В этой статье мы расскажем: