О сервисе Yandex MetaData Hub
Yandex MetaData Hub — сервис, который предоставляет возможности по управлению данными в Yandex Cloud:
- автоматическое создание и управление параметрами подключений к базам данных;
- хранение, получение схем и проверка эволюции схем обмена данными;
- создание и управление кластерами Apache Hive™ Metastore;
- поиск и визуализация метаинформации о хранилищах данных и связях между ними.
Управление подключениями
С помощью Yandex Connection Manager вы можете управлять параметрами подключений к базам данных. Подключения создаются автоматически при создании кластера управляемых баз данных в Yandex Cloud для кластеров PostgreSQL, ClickHouse® и MySQL®. Для остальных типов кластеров можно создать подключение самостоятельно.
Кластера, созданные до появления возможности интеграции с Connection Manager, будут работать в старом режиме. Для них интеграцию можно включить отдельно в дополнительных настройках каждого кластера.
Подключения и секреты, которые создаются автоматически при создании кластера, нельзя ни редактировать, ни удалять — они изменяются автоматически при редактировании настроек пользователя в кластере управляемой базы данных.
Подключение содержит всю информацию о параметрах соединения с базой данных. Конфиденциальная часть этой информации, такая как пароль пользователя для доступа к базе данных, хранится в сервисе Yandex Lockbox в виде секрета.
Управление табличными метаданными
В сервисе Yandex MetaData Hub вы можете создавать кластеры Apache Hive™ Metastore.
Apache Hive™ Metastore
- Предоставляет клиентским приложениям информацию о том, где брать данные для обработки и как их интерпретировать.
- Сохраняет метаданные таблиц между запусками вычислительных кластеров с коротким временем жизни.
- Делит пространство данных между одновременно работающими кластерами.
- Связывает разнородные ETL-системы и инструменты для работы с общими данными и упрощает их развертывание.
- Обеспечивает отказоустойчивость, масштабирование хранилища и резервное копирование метаданных.
- Упрощает отправку логов и метрик, процессы обновления и миграции.
- Играет ключевую роль в облачных сценариях обработки данных, позволяя различным инструментам (Spark, Trino, Hive) работать с одними и теми же метаданными.
Ряд продуктов Apache®, среди которых Hive
Примеры использования
- Перенос метаданных между кластерами Yandex Data Processing с помощью Apache Hive™ Metastore
- Совместная работа с таблицами Yandex Data Processing с использованием Apache Hive™ Metastore
Реестр схем данных
Эта функциональность находится на стадии Preview.
Сервис Schema Registry реализует реестр схем — централизованное хранилище для управления и проверки схем данных. Реестр схем позволяет обеспечить безопасную эволюцию схем данных, решить проблемы совместимости данных и повысить производительность систем, сократив объем данных, передаваемых по сети. Кроме того, реестр схем позволит соблюсти требования безопасности по работе с данными и наладить совместную работу между командами. В Schema Registry вы можете добавлять схемы формата Avro
Реестр схем позволяет вам определять схемы для ваших форматов и версий данных и регистрировать их в реестре. После регистрации схему можно использовать совместно в различных системах и приложениях. Когда поставщик отправляет данные получателю сообщений, схема данных включается в заголовок сообщения, а реестр схемы гарантирует, что схема действительна и совместима с ожидаемой схемой для субъекта.
Примеры использования
Сбор и разметка метаданных
Эта функциональность находится на стадии Preview.
Сервис Data Catalog позволяет вам собирать, анализировать и размечать метаданные из различных источников. Вы можете загружать структурные метаданные, например список таблиц в кластере управляемых баз данных, их схемы и связи между таблицами.
Data Catalog можно использовать для:
- Сбора, хранения и систематизации метаданных.
- Поиска дашборда с нужными бизнес-показателями.
- Анализа и интерпретации бизнес-показателей.
- Поиска данных для решения бизнес-задач.
- Поиска источников информации, на основании которых был построен определенный объект.
- Поиска ответственных за данные, в том числе пассивно — через подписку.
- Получения схемы для потребителя данных.
Apache® и Apache Hive™