Каталог метаданных
Важно
Функциональность доступна только в регионе Россия.
Примечание
Эта функциональность находится на стадии Preview.
Сервис Data Catalog позволяет вам собирать, анализировать и размечать метаданные из различных источников. Вы можете загружать структурные метаданные, например список таблиц в кластере управляемых баз данных, их схемы и связи между таблицами.
Вы можете использовать Data Catalog для следующих задач:
- Сбор, хранение и систематизация метаданных.
- Поиск дашборда с нужными бизнес-показателями.
- Анализ и интерпретация бизнес-показателей.
- Поиск данных для решения бизнес-задач.
- Поиск источников информации, на основании которых был построен определенный объект.
- Поиск ответственных за данные, в том числе пассивно — через подписку.
- Получение схемы для потребителя данных.
Data Catalog также интегрирован с сервисом Yandex WebSQL, что позволяет отправлять SQL-запросы к базам данных в кластерах, которые являются источниками данных для Data Catalog.
Основная сущность, которой оперирует сервис Data Catalog — каталог метаданных. Каталог одновременно является:
- местом сбора и хранения метаданных из различных источников;
- рабочим пространством для разметки метаданных.
Метаданные загружаются в каталог при помощи источников и загрузок. Для хранения метаданных используется внутреннее хранилище.
Для первичного распределения метаданных, например по отделам компании, применяются домены и поддомены. Для более детальной разметки метаданных вы можете использовать:
Загрузка метаданных
Для загрузки метаданных используются источники и загрузки.
Источник — это подключение, через которое загружаются метаданные. В этом подключении хранится информация о БД или другом сервисе, из которого загружаются метаданные, а также данные для аутентификации. Подробнее о доступных бэкендах.
Источник может подключаться как к кластерам управляемых БД в облаке Yandex Cloud, так и к пользовательским инсталляциям этих БД. Также поддерживается поставка связей между объектами на основе запущенных поставок данных в сервисе Yandex Data Transfer.
Если в одном каталоге создать несколько источников для одного и того же экземпляра БД или трансфера, для них автоматически будет создан единый объект типа data store, ассоциированный с этим экземпляром БД. Этот объект объединяет все загруженные метаданные по всем источникам для этого экземпляра БД или кластера.
Загрузка — это процесс, который подключается к указанному в источнике хранилищу данных или сервису и загружает его метаданные в каталог. В загрузке вы можете настроить:
- Фильтры, чтобы получать только нужные вам метаданные.
- Профилирование, чтобы выгружать нужные вам данные о статистике.
Загрузка привязывается к конкретному источнику и работает только с ним. При этом к одному источнику можно привязывать несколько загрузок. Это позволяет создать несколько загрузок с разными фильтрами для одного источника.
Загрузку можно запускать вручную или настроить ее запуск по расписанию. В указанное время загрузка всегда выполняется однократно, даже если в расписании указан период, а не конкретный час.
Максимальное количество источников и загрузок в каталоге определяется квотами сервиса.
Разметка метаданных
Домены и поддомены
Домен — это группа метаданных. Домены позволяют группировать метаданные под потребности вашего рабочего процесса, например по принадлежности метаданных к конкретному отделу компании или направлению бизнеса. Для каждого домена можно создать поддомен для более гранулярной группировки метаданных.
Каждому набору метаданных или элементу в нем можно назначить только один домен или поддомен. При этом для разных элементов в наборе метаданных можно назначить разные домены или поддомены.
Максимальное количество доменов в каталоге определяется квотами сервиса. Максимальная глубина вложенности доменов — 5.
Классификации и теги
Классификация — это группа тегов, которые используются для разметки метаданных.
Максимальное количество классификаций в каталоге определяется квотами сервиса.
Теги — это метки, которые используются для разметки данных по их типам, например чувствительные данные, характеристики таблиц и т. д. Одному и тому же набору метаданных или элементу в нем может быть присвоено несколько тегов, в том числе из разных классификаций. Если в классификации включена опция Взаимоисключение, то на набор метаданных или элемент в нем может быть назначен только один тег из этой классификации.
Кроме наборов метаданных и элементов в них теги можно присвоить:
- доменам и поддоменам,
- глоссариям,
- отдельным терминам в глоссарии.
Максимальное количество тегов в классификации определяется квотами сервиса.
Глоссарии и термины
Глоссарий — это словарь узкоспециализированных терминов для определенной отрасли, с толкованием этих терминов. Глоссарии позволяют сформировать в компании единое понимание общей терминологии. В зависимости от границ применимости выделяются следующие глоссарии:
- Отраслевые — применимы для отдельной отрасли или направления работы.
- Проектные — применимы в рамках отдельного проекта или серии связанных проектов.
- Корпоративные — применимы для всех проектов и направлений деятельности компании.
Максимальное количество глоссариев в каталоге определяется квотами сервиса.
Термины — это понятия, которые используются для разметки данных по их семантическому значению в рамках бизнеса, например «выручка», «расходы» и т. д. Для каждого термина вы можете задать его синоним или создать дочерний термин для более гранулярной разметки данных. Одному и тому же набору метаданных или элементу в нем может быть присвоено несколько терминов, в том числе:
- термины из разных глоссариев;
- дочерние термины разных родительских терминов.
Максимальное количество терминов в глоссарии определяется квотами сервиса. Максимальная глубина вложенности терминов — 5.
Примеры использования
- Создание термина в глоссарии.
- Создание дочернего термина.
- Изменение глоссария.
- Изменение термина.
- Создание тега в классификации.
- Изменение классификации.
- Изменение тега в классификации.