Интеграция AI Studio с сервисом Yandex Data Catalog
Вы можете использовать AI-ассистента для поиска и анализа закономерностей в каталогах метаданных, развернутых в сервисе Data Catalog. Для этого подключите MCP-сервер Data Catalog к MCP Hub. Сервер позволяет запрашивать список каталогов метаданных, выполнять поиск в метаданных, а также получать граф их зависимостей (lineage) на уровне таблиц и колонок для использования в контексте диалога с агентами.
Чтобы в AI Studio настроить интеграцию с сервисом Data Catalog:
- Подготовьте инфраструктуру.
- Подготовьте каталог метаданных к работе
- Подключите внешний MCP-сервер.
- Протестируйте диалог с агентом.
Перед началом работы
Зарегистрируйтесь в Yandex Cloud и создайте платежный аккаунт:
- Перейдите в консоль управления
, затем войдите в Yandex Cloud или зарегистрируйтесь. - На странице Yandex Cloud Billing
убедитесь, что у вас подключен платежный аккаунт, и он находится в статусеACTIVEилиTRIAL_ACTIVE. Если платежного аккаунта нет, создайте его и привяжите к нему облако.
Если у вас есть активный платежный аккаунт, вы можете создать или выбрать каталог, в котором будет работать ваша инфраструктура, на странице облака
Подробнее об облаках и каталогах.
Необходимые платные ресурсы
В стоимость инфраструктуры для интеграции входит плата за использование Agent Atelier: количество токенов в запросе и ответе (см. тарифы Yandex AI Studio). Тарификация за использование агента начинается с момента его включения.
Подготовьте инфраструктуру
Создайте каталог и сеть
Создайте каталог ресурсов, в котором будет размещен ваш каталог метаданных.
- В консоли управления
выберите облако и нажмите Создать каталог. - Введите имя каталога, например
data-folder. - Выберите опцию Создать сеть по умолчанию. Будет создана сеть с подсетями в каждой зоне доступности.
- Нажмите Создать.
Подробнее об облаках и каталогах.
Создайте сервисный аккаунт
-
Перейдите в каталог
data-folder. -
В списке сервисов выберите Identity and Access Management.
-
Нажмите кнопку Создать сервисный аккаунт.
-
Введите имя сервисного аккаунта, например
sa-for-mcp-server. -
Нажмите Добавить роль и назначьте сервисному аккаунту роли:
data-catalog.user— для доступа к ресурсам каталога метаданных.serverless.mcpGateways.invoker— для доступа к MCP-серверу в MCP Hub.serverless.mcpGateways.anonymousInvoker— для доступа к внешнему MCP-серверу.
-
Нажмите Создать.
Подготовьте каталог метаданных к работе
Создайте каталог метаданных
- В консоли управления
выберите каталог ресурсов, в котором нужно создать каталог метаданных. - Выберите сервис Yandex MetaData Hub.
- На панели слева выберите
Data Catalog. - Нажмите кнопку Создание каталога.
- В поле Имя задайте имя каталога
test-sales. - Нажмите кнопку Создать.
Примечание
При создании каталога метаданных опция AI-разметка метаданных включена по умолчанию.
Когда опция включена, AI-ассистент предлагает описания, домены, классификации и теги, глоссарии и термины, а также размечает с их помощью ваши метаданные. Предложения ассистента можно подтвердить, отредактировать или отклонить. Для этого наведите курсор на значок AI рядом с предложением ассистента и выберите нужное действие.
После создания каталога AI-разметкой можно управлять на странице Обзор или при изменении каталога.
Создайте источник метаданных
-
На панели слева выберите
Источники данных. -
Нажмите кнопку Создать источник данных.
-
Задайте имя источника
test-sales-source. -
Выберите тип бэкенда, из которого будут поставляться метаданные для анализа. После создания источника нельзя будет изменить тип базы данных. Доступные бэкенды:
- PostgreSQL;
- MySQL®;
- ClickHouse®;
- Yandex Data Transfer;
- WebSQL;
- Yandex StoreDoc/MongoDB;
- OpenSearch;
- Greenplum®.
-
Укажите параметры источника для выбранного типа базы данных:
- ID подключения — идентификатор управляемого подключения в Yandex Connection Manager.
- Имя базы данных — имя базы данных, из которой будут загружаться метаданные.
-
Нажмите кнопку Создать.
Создайте и запустите загрузку данных
-
На панели слева выберите
Загрузки. -
Нажмите кнопку Создать загрузку.
-
Задайте параметры загрузки:
-
В поле Имя задайте имя загрузки
load-sales. -
Выберите созданный ранее источник метаданных.
-
Задайте конфигурацию загрузки для выбранного источника данных:
- Выберите расписание запуска загрузки Ручной запуск.
- (Опционально) В блоке Фильтры данных с помощью регулярных выражений укажите, какие базы данных и объекты баз данных необходимо включить или исключить из загрузки.
-
В блоке Типы метаданных выберите, какие типы метаданных необходимо извлекать из источника.
-
(Опционально) В блоке Профилирование данных:
- Выберите опцию Включить профилирование, чтобы выполнять профилирование данных, т. е. анализ и сбор статистики об извлекаемых данных.
- Выберите опцию Учитывать только уровень таблицы, чтобы не выполнять профилирование данных в каждом столбце таблицы. Если опция включена, характеристики данных будут собираться только по таблице в целом.
- В поле Максимум рабочих процессов укажите количество вычислительных потоков для профилирования.
- В поле Размер выборки укажите количество строк для выборки при профилировании столбцов. Настройка применяется при включенной опции Использовать выборку.
- В поле Ограничение на размер таблицы укажите размер таблицы (в ГБ), при превышении которого таблицы исключаются из профилирования.
- В поле Ограничение на количество строк в таблице укажите количество строк, при превышении которого таблицы исключаются из профилирования.
- Выберите опцию Включить подсчет нулевых значений, чтобы получить количество строк со значением
NULLдля каждого столбца. - Выберите опцию Включить подсчёт уникальных значений, чтобы получить количество уникальных значений для каждого столбца.
- Выберите опцию Включить минимальное значение полей, чтобы получить минимальное значение для каждого числового столбца.
- Выберите опцию Включить максимальное значение полей, чтобы получить максимальное значение для каждого числового столбца.
- Выберите опцию Включить среднее значение полей, чтобы получить среднее значение для каждого числового столбца.
- Выберите опцию Включить медиану полей, чтобы получить медианное значение для каждого числового столбца.
- Выберите опцию Включить стандартное отклонение значений полей, чтобы получить стандартное отклонение для каждого числового столбца.
- Выберите опцию Включить квантили полей, чтобы получить квантили для каждого числового столбца.
- Выберите опцию Включить подсчёт частот уникальных значений, чтобы получить частоту уникальных значений для каждого столбца.
- Выберите опцию Включить гистограмму полей, чтобы получить гистограмму для каждого числового столбца.
- Выберите опцию Включить значения полей, чтобы получить примеры значений для каждого столбца.
- Выберите опцию Включить объединение запросов, чтобы динамически объединять SQL-запросы для ускорения профилирования.
- В поле Ограничение укажите максимальное количество строк для профилирования. При значении
0будут профилироваться все строки.
-
В блоке Обработка метаданных выберите, каким образом обрабатывать метаданные:
- Чтобы повысить производительность загрузки, включите опцию Использовать файловый кеш.
-
-
Нажмите кнопку Создать.
-
В списке загрузок нажмите на значок
в строке с созданной загрузкой и выберите пункт Запустить.При загрузке данные будут автоматически размечены AI-ассистентом. После успешного завершения загрузка примет статус Success.
-
Чтобы посмотреть загруженные и размеченные данные, на панели слева выберите
Поиск по метаданным.На странице отображается информация о данных — источник данных, база данных и таблицы.
Примечание
AI-ассистент создает сущности для разметки метаданных (домены, глоссарии и теги, классификации и термины), а также их описания автоматически. Предложенную ассистентом разметку можно подтвердить, отредактировать или отклонить. Для этого наведите курсор на значок AI рядом с предложением ассистента и выберите нужное действие.
Подключите внешний MCP-сервер
Подключение в AI Studio
-
Перейдите в каталог
data-folder. -
Выберите сервис AI Studio.
-
На панели слева выберите MCP-серверы и нажмите кнопку Создать MCP-сервер. В открывшемся окне:
-
В блоке Способ добавления выберите опцию
Подключить. -
В блоке Инструменты нажмите кнопку Добавить инструменты. В открывшемся окне укажите настройки подключения к MCP-серверу:
-
Транспорт — Streamable HTTP.
-
URL —
https://datacatalog-consumer.mcp.cloud.yandex.net/mcp. -
Тип авторизации —
Токен доступа. -
В блоке Заголовок авторизации укажите в поле Значение
Bearer <IAM_токен>. Для этого получите IAM-токен для созданного ранее сервисного аккаунта, скопируйте его и вставьте в поле.Примечание
Время жизни IAM-токена — не больше 12 часов, но рекомендуется запрашивать его чаще, например каждый час.
-
-
Нажмите кнопку Подключиться.
-
В открывшемся окне Добавление инструментов выберите все инструменты и нажмите кнопку Добавить.
-
В блоке Параметры сервера:
-
В поле Имя задайте имя создаваемого MCP-сервера. Требования к имени:
- длина — от 3 до 63 символов;
- может содержать строчные буквы латинского алфавита, цифры и дефисы;
- первый символ — буква, последний — не дефис.
-
(Опционально) Добавьте создаваемому серверу описание и метки, воспользовавшись соответствующими кнопками.
- В поле Доступ выберите Приватный.
- В поле Сервисный аккаунт выберите сервисный аккаунт, созданный ранее.
-
(Опционально) Включите опцию Запись логов и задайте параметры логирования, чтобы вести журнал логов создаваемого MCP-сервера.
-
-
Нажмите кнопку Сохранить.
-
-
На панели слева выберите
Агенты и нажмите кнопку Создать агента. -
Укажите параметры агента:
- Имя — имя агента.
- Модель — языковая модель.
- В блоке Инструкция выберите готовый шаблон системной инструкции агенту или опишите, как агент должен себя вести и что нужно сделать.
- В блоке Инструменты:
- Нажмите кнопку Добавить и выберите Добавить MCP.
- Выберите в списке созданный ранее MCP-сервер и нажмите кнопку Выбрать.
- В поле Поведение по умолчанию для всех инструментов выберите Подтверждение не нужно.
- Нажмите кнопку Создать и продолжить.
Подключение к внешнему AI-агенту
-
Получите IAM-токен для созданного ранее сервисного аккаунта.
Примечание
Время жизни IAM-токена — не больше 12 часов, но рекомендуется запрашивать его чаще, например каждый час.
-
Укажите конфигурацию MCP-сервера Data Catalog для вашего агента:
{ "mcpServers": { "yandex-cloud-datacatalog-consumer": { "type": "streamableHttp", "url": "https://datacatalog-consumer.mcp.cloud.yandex.net/mcp", "headers": { "Authorization": "Bearer <IAM_токен>" } } } }
Протестируйте диалог с агентом
Совет
Если вы используете агента в AI Studio, тестируйте диалог в правой панели Тестирование агента.
-
Начните диалог с агентом с указания идентификатора каталога данных, например:
Используй размеченные данные в каталоге данных apah36iavgh5********. -
Используйте примеры промптов, для ответа на которые агент будет анализировать размеченные данные из Data Catalog. Предполагается, что данные содержат информацию о продажах:
Составь SQL запрос для построения аналитики продаж YoYНайди все таблицы с информацией о платежах пользователейКакие таблицы помечены как содержащие чувствительные данные?Откуда берутся данные в таблице customer_transactions?Помоги найти нужные таблицы для расчета метрики retention пользователейГде хранятся данные о поведении пользователей на сайте?Какие данные использовать для анализа конверсии воронки продаж?Покажи все зависимости таблицы transactions — нужно понять влияние изменений схемы