Платформа данных

Обновили аппаратную базу для управляемых СУБД, перевели несколько ключевых сервисов в общий доступ и значительно расширили возможности по управлению метаданными.

Новая вычислительная платформа standard‑v4a

Добавили новую вычислительную платформу для кластеров:

В зависимости от типа нагрузки это обеспечивает прирост производительности в среднем на 25%.

Большое обновление Yandex MetaDataHub

Мы значительно расширили возможности по управлению метаданными: перевели в общий доступ Yandex Connection Manager и Yandex Managed Hive™ Metastore, а также открыли для всех пользователей Yandex Data Catalog.

Yandex Connection Manager стал общедоступным

Yandex Connection Manager перешёл в стадию GA и теперь полностью готов к производственным нагрузкам. Сервис является частью Yandex MetaData Hub и остаётся бесплатным.

Теперь для новых кластеров управляемых баз данных — PostgreSQL, ClickHouse® и MySQL® — Yandex Connection Manager автоматически создаёт подключения. При этом существующие соединения по имени пользователя и паролю продолжат работать без изменений. Кроме того, мы добавили поддержку подключений к кластерам Apache Kafka® и Trino.

Yandex Managed Hive™ Metastore стал общедоступным

Наш сервис для централизованного хранения метаданных в озёрах данных на базе Yandex Object Storage перешёл в стадию General Availability. Мы поддерживаем версии 3.1 и 4.0 в зонах доступности в России и Казахстане.

Стоимость сервиса зависит только от потребляемых вычислительных ресурсов — vCPU и RAM.

Yandex DataCatalog перешёл в Public Preview

Yandex DataCatalog — это компонент Yandex MetaDataHub. Он перешёл в стадию Public Preview.

Сервис позволяет собирать и систематизировать метаданные — то есть информацию об объектах данных и связях между ними.

У Yandex DataCatalog есть несколько ключевых возможностей:

Авторазметка каталога с помощью AI . Размечать каталог — часто рутинная работа. AI предложит описание для всех данных и теги: как стандартные для рынка, например «персональные данные», «продажи», «клиенты», — так и основанные на специфике каталога.

. Размечать каталог — часто рутинная работа. AI предложит описание для всех данных и теги: как стандартные для рынка, например «персональные данные», «продажи», «клиенты», — так и основанные на специфике каталога. Поиск с помощью AI . Сервис ищет не только по совпадению, но и по смыслу и контексту. Агент выдаёт краткую сводку и советы, как получить нужную информацию.

. Сервис ищет не только по совпадению, но и по смыслу и контексту. Агент выдаёт краткую сводку и советы, как получить нужную информацию. Интеграция с WebSQL . Можно быстро просмотреть данные из таблицы или датасета в WebSQL.

. Можно быстро просмотреть данные из таблицы или датасета в WebSQL. Отслеживание происхождения данных (Lineage). Сервис позволяет видеть взаимосвязи по колонкам. Можно отследить путь каждой колонки по всем базам данных. Это особенно полезно, когда нужно проконтролировать, куда попадают чувствительные данные, например персональные.

Yandex Managed Service for Apache Spark™ стал общедоступным

Сервис перешёл в стадию GA — он готов к промышленной эксплуатации и на него распространяется соглашение об уровне обслуживания (SLA).

Мы также добавили интеграцию с Yandex Managed Service for Apache Airflow® — сервисом для управления конвейерами обработки данных — и Yandex DataSphere, нашей средой для ML‑разработки.

Добавили в Yandex Managed Service for PostgreSQL® поддержку версии 18

Среди новых возможностей:

Асинхронный ввод-вывод (Async I/O) . Эта технология позволяет базе данных выполнять операции чтения и записи, не дожидаясь завершения каждой предыдущей. За счёт этого ускоряются SELECT-запросы — команды, которые используются для выборки данных из таблиц. Внутренние тесты показывают ускорение до трёх раз, что экономит минуты при выполнении тяжёлых аналитических запросов.

. Эта технология позволяет базе данных выполнять операции чтения и записи, не дожидаясь завершения каждой предыдущей. За счёт этого ускоряются SELECT-запросы — команды, которые используются для выборки данных из таблиц. Внутренние тесты показывают ускорение до трёх раз, что экономит минуты при выполнении тяжёлых аналитических запросов. Пропускное сканирование (Skip scan) для B-tree индексов . Индекс B-tree — это специальная структура данных, похожая на алфавитный указатель в книге. Он помогает быстро находить нужные строки в таблице. Теперь такой индекс используется, даже если в запросе нет фильтра по первой колонке. Это позволяет избегать полного сканирования, то есть последовательного просмотра всех записей в таблице.

. Индекс B-tree — это специальная структура данных, похожая на алфавитный указатель в книге. Он помогает быстро находить нужные строки в таблице. Теперь такой индекс используется, даже если в запросе нет фильтра по первой колонке. Это позволяет избегать полного сканирования, то есть последовательного просмотра всех записей в таблице. UUIDv7. Это новый тип универсальных идентификаторов — уникальных кодов для записей, — которые теперь включают временную метку. Это упрощает сортировку по времени создания без использования дополнительных полей.

Мы также упростили интерфейс: в настройках кластера теперь отображаются выключенными параметры тех расширений, которые не подключены.

Yandex Managed Service for ClickHouse®

В сервисе появилось несколько нововведений. Они упрощают работу с данными, повышают отказоустойчивость кластеров и помогают при миграции.

Что нового: