В сервисе Yandex Data Processing теперь можно создавать управляемые кластеры Hive Metastore в режиме Public Preview. Hive Metastore связывает разнородные ETL-системы и инструменты для работы с общими данными, упрощает их развёртывание. Кластеры Metastore управляют табличными метаданными объектов, которые находятся в бакетах Object Storage.
С помощью новой технологии стало проще подготавливать и очищать данные, создавать хранилища и предметно-ориентированные витрины данных.
Компания Elastic сообщила, что с апреля 2024 года доступ к сервису Elasticsearch для пользователей Yandex Cloud будет ограничен. Поэтому мы решили не выпускать новые функции для сервиса Managed Service for Elasticsearch.
Пользователи сервиса смогут работать с существующими кластерами и создавать новые до апреля 2024 года. Пользователи, которые ещё не работали с Elasticsearch в облаке, не смогут создавать кластеры сервиса с 20 июля 2023 года.
За последние несколько месяцев мы добавили следующие изменения:
Для новых кластеров включили поддержку инкрементальных бэкапов. Благодаря этому данные будут занимать меньше места в хранилище.
Поддержали Point-in-Time-Recovery. Теперь можно указать точку во времени при восстановлении из бэкапа.
Обновили версию PXF до 6.6.0. В ней используются новые драйверы ClickHouse®, которые поддерживают TLS-шифрование.
При восстановлении кластера Greenplum теперь можно выбрать количество хостов и сегментов. Это позволит сэкономить ресурсы и не переплачивать за избыточные мощности и место.
В логи добавили события от протокола PXF.
Команда архитекторов Yandex Cloud собрала общепринятые методики и проверенные практики, которые помогут оптимизировать хранилище данных на базе Greenplum. Заполните форму ниже, чтобы получить доступ.
Добавили экспорт данных. Теперь можно экспортировать сырые данные диагностики производительности через API.
Также появилась новая настройка session_duration_timeout. Она регулирует время жизни самой длинной активной сессии или транзакции: по умолчанию — 12 часов.
Пользователям сервиса стала доступна сортировка показатели в сводной таблице по клику на заголовки. Ориентироваться в данных и находить инсайты стало проще и быстрее.
Сортировка показателей в сводной таблице
Кроме того, в сводных таблицах стали доступны подытоги. Теперь вычислить сумму строк или столбцов можно по клику. Для первого поля в секции подытоги будут работать как общее «Итого». Включить функцию можно в настройках поля секции.
Также для удобства мы сгруппировали подключения по типам: базы данных, файлы и сервисы, партнёрские подключения.
Группировка подключений по типам
И добавили возможность подключения к Snowflake.
Подключение к Snowflake
Добавили настройку отображения подписи для столбчатых и линейчатых визуализаций с группировкой и без:
изменить поведение можно в настройках чарта;
для новых чартов подпись теперь по умолчанию отображается снаружи;
для существующих чартов поведение не поменялось.
Разнесли по разным секциям настройки формы и цвета для точечных диаграмм. Теперь управлять ими стало удобнее.
Настройки формы и цвета для точечных диаграмм
Также стоит отметить, что мы масштабно обновили механику расчёта LOD и оконных функций: исправили много багов, ускорили работу и оптимизировали вычисления.
Теперь корневые разделы разбиты по ключевым сущностям — подключения, датасеты, чарты, дашборды — и важным сквозным концептам — вычисляемые поля, настройка прав и т. п.
Эти доработки не окончательные — будем делать структуру ещё проще и удобнее.
На вебинаре 20 июня мы рассказали, как с помощью serverless-сервисов реализовать упрощённый пайплайн поставки данных Telegram API в Managed ClickHouse и их визуализации в DataLens. Эта информация будет полезна всем, кто занимается подготовкой данных для DataLens.
Ещё в июне мы говорили о проектировании дашбордов. Роман Бунин, BI-евангелист Yandex DataLens и автор телеграм-канала Reveal the Data, рассказал, как собрать требования для дашборда от заказчика, разработать макет, собрать дашборд и организовать совместную работу над ним в DataLens.
Пополняем коллекцию лайфхаков по работе с DataLens в YouTube. В этом квартале — новые ролики о том, как настроить переходы между дашбордами, применяя фильтры и текстовые показатели для подписи значений на графике. Смотрите в DataLens Shorts.
Лайфхаки и опыт экспертов помогут оптимизировать работу с дашбордами в Yandex DataLens. Однако в любой компании объём данных неизбежно растёт, и чем их больше, тем медленнее становятся дашборды, особенно если вы хотите строить их по детализированным таблицам. Роман Бунин вместе с коллегами, архитекторами Yandex Cloud Игорем Путятиным и Кузьмой Лешаковым, рассказал, как на основе таблицы из 150 миллионов строк построить максимально быстрый дашборд.