Дайджест новостей платформы данных (май‑сентябрь)

Рассказываем, что нового появилось в сервисах платформы данных с мая по сентябрь 2021 года.

4 октября 2021 г.

15 минут чтения

24 сентября прошла конференция Yandex Scale 2021, где на треке Data Platform мы рассказали о всех новостях управляемых сервисов и новых возможностях поставки данных, а также показали, например, как создать корпоративное хранилище данных (Data Warehouse) в Yandex.Cloud. Смотрите записи докладов и заходите на наш стенд, чтобы узнать больше.

Общие новости

Новая платформа «Intel Ice Lake» с процессорами Intel^® Xeon^® Scalable 3-го поколения стала доступна для пользователей управляемых сервисов Yandex.Cloud. Максимальная конфигурация позволяет создать виртуальные машины с 96 ядрами и 576 ГБ памяти. Минимальный объем данных на хосте при использовании локального хранилища вырос до 368 ГБ. Подробнее.
Нереплицируемые сетевые диски стали доступны всем пользователям управляемых баз данных. Ранее диски были доступны только по запросу. Это диски с повышенной производительностью, о которых мы писали ранее.
Защита от случайного удаления: чтобы удалить защищенный кластер, пользователю придется сначала снять защиту в настройках. Включите эту опцию, чтобы защитить кластер от непреднамеренного удаления пользователем. Защита не помешает подключиться вручную и удалить содержимое базы данных. Настройкой можно управлять из Консоли на странице кластера, а также через Terraform и CLI. По умолчанию опция выключена.

Yandex Managed Service for Greenplum^®

Запущен сервис для управления кластерами массивно-параллельной СУБД Greenplum^® в инфраструктуре Yandex.Cloud. Yandex Managed Service for Greenplum^® находится в стадии Preview и не тарифицируется. Чтобы начать пользоваться сервисом бесплатно, оставьте заявку на странице сервиса или в консоли управления.

Новости:

Стало возможным создавать кластер на нереплицируемых сетевых дисках.
Создавать и удалять кластер теперь можно и с помощью Terraform.
Для мониторинга состояния кластера и отдельных хостов доступны сервисные дашборды.

Сервис интегрирован с Yandex DataLens: визуализируйте данные Greenplum на графиках и дашбордах.

Yandex Managed Service for SQL Server^™

Операционная система Windows Server Standard больше не доступна в Yandex Cloud Marketplace. С 1 сентября 2021 года существующие и новые кластеры Yandex Managed Service for SQL Server^™ используют редакцию Windows Server Datacenter. Подробнее см. в статье Правила тарификации для Managed Service for SQL Server.
Транзакционная репликация. Теперь пользователь может настроить репликацию данных со своего локального SQL Server в облачный кластер. В отличие от развертывания из бекапа, этот подход позволяет получить реплику, синхронизированную с источником, и не требует помощи технической поддержки. Подробнее см. в статье Миграция базы данных в Managed Service for SQL Server.
Восстановление базы. Появилась возможность восстанавливать отдельную удаленную или существующую базу данных в существующем кластере. Восстановить можно в консоли в разделе баз данных, либо в разделе резервных копий.

Возможность выбора SQL Collation при создании кластера.
Установка времени резервного копирования. Функциональность доступна в консоли управления в настройках кластера, а также в CLI и Terraform.
Нечитаемые реплики. Для клиентов Yandex Managed Service for SQL Server^™ Enterprise Edition появилась возможность существенно снизить стоимость многохостового кластера за счет режима доступа к репликам. В режиме доступа на чтение за использование реплик взимается плата, так как требуется лицензия SQL Server на каждую из читаемых реплик. Для нечитаемых реплик плата за лицензию не производится. Управлять режимом доступа к репликам можно в настройках кластера. Подробнее о режимах доступа к репликам в документации.
Возможность выдавать пользователям server-level привилегии для мониторинга состояния сервера с точки зрения производительности. Мы предоставляем привилегии по запросу в техподдержку.

Yandex Managed Service for PostgreSQL

Полная поддержка работы с кластером в Terraform.
Переход на кворумную синхронную репликацию. Теперь данные мастер-хоста будут автоматически реплицироваться на две синхронные реплики внутри группы высокой доступности. В случае отказа основного мастера, одна из реплик возьмет на себя его роль.
Добавлено расширение oracle_fdw — возможность работы с таблицами Oracle из PostgreSQL.
Поддержка Timescale DB, plv8, rum как расширения в базе данных кластера.

Yandex Managed Service for MySQL^®

Реализация основных возможностей для работы с кластером в Terraform.
Каскадные реплики: теперь можно ссылаться на другую реплику в качестве источника репликации. В случае падения, новым источником репликации становится другая реплика, либо вышестоящий хост. Каскадные реплики не могут становиться мастером.

Yandex Managed Service for MongoDB

Реализована возможность переключения первичной реплики. Подробнее.
Реализована возможность управления окном обслуживания через Terraform.
Диагностика производительности доступна в режиме Preview. Для активации диагностики необходимо разрешить сбор статистики в настройках кластера, а также задать порог долгих запросов в настройках СУБД. По умолчанию долгими считаются запросы от 300 миллисекунд, снижение порога может повлиять на производительность кластера.

Добавлены новые метрики и графики в мониторинге. Например, число запросов, количество соединений и среднее время выполнения операции.

Yandex Managed Service for Redis^™

В мониторинг добавлены: график числа ключей в разрезе по базам, график slowlog операций.

Добавлена возможность управления окном обслуживания через Terraform.
Ускорено резервное копирование благодаря миграции на использование бекап-утилиты WAL-G.
Версия 6.2: реализовали поддержку новой версии в CLI и Terraform. Появилось много новых команд и улучшений, которые давно просили пользователи. Полный список изменений смотрите на официальном сайте.
Уменьшено время даунтайма во время рестартов и обновлений.

Yandex Managed Service for Elasticsearch

Добавлена поддержка Elasticsearch 7.13, 7.14. Версия Elasticsearch 7.6 больше не поддерживается.
Время создания кластеров уменьшилось в два раза.
Добавлена возможность изменить в консоли версию и редакцию кластера.
Добавлена возможность резервировать потребление на год или 3 года.

Yandex Managed Service for ClickHouse

Новая LTS версия ClickHouse 21.8. JSONPath, дедупликация для нереплицируемых таблиц, оптимизации производительности, улучшения надежности, дополнительные средства интроспекции. Подробнее.
Поддержка бэкапов для кластеров с гибридным хранилищем.
Добавлена возможность включить гибридное хранилище для уже созданных кластеров.
Улучшены дашборды с графиками.
Реализована возможность задавать собственные настройки.
Обновлена версия ZooKeeper c 3.5 до 3.6.

Yandex Managed Service for Apache Kafka^®

Добавлена возможность задавать replication factor и num partitions на кластер.
Доступна версия Kafka 2.8.

Yandex Data Proc

Dataproc 2.0: доступны версии Hadoop 3.2, Spark 3.0, Hive 3.1, Apache Zeppelin 0.9.0. Подробнее состав версий см. в статье Среда исполнения.
Добавлена возможность редактировать настройки кластера.
Улучшена работа проксирования интерфейсов на DataProc 2.0, снижено потребление ресурсов на мастер-ноде и добавлены интерфейсы (например, YARN NodeManagers и Tez-UI).

Yandex Data Transfer

В режиме открытого превью доступны новые трансферы:

Трансферы PostgreSQL → ClickHouse и MySQL → ClickHouse с типом «снепшот + репликация». Это позволит вынести аналитические данные в нужное хранилище и разделить нагрузку.
Трансфер MongoDB → MongoDB с типом «снепшот + репликация». Это позволит мигрировать свои кластеры MongoDB или перенести данные в облачную платформу. Например, чтобы разово скопировать данные в сервис Yandex Managed Service for MongoDB и протестировать его работу.

Подробнее о новых функциональностях сервиса смотрите в докладе на Yandex Scale.

Трансфер с помощью Yandex Data Streams

Yandex Data Streams может непрерывно выполнять сбор данных из источников, а за сохранение одного потока в несколько приемников с различными политиками хранения отвечает сервис Yandex Data Transfer. Данные из источников поступают в Data Streams, затем Data Transfer считывает эти данные, разбивает их на колонки и строки и сохраняет в одну или сразу в несколько принимающих систем. Например, в Yandex Managed Service for ClickHouse, Yandex Object Storage или Yandex Database. Передаваемую информацию можно обрабатывать в Yandex Cloud Functions для обфускации чувствительных данных, смены их формата или любой другой обработки.

Трансфер с помощью Yandex Data Streams предоставляется в режиме закрытого превью.

Yandex DataLens

Полилинии

В DataLens появилась возможность рисовать полилинии на карте. Полилинии — тип возможного геослоя на чарте «Карта». Для работы с ним в датасете каждая точка каждой полилинии должна храниться отдельной строкой. Для описания чарта нужно добавить в соответствующие секции:

поле с типом «геоточка» — координаты точек линий;
поле или набор полей для группировки линий (нужен идентификатор каждой линии);
поле для сортировки порядка точек в каждой линии (например, timestamp);
отрезки полилинии можно красить градиентом по показателю (например, средняя скорость в точке) или же дискретными цветами по измерению (например, по названию поездки).

Пример чарта с комментариями:

Оригинал:

Кольцевые диаграммы

Появился новый тип чарта, с помощью которого удобно показывать доли и общую сумму. Отображение итогов можно включить в настройках чарта.

Итоги в плоских таблицах

Теперь в чартах типа «Таблица» можно включать отображение итогов.

Значение в строке «Итого» для показателя рассчитывается по тем же формулам, что и агрегация в показателе: для суммы будет отображена сумма, для среднего — среднее значение по столбцу, для количества уникальных — число уникальных элементов.

Ограничения текущей реализации:

итоги рассчитываются только для показателей, для измерений строка «Итого» остается пустой;
оконные функции не поддерживаются;
актуально только для числовых полей.

Поддержка Greenplum

Появился новый коннектор для Greenplum. Вы можете в несколько кликов выбрать базы данных, созданные в облаке, или вручную указать реквизиты любого внешнего кластера. Запись прошедшего митапа с примером работы.

Палитры

Появились расширенные палитры цветов:

все палитры адаптированы под светлую и темную темы;
палитра DataLens NEO 20 включает нейтральные светло- и темно-серые цвета;
цвета для чарта можно выбирать только в рамках одной палитры.

Фильтр по умолчанию для новых чартов

В датасете появились фильтры по умолчанию для новых чартов. При создании чарта фильтры из датасета автоматически добавляются в секцию «Фильтры». Фильтры по умолчанию полезны, например, при создании множества чартов над одним и тем же датасетом с неизменным набором фильтров.

Особенности фильтров по умолчанию:

Появляется в чарте только в двух случаях:
в момент создания чарта;
в момент добавления датасета в чарт.
Можно удалить и отредактировать в чарте.
Не применяется к превью датасета.

Статья в документации про агрегации

Мы подготовили инструкцию о принципах работы Yandex DataLens (и любого современного BI) с измерениями и показателями. Ознакомьтесь, чтобы разобраться как устроены агрегации в DataLens и избежать ошибок.

Команда Yandex Cloud

Общие новости
Yandex Managed Service for Greenplum^®
Yandex Managed Service for SQL Server^™
Yandex Managed Service for PostgreSQL
Yandex Managed Service for MySQL^®
Yandex Managed Service for MongoDB
Yandex Managed Service for Redis^™
Yandex Managed Service for Elasticsearch
Yandex Managed Service for ClickHouse
Yandex Managed Service for Apache Kafka^®
Yandex Data Proc
Yandex Data Transfer
Трансфер с помощью Yandex Data Streams
Yandex DataLens

Блог

Дайджесты

Дайджест новостей платформы данных (май‑сентябрь)

4 октября 2021 г.

15 минут чтения

Дайджест новостей платформы данных (май‑сентябрь)

Общие новости

Yandex Managed Service for Greenplum^®

Yandex Managed Service for SQL Server^™

Yandex Managed Service for PostgreSQL

Yandex Managed Service for MySQL^®

Yandex Managed Service for MongoDB

Yandex Managed Service for Redis^™

Yandex Managed Service for Elasticsearch

Yandex Managed Service for ClickHouse

Yandex Managed Service for Apache Kafka^®

Yandex Data Proc

Yandex Data Transfer

Трансфер с помощью Yandex Data Streams