Рассказываем, что нового появилось в сервисах платформы данных с мая по сентябрь 2021 года.
4 октября 2021 г.
15 минут чтения
24 сентября прошла конференция Yandex Scale 2021, где на треке Data Platform мы рассказали о всех новостях управляемых сервисов и новых возможностях поставки данных, а также показали, например, как создать корпоративное хранилище данных (Data Warehouse) в Yandex.Cloud. Смотрите записи докладов и заходите на наш стенд, чтобы узнать больше.
Новая платформа «Intel Ice Lake» с процессорами Intel® Xeon® Scalable 3-го поколения стала доступна для пользователей управляемых сервисов Yandex.Cloud. Максимальная конфигурация позволяет создать виртуальные машины с 96 ядрами и 576 ГБ памяти. Минимальный объем данных на хосте при использовании локального хранилища вырос до 368 ГБ. Подробнее.
Нереплицируемые сетевые диски стали доступны всем пользователям управляемых баз данных. Ранее диски были доступны только по запросу. Это диски с повышенной производительностью, о которых мы писали ранее.
Защита от случайного удаления: чтобы удалить защищенный кластер, пользователю придется сначала снять защиту в настройках. Включите эту опцию, чтобы защитить кластер от непреднамеренного удаления пользователем. Защита не помешает подключиться вручную и удалить содержимое базы данных. Настройкой можно управлять из Консоли на странице кластера, а также через Terraform и CLI. По умолчанию опция выключена.
Запущен сервис для управления кластерами массивно-параллельной СУБД Greenplum® в инфраструктуре Yandex.Cloud. Yandex Managed Service for Greenplum® находится в стадии Preview и не тарифицируется. Чтобы начать пользоваться сервисом бесплатно, оставьте заявку на странице сервиса или в консоли управления.
Операционная система Windows Server Standard больше не доступна в Yandex Cloud Marketplace. С 1 сентября 2021 года существующие и новые кластеры Yandex Managed Service for SQL Server™ используют редакцию Windows Server Datacenter. Подробнее см. в статье Правила тарификации для Managed Service for SQL Server.
Транзакционная репликация. Теперь пользователь может настроить репликацию данных со своего локального SQL Server в облачный кластер. В отличие от развертывания из бекапа, этот подход позволяет получить реплику, синхронизированную с источником, и не требует помощи технической поддержки. Подробнее см. в статье Миграция базы данных в Managed Service for SQL Server.
Восстановление базы. Появилась возможность восстанавливать отдельную удаленную или существующую базу данных в существующем кластере. Восстановить можно в консоли в разделе баз данных, либо в разделе резервных копий.
Возможность выбора SQL Collation при создании кластера.
Установка времени резервного копирования. Функциональность доступна в консоли управления в настройках кластера, а также в CLI и Terraform.
Нечитаемые реплики. Для клиентов Yandex Managed Service for SQL Server™ Enterprise Edition появилась возможность существенно снизить стоимость многохостового кластера за счет режима доступа к репликам. В режиме доступа на чтение за использование реплик взимается плата, так как требуется лицензия SQL Server на каждую из читаемых реплик. Для нечитаемых реплик плата за лицензию не производится. Управлять режимом доступа к репликам можно в настройках кластера. Подробнее о режимах доступа к репликам в документации.
Возможность выдавать пользователям server-level привилегии для мониторинга состояния сервера с точки зрения производительности. Мы предоставляем привилегии по запросу в техподдержку.
Переход на кворумную синхронную репликацию. Теперь данные мастер-хоста будут автоматически реплицироваться на две синхронные реплики внутри группы высокой доступности. В случае отказа основного мастера, одна из реплик возьмет на себя его роль.
Добавлено расширение oracle_fdw — возможность работы с таблицами Oracle из PostgreSQL.
Поддержка Timescale DB, plv8, rum как расширения в базе данных кластера.
Реализация основных возможностей для работы с кластером в Terraform.
Каскадные реплики: теперь можно ссылаться на другую реплику в качестве источника репликации. В случае падения, новым источником репликации становится другая реплика, либо вышестоящий хост. Каскадные реплики не могут становиться мастером.
Реализована возможность переключения первичной реплики. Подробнее.
Реализована возможность управления окном обслуживания через Terraform.
Диагностика производительности доступна в режиме Preview. Для активации диагностики необходимо разрешить сбор статистики в настройках кластера, а также задать порог долгих запросов в настройках СУБД. По умолчанию долгими считаются запросы от 300 миллисекунд, снижение порога может повлиять на производительность кластера.
Добавлены новые метрики и графики в мониторинге. Например, число запросов, количество соединений и среднее время выполнения операции.
В мониторинг добавлены: график числа ключей в разрезе по базам, график slowlog операций.
Добавлена возможность управления окном обслуживания через Terraform.
Ускорено резервное копирование благодаря миграции на использование бекап-утилиты WAL-G.
Версия 6.2: реализовали поддержку новой версии в CLI и Terraform. Появилось много новых команд и улучшений, которые давно просили пользователи. Полный список изменений смотрите на официальном сайте.
Уменьшено время даунтайма во время рестартов и обновлений.
Новая LTS версия ClickHouse 21.8. JSONPath, дедупликация для нереплицируемых таблиц, оптимизации производительности, улучшения надежности, дополнительные средства интроспекции. Подробнее.
Поддержка бэкапов для кластеров с гибридным хранилищем.
Добавлена возможность включить гибридное хранилище для уже созданных кластеров.
Dataproc 2.0: доступны версии Hadoop 3.2, Spark 3.0, Hive 3.1, Apache Zeppelin 0.9.0. Подробнее состав версий см. в статье Среда исполнения.
Добавлена возможность редактировать настройки кластера.
Улучшена работа проксирования интерфейсов на DataProc 2.0, снижено потребление ресурсов на мастер-ноде и добавлены интерфейсы (например, YARN NodeManagers и Tez-UI).
В режиме открытого превью доступны новые трансферы:
Трансферы PostgreSQL → ClickHouse и MySQL → ClickHouse с типом «снепшот + репликация». Это позволит вынести аналитические данные в нужное хранилище и разделить нагрузку.
Трансфер MongoDB → MongoDB с типом «снепшот + репликация». Это позволит мигрировать свои кластеры MongoDB или перенести данные в облачную платформу. Например, чтобы разово скопировать данные в сервис Yandex Managed Service for MongoDB и протестировать его работу.
Yandex Data Streams может непрерывно выполнять сбор данных из источников, а за сохранение одного потока в несколько приемников с различными политиками хранения отвечает сервис Yandex Data Transfer. Данные из источников поступают в Data Streams, затем Data Transfer считывает эти данные, разбивает их на колонки и строки и сохраняет в одну или сразу в несколько принимающих систем. Например, в Yandex Managed Service for ClickHouse, Yandex Object Storage или Yandex Database. Передаваемую информацию можно обрабатывать в Yandex Cloud Functions для обфускации чувствительных данных, смены их формата или любой другой обработки.
Трансфер с помощью Yandex Data Streams предоставляется в режиме закрытого превью.
В DataLens появилась возможность рисовать полилинии на карте. Полилинии — тип возможного геослоя на чарте «Карта». Для работы с ним в датасете каждая точка каждой полилинии должна храниться отдельной строкой. Для описания чарта нужно добавить в соответствующие секции:
поле с типом «геоточка» — координаты точек линий;
поле или набор полей для группировки линий (нужен идентификатор каждой линии);
поле для сортировки порядка точек в каждой линии (например, timestamp);
отрезки полилинии можно красить градиентом по показателю (например, средняя скорость в точке) или же дискретными цветами по измерению (например, по названию поездки).
Теперь в чартах типа «Таблица» можно включать отображение итогов.
Значение в строке «Итого» для показателя рассчитывается по тем же формулам, что и агрегация в показателе: для суммы будет отображена сумма, для среднего — среднее значение по столбцу, для количества уникальных — число уникальных элементов.
Ограничения текущей реализации:
итоги рассчитываются только для показателей, для измерений строка «Итого» остается пустой;
Появился новый коннектор для Greenplum. Вы можете в несколько кликов выбрать базы данных, созданные в облаке, или вручную указать реквизиты любого внешнего кластера. Запись прошедшего митапа с примером работы.
В датасете появились фильтры по умолчанию для новых чартов. При создании чарта фильтры из датасета автоматически добавляются в секцию «Фильтры». Фильтры по умолчанию полезны, например, при создании множества чартов над одним и тем же датасетом с неизменным набором фильтров.
Мы подготовили инструкцию о принципах работы Yandex DataLens (и любого современного BI) с измерениями и показателями. Ознакомьтесь, чтобы разобраться как устроены агрегации в DataLens и избежать ошибок.