Гибридное хранилище в Managed Service for Greenplum®
Примечание
Функциональность находится на стадии Preview и не тарифицируется.
В кластерах Managed Service for Greenplum® поддерживается гибридное хранилище: часть данных может находиться в хранилище кластера, а часть — в холодном хранилище. По умолчанию данные хранятся в хранилище кластера на дисках выбранного типа. Данные, с которыми работают редко, но которые нужно хранить долго, можно перенести из хранилища кластера в холодное хранилище — в служебный бакет Yandex Object Storage. Так хранение будет дешевле.
Гибридное хранилище можно включить в кластерах Greenplum® при создании или изменении кластера.
Важно
Включенное в кластере гибридное хранилище нельзя отключить.
Область применения гибридного хранилища
Гибридное хранилище можно использовать только для таблиц, которые оптимизированы для добавления (append-optimized). При переносе данных между хранилищем кластера и холодным хранилищем переносятся таблицы целиком. Для работы с таблицами используется расширение Yezzey, разработанное Yandex Cloud.
Данные таблиц, оптимизированных для добавления, хранятся в виде набора сегментных файлов в сжатом и зашифрованном виде в служебном бакете Object Storage. Количество сегментных файлов зависит от количества сегментов в кластере и от структуры таблицы.
Управление вводом-выводом при использовании гибридного хранилища
При выполнении SQL-запросов к таблицам, оптимизированным для добавления, происходит множество обращений к сегментным файлам в хранилище. Время выполнения SQL-запросов зависит от того, насколько эффективно планируются запросы ввода-вывода к сегментным файлам. Если не планировать запросы ввода-вывода, то страдает производительность хранилища, увеличивается потребление оперативной памяти и время выполнения SQL-запросов. Использование планировщика позволяет защитить кластер от деградации производительности при выполнении SQL-запросов, требующих обработки большого количества данных.
Когда данные хранятся в хранилище кластера, планированием запросов ввода-вывода занимается операционная система на хостах кластера.
Когда данные хранятся в холодном хранилище, операционная система не может планировать запросы ввода-вывода к служебному бакету Object Storage. Поэтому, чтобы избежать деградации производительности, в кластерах Managed Service for Greenplum® планированием таких запросов занимается специальный прокси YProxy, разработанный Yandex Cloud. Благодаря использованию YProxy, даже если таблица размещена в холодном хранилище, то это оказывает минимальное влияние на время выполнения SQL-запросов.
Подробнее про архитектуру гибридного хранилища читайте в статье на Хабре
Greenplum® и Greenplum Database® являются зарегистрированными товарными знаками или товарными знаками VMware, Inc в США и/или других странах.