История изменений в Yandex Data Processing
Статья создана
Обновлена 16 октября 2024 г.
Сентябрь 2024
Кластеры Metastore стали частью сервиса Yandex MetaData Hub. Информацию о кластерах Metastore читайте в документации Yandex MetaData Hub.
Апрель 2024
Доступна стабильная линейка образов 2.1. В ее рамках можно создать кластер с более свежими версиями Spark 3.3.2
II квартал 2023
Доступно создание кластеров Metastore. Функциональность находится на стадии Preview.
III квартал 2022
- Добавлена поддержка новых настроек
в Airflow-оператореDataprocCreateClusterOperator
. - Добавлены классы хостов
cpu-optimized
с соотношением количества гигабайт RAM к количеству vCPU 2 к 1. Новые конфигурации доступны только для платформы Intel Ice Lake. - Опубликовано руководство по использованию скриптов инициализации для настройки GeeseFS.
II квартал 2022
- Доступна версия образа 2.1.
- Появилась возможность включить публичный доступ из интернета для всех видов подкластеров.
- Lightweight Spark стал доступен начиная с версии образа 2.0.39. Теперь можно создавать кластер без подкластеров для хранения данных, так как сервисы YARN и SPARK больше не зависят от HDFS.
- Добавлена поддержка скриптов инициализации в CLI.
I квартал 2022
- Доступно создание кластеров на сетевых нереплицируемых дисках размером до 8 ТБ. Устройство нереплицируемых дисков существенно проще стандартных сетевых хранилищ SSD, благодаря чему их производительность выше в несколько раз.
- Добавлена возможность отмены заданий.
- Добавлен номер сборки в версии образов Yandex Data Processing.
- Добавлена возможность передачи параметров
packages
,repositories
иexclude_packages
для заданий Spark и PySpark. Использование этих параметров позволяет скачивать дополнительные зависимости и пакеты из внешних репозиториев.