История изменений в Yandex Data Processing
Статья создана
Обновлена 30 октября 2025 г.
III квартал 2025
В образе 2.2.9 (бета) Apache Spark™ обновлен до версии 3.5.6.
II квартал 2025
- Добавлена опция OS Login при создании кластера. Опция включает доступ через OS Login ко всем создаваемым хостам кластера.
-
Добавлена возможность устанавливать переменные окружения:
HADOOP_HEAPSIZE_MINиHADOOP_HEAPSIZE_MAXдля сервисаhadoop:hadoop.env:HADOOP_HEAPSIZE_MINhadoop.env:HADOOP_HEAPSIZE_MAX
HADOOP_HEAPSIZEдля сервисаhive(доступно только для образов 2.0):hive.env:HADOOP_HEAPSIZE.
I квартал 2025
В образах 2.2.X версия Java изменена на 11.
IV квартал 2024
- При создании или изменении кластера теперь можно выбрать окружение:
PRODUCTIONилиPRESTABLE. - В образах 2.2.X обновлен Python до версии 3.1.
III квартал 2024
- Кластеры Apache Hive™ Metastore стали частью сервиса Yandex MetaData Hub. Информацию о кластерах Apache Hive™ Metastore читайте в документации Yandex MetaData Hub.
- В образах 2.1.X и 2.2.X обновлена Conda, solver по умолчанию заменен на Mamba
.
II квартал 2024
Доступна стабильная линейка образов 2.1. В ее рамках можно создать кластер с более свежими версиями Spark 3.3.2
II квартал 2023
Доступно создание кластеров Apache Hive™ Metastore. Функциональность находится на стадии Preview.
III квартал 2022
- Добавлена поддержка новых настроек
в Airflow-оператореDataprocCreateClusterOperator. - Добавлены классы хостов
cpu-optimizedс соотношением количества гигабайт RAM к количеству vCPU 2 к 1. Новые конфигурации доступны только для платформы Intel Ice Lake. - Опубликовано руководство по использованию скриптов инициализации для настройки GeeseFS.
II квартал 2022
- Доступна версия образа 2.1.
- Появилась возможность включить публичный доступ из интернета для всех видов подкластеров.
- Lightweight Spark стал доступен начиная с версии образа 2.0.39. Теперь можно создавать кластер без подкластеров для хранения данных, так как сервисы YARN и SPARK больше не зависят от HDFS.
- Добавлена поддержка скриптов инициализации в CLI.
I квартал 2022
- Доступно создание кластеров на сетевых нереплицируемых дисках размером до 8 ТБ. Устройство нереплицируемых дисков существенно проще стандартных сетевых хранилищ SSD, благодаря чему их производительность выше в несколько раз.
- Добавлена возможность отмены заданий.
- Добавлен номер сборки в версии образов Yandex Data Processing.
- Добавлена возможность передачи параметров
packages,repositoriesиexclude_packagesдля заданий Spark и PySpark. Использование этих параметров позволяет скачивать дополнительные зависимости и пакеты из внешних репозиториев.