История изменений образов Yandex Data Processing
Статья создана
Обновлена 1 октября 2024 г.
Полный состав актуальных и устаревших образов Yandex Data Processing см. в разделе Среда исполнения.
Образы 2.1.x
2.1.18
- Обновлена Conda, solver по умолчанию заменен на Mamba
. - Добавлено логирование при установке Conda-пакетов.
- Из логов запуска кластера удалены строки
[ERROR] can't parse line
.
2.1.17
- По умолчанию включена публикация событий Resource Manager в Job History Server.
2.1.16
- Добавлена ротация логов Yarn Timelinserver.
2.1.15
-
Стабилизирована линейка образов 2.1.
-
Реализовано удаление свойств из конфигурационных файлов при удалении их в конфигурации кластера.
-
Обновлены версии компонентов:
- Hadoop — 3.3.2.
- Livy — 0.8.0.
- Spark — 3.3.2.
- Tez — 0.10.1.
- Zeppelin — 0.10.1.
-
Удалены устаревшие компоненты:
- HBase
- Hive
- Zookeeper
- Oozie
-
Python обновлен до версии 3.8.13
. -
Обновлены версии библиотек:
- IPython — 7.22.0.
- ipykernel — 5.3.4.
- Matplotlib — 3.4.2.
- pandas — 1.2.4.
- PyArrow — 14.0.2.
- scikit-learn — 0.24.1.
Образы 2.0.x
2.0.77
- Добавлено логирование при установке Conda-пакетов.
- Из логов запуска кластера удалены строки
[ERROR] can't parse line
.
2.0.76
- Добавлена ротация логов Yarn Timelinserver.
2.0.74
- Реализовано удаление свойств из конфигурационных файлов при удалении их в конфигурации кластера.
2.0.69
- Добавлены библиотеки
kafka-clients
иcommons-pool2
, необходимые для интеграции Apache Spark™ и Apache Kafka®.
2.0.66
- Исправлена проблема с тем, что YARN NodeManager включался на новом хосте до выполнения скриптов инициализации.
2.0.64
- Добавлена поддержка Helium.
- Исправлена проблема с излишней декомиссией.
- Запуск поставки логов в Cloud Logging осуществляется в самом начале запуска узла.
2.0.62
- Устранена ошибка с отсутствием плагинов, используемых по умолчанию в Zeppelin.
- Исправлена проблема с некорректной обработкой ошибок в Hive-заданиях.
2.0.61
- Внутренние изменения.
2.0.59
- Поддержана работа сервисов Spark и MapReduce на однохостовом кластере.
2.0.58
- Добавлена возможность сохранения пользовательских свойств интерпретатора Zeppelin при перезагрузке кластера. Свойства
spark.submit.deployMode
,spark.driver.cores
,spark.driver.memory
,spark.executor.cores
,spark.executor.memory
,spark.files
,spark.jars
иspark.jars.packages
не сохраняются и переписываются из свойств Spark.
2.0.56
- Оптимизированы запросы в сервис метаданных при взаимодействии с s3.
2.0.55
- Улучшено логирование в скриптах инициализации.
2.0.54
- Исправлены ошибки в конфигурации компонента TEZ.
2.0.53
- Исправлена ошибка с конфигурацией cores/memory для Spark/Yarn при указании свойства кластера
spark:spark.submit.deployMode
. - Исправлено обновление конфигурационного файла
spark-defaults.yaml
при обновлении свойств кластера.
2.0.52
- На хосты добавлен скрипт ручного исправления статуса скриптов инициализации.
2.0.50
- Результаты выполнения пользовательских сценариев теперь по умолчанию отправляются на
masternode
.
2.0.49
- Устранена ошибка с игнорированием пользовательских настроек в Hive Metastore Server.
2.0.48
- Добавлена возможность использования Apache Spark Thrift Server
. Подробнее см. в разделе Использование Apache Spark Thrift Server. - Исправлена ошибка
YandexMetadataCredentialsProvider does not implement AWSCredentialsProvider
, которая могла появляться на легковесных конфигурациях Apache Spark.
2.0.47
- Устранена утечка TCP-сессий с сервисом метаданных на высоконагруженных кластерах. Утечка могла приводить к ситуации, когда не обновлялся IAM-токен для авторизации в Object Storage и других сервисах.
- Исправлена ошибка, из-за которой могли не подгружаться таблицы из Hive Metastore:
YandexMetadataCredentialsProvider does not implement AWSCredentialsProvider
.
2.0.46
- Часть свойств Spark теперь применяется также и в Zeppelin:
spark.submit.deployMode
,spark.driver.cores
,spark.driver.memory
,spark.executor.cores
,spark.executor.memory
,spark.files
,spark.jars
иspark.jars.packages
.
2.0.45
- Исправлена ошибка с MapReduce Application History Server не на хосте-мастере кластера.
- Разрешена конфигурация HIVE без YARN.
- Разрешен запуск HiveServer2 только вместе с MapReduce.
2.0.43
- Унифицированы расчеты cores/memory для Spark/YARN.
2.0.42
- Apache Spark обновлен до версии 3.0.3 и собран с профилем hadoop-cloud
для использования Magic Committer и формата Parquet. - Исправлена ошибка с игнорированием настроек
hive.metastore.uris
для Spark при использовании внешнего Hive metastore.
2.0.41
- Для приложений Spark
hive-site.xml
добавлен в classpath. - Исправлена ошибка с использованием системного Python вместо Conda-окружения при ручном запуске PySpark.
2.0.40
- Исправлена ошибка с незапуском пользовательских сценариев.
2.0.39
- Добавлена поддержка легковесных кластеров (без HDFS и подкластеров для хранения данных).
2.0.38
- Образы адаптированы для работы в подсетях с заданной пользователем DNS-зоной.
2.0.37
- YC CLI добавлен в
PATH
для скриптов инициализации.
2.0.36
- YC CLI по умолчанию установлен на все хосты кластера.
- Для скриптов инициализации в переменные окружения добавлены значения:
CLUSTER_ID
,S3_BUCKET
,ROLE
,CLUSTER_SERVICES
,MIN_WORKER_COUNT
,MAX_WORKER_COUNT
.
2.0.35
- Добавлена поддержка скриптов инициализации для кластера.
2.0
-
Обновлены версии компонентов:
- HBase — 2.2.7.
- Hadoop — 3.2.2.
- Hive — 3.1.2.
- Livy — 0.8.0.
- Oozie — 5.2.1.
- Spark — 3.0.2.
- Tez — 0.10.0.
- Zeppelin — 0.9.0.
-
Удалены устаревшие компоненты:
- Flume
- Sqoop
-
Python обновлен до версии 3.8.10
. -
Обновлены версии библиотек:
- IPython — 7.19.0.
- ipykernel — 5.3.4.
- Matplotlib — 3.2.2.
- pandas — 1.1.3.
- PyArrow — 1.0.1.
- PyHive — 0.6.1.
- scikit-learn — 0.23.2.
-
Удалены библиотеки:
- CatBoost
- LightGBM
- TensorFlow
- XGBoost
Образы 1.4.x
1.4.35
- Образы адаптированы для работы в подсетях с заданной пользователем DNS-зоной.
1.4
-
Обновлены версии компонентов:
- HBase — 1.3.5.
- Hadoop — 2.10.0.
- Hive — 2.3.6.
- Flume — 1.9.0.
- Livy — 0.7.0.
- Oozie — 5.2.0.
- Spark — 2.4.6.
- Sqoop — 1.4.7.
- Tez — 0.9.2.
- Zeppelin — 0.8.2.
- Zookeeper — 3.4.14.
-
Python обновлен до версии 3.7.9
. -
Обновлены версии библиотек:
- CatBoost — 0.20.2.
- IPython — 7.9.0.
- ipykernel — 5.1.3.
- LightGBM — 2.3.0.
- Matplotlib — 3.1.1.
- pandas — 0.25.3.
- PyArrow — 0.13.0.
- PyHive — 0.6.1.
- scikit-learn — 0.21.3.
- TensorFlow— 1.15.0.
- XGBoost — 0.90.