Среда исполнения
При создании кластера Yandex Data Processing вы можете выбрать версию образа (набор версий компонентов).
Ниже приведен состав актуальных и устаревших образов Yandex Data Processing. В каждую версию образа входят conda
В сервисе Yandex Data Processing нет встроенного механизма для обновления версии образа. Чтобы ее обновить, создайте новый кластер. Если вы хотите постоянно использовать актуальную версию, автоматизируйте создание и удаление временных кластеров Yandex Data Processing с помощью сервиса Yandex Managed Service for Apache Airflow™. Для автоматизированного запуска заданий помимо Managed Service for Apache Airflow™ вы также можете использовать сервис Yandex DataSphere.
Окружение
При создании кластера вы можете выбрать окружение:
PRODUCTION
- для стабильных версий ваших приложений.PRESTABLE
- для тестирования. Prestable-окружение аналогично Production-окружению и на него также распространяется SLA, но при этом на нем раньше появляются новые функциональные возможности, улучшения и исправления ошибок. В Prestable-окружении вы можете протестировать совместимость новых версий с вашим приложением.
При создании кластера окружение влияет на выбор сборки образа с указанием версии с точностью до минорной. Новые сборки образов начинают использоваться:
- Для
PRODUCTION
— не менее чем через неделю после выпуска. - Для
PRESTABLE
— сразу после выпуска.
После стабилизации каждая минорная версия поддерживает обратную совместимость. Однако для процессов, требующих регулярного создания кластеров, рекомендуется использовать тестовый контур с окружением PRESTABLE
. Это позволит раньше обнаружить возможное нарушение обратной совместимости.
После создания кластера окружение не влияет на его функционирование. Изменить окружение созданного кластера нельзя.
Актуальные образы
Примечание
Доступ к образу версии 2.2 предоставляется по запросу. Обратитесь в техническую поддержку
Компоненты | Образ 2.0 | Образ 2.11 | Образ 2.2 (бета) |
---|---|---|---|
Версии компонентов | |||
Hadoop | 3.2.2 | 3.3.2 | 3.3.2 |
Tez | 0.10.0 | 0.10.1 | — |
Hive | 3.1.2 | — | — |
Zookeeper | 3.4.14 | — | — |
HBase | 2.2.7 | — | — |
Oozie | 5.2.1 | — | — |
Spark | 3.0.3 | 3.3.22 | 3.5.0 |
Zeppelin | 0.9.0 | 0.10.0 | — |
Livy | 0.8.0 | 0.8.0 | 0.8.0 |
Версии Python и библиотек машинного обучения | |||
Python | 3.8.10 | 3.8.13 | 3.11.10 |
PyArrow | 1.0.1 | 4.0.0 | 14.0.2 |
ipykernel | 5.3.4 | 5.3.4 | 6.29.5 |
PyHive | 0.6.1 | 0.6.1 | 0.7.0 |
scikit-learn | 0.23.2 | 0.24.1 | 1.5.1 |
pandas | 1.1.3 | 1.2.4 | 2.2.2 |
koalas | 1.7.0 | 1.8.2 | — |
numpy | 1.19.2 | 1.20.1 | 1.26.4 |
boto3 | 1.16.7 | 1.16.7 | 1.34.154 |
IPython | 7.19.0 | 7.22.0 | 8.27.0 |
Matplotlib | 3.2.2 | 3.4.2 | 3.9.2 |
1 Стабильный, начиная с 2.1.15.
2 Spark 3.3.2 предоставляется в образах Yandex Data Processing, начиная с версии 2.1.4. Версии образа 2.1.1-2.1.3 содержат Spark 3.2.1.
Устаревшие образы
Примечание
Эти образы являются устаревшими (deprecated). Рекомендуем использовать актуальные версии образов. Уже созданные кластеры продолжат свою работу, но новые кластеры с устаревшими версиями создать будет нельзя.
Компоненты | Образ 1.4 |
---|---|
Версии компонентов | |
Hadoop | 2.10.0 |
Tez | 0.9.2 |
Hive | 2.3.6 |
Zookeeper | 3.4.14 |
HBase | 1.3.5 |
Sqoop | 1.4.7 |
Oozie | 5.2.0 |
Spark | 2.4.6 |
Flume | 1.9.0 |
Zeppelin | 0.8.2 |
Livy | 0.7.0 |
Версии Python и библиотек машинного обучения | |
Python | 3.7.9 |
PyArrow | 0.13.0 |
ipykernel | 5.1.3 |
TensorFlow | 1.15.0 |
CatBoost | 0.20.2 |
PyHive | 0.6.1 |
LightGBM | 2.3.0 |
XGBoost | 0.90 |
scikit-learn | 0.21.3 |
pandas | 0.25.3 |
IPython | 7.9.0 |
Matplotlib | 3.1.1 |