Yandex Cloud
Поиск
Связаться с намиПодключиться
  • Истории успеха
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
    • Популярные
    • Инфраструктура и сеть
    • Платформа данных
    • Контейнеры
    • Инструменты разработчика
    • Бессерверные вычисления
    • Безопасность
    • Мониторинг и управление ресурсами
    • ИИ для бизнеса
    • Бизнес-инструменты
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Облако для интеграторов
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Контент-программа
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Тарифы Yandex Cloud
    • Промоакции и free tier
    • Правила тарификации
  • Истории успеха
  • Документация
  • Блог
Проект Яндекса
© 2025 ООО «Яндекс.Облако»
Yandex Data Processing
  • Начало работы
    • Взаимосвязь ресурсов сервиса
    • Среда исполнения
    • Интерфейсы и порты компонентов Yandex Data Processing
    • Задания в Yandex Data Processing
    • Задания Spark
    • Автоматическое масштабирование
    • Декомиссия подкластеров и хостов
    • Сеть в Yandex Data Processing
    • Техническое обслуживание
    • Квоты и лимиты
    • Хранилище в Yandex Data Processing
    • Свойства компонентов
    • Apache Iceberg™ в Yandex Data Processing
    • Delta Lake в Yandex Data Processing
    • Логи в Yandex Data Processing
    • Скрипты инициализации
  • Управление доступом
  • Правила тарификации
  • Справочник Terraform
  • Метрики Monitoring
  • Аудитные логи Audit Trails
  • Публичные материалы
  • Вопросы и ответы
  • Обучающие курсы

В этой статье:

  • Изменение свойств компонентов
  • Доступные свойства компонентов
  • Настройки JVM для приложений Spark, выставляемые в Yandex Data Processing по умолчанию
  • Настройки Spark для работы с Yandex Object Storage
  • Установка пакетов Python
  • Использование Apache Spark Thrift Server
  1. Концепции
  2. Свойства компонентов

Свойства компонентов

Статья создана
Yandex Cloud
Улучшена
Sergey Z.
Обновлена 31 января 2025 г.
  • Изменение свойств компонентов
  • Доступные свойства компонентов
  • Настройки JVM для приложений Spark, выставляемые в Yandex Data Processing по умолчанию
  • Настройки Spark для работы с Yandex Object Storage
  • Установка пакетов Python
  • Использование Apache Spark Thrift Server

Свойства компонентов кластера, заданий и среды окружения хранятся в формате:

<ключ>:<значение>

Ключ может быть как простой строкой, так и содержать префикс, указывающий на принадлежность к определенному компоненту:

<префикс_ключа>:<тело_ключа>:<значение>

Например:

hdfs:dfs.replication : 2
hdfs:dfs.blocksize : 1073741824
spark:spark.driver.cores : 1

Изменение свойств компонентовИзменение свойств компонентов

Изменить свойства компонентов можно:

  • На уровне кластера при его создании или изменении. Переданные таким образом свойства применяются по умолчанию ко всем новым заданиям в кластере.
  • На уровне отдельного задания при его создании. Переданные таким образом свойства применяются только к данному заданию и переопределяют для него свойства, заданные на уровне кластера.

Доступные свойства компонентовДоступные свойства компонентов

Доступные свойства перечислены в официальной документации компонентов:

Префикс Путь к файлу конфигурации Документация
core /etc/hadoop/conf/core-site.xml Hadoop
hdfs /etc/hadoop/conf/hdfs-site.xml HDFS
yarn /etc/hadoop/conf/yarn-site.xml YARN
mapreduce /etc/hadoop/conf/mapred-site.xml MapReduce
capacity-scheduler /etc/hadoop/conf/capacity-scheduler.xml CapacityScheduler
resource-type /etc/hadoop/conf/resource-types.xml ResourceTypes
node-resources /etc/hadoop/conf/node-resources.xml NodeResources
spark /etc/spark/conf/spark-defaults.xml Spark
hbase /etc/hbase/conf/hbase-site.xml HBASE
hbase-policy /etc/hbase/conf/hbase-policy.xml HBASE
hive /etc/hive/conf/hive-site.xml HIVE
hivemetastore /etc/hive/conf/hivemetastore-site.xml HIVE Metastore
hiveserver2 /etc/hive/conf/hiveserver2-site.xml HIVE Server2
tez /etc/tez/conf/tez-site.xml Tez 0.9.2 и Tez 0.10.0
zeppelin /etc/zeppelin/conf/zeppelin-site.xml Zeppelin

Настройки запуска заданий указаны в особых свойствах:

  • dataproc:version — версия dataproc-agent, который выполняет задания, отсылает признак состояния кластера и проксирует UI. Используется для отладки. Значение по умолчанию — latest.

  • dataproc:max-concurrent-jobs — количество одновременно запускаемых заданий. Значение по умолчанию — auto (рассчитывается исходя из свойств min-free-memory-to-enqueue-new-job и job-memory-footprint).

  • dataproc:min-free-memory-to-enqueue-new-job — минимальное количество свободной памяти для запуска задания (в байтах). Значение по умолчанию — 1073741824 (1 ГБ).

  • dataproc:job-memory-footprint — количество памяти для запуска задания на хосте-мастере кластера, используется для оценки максимального количества заданий в кластере. Значение по умолчанию — 536870912 (512 МБ).

  • dataproc:spark_executors_per_vm — максимальное количество контейнеров на одном вычислительном хосте при выполнении заданий Spark. Значения по умолчанию:

    • 1 для легковесных кластеров;
    • 2 для кластеров с HDFS.
  • dataproc:spark_driver_memory_fraction — доля памяти вычислительного хоста, резервируемая для драйвера при выполнении заданий Spark. Значение по умолчанию — 0.25.

Настройки JVM для приложений Spark, выставляемые в Yandex Data Processing по умолчаниюНастройки JVM для приложений Spark, выставляемые в Yandex Data Processing по умолчанию

Для улучшения производительности работы JVM в общем случае на кластерах Yandex Data Processing выставляются следующие настройки по умолчанию:

  • spark:spark.driver.extraJavaOptions:
    • -XX:+UseConcMarkSweepGC
    • -XX:CMSInitiatingOccupancyFraction=70
    • -XX:MaxHeapFreeRatio=70
    • -XX:+CMSClassUnloadingEnabled
    • -XX:OnOutOfMemoryError='kill -9 %p'
  • spark:spark.executor.extraJavaOptions:
    • -verbose:gc
    • -XX:+PrintGCDetails
    • -XX:+PrintGCDateStamps
    • -XX:+UseConcMarkSweepGC
    • -XX:CMSInitiatingOccupancyFraction=70
    • -XX:MaxHeapFreeRatio=70
    • -XX:+CMSClassUnloadingEnabled
    • -XX:OnOutOfMemoryError='kill -9 %p'

Если вы хотите изменить настройки JVM, передайте их в одной строке через пробел. Например, для свойства кластера spark:spark.driver.extraJavaOptions:

-XX:+UseConcMarkSweepGC -XX:CMSInitiatingOccupancyFraction=60 -XX:MaxHeapFreeRatio=80

Примечание

Изменение свойств кластера spark:spark.driver.defaultJavaOptions или spark:spark.executor.defaultJavaOptions на значения, конфликтующие с настройками в extraJavaOptions, может приводить к ошибкам конфигурации кластера.

Настройки Spark для работы с Yandex Object StorageНастройки Spark для работы с Yandex Object Storage

Для Apache Spark доступны следующие настройки:

Настройка Значение по умолчанию Описание
fs.s3a.access.key — Идентификатор статического ключа
fs.s3a.secret.key — Секретный ключ
fs.s3a.endpoint storage.yandexcloud.net Эндпоинт для подключения к Object Storage
fs.s3a.signing-algorithm Пустое значение Алгоритм подписи
fs.s3a.aws.credentials.provider org.apache.hadoop.fs.s3a.SimpleAWSCredentialsProvider Поставщик учетных данных

Подробнее см. в документации Apache Hadoop.

Установка пакетов PythonУстановка пакетов Python

Для установки дополнительных пакетов Python можно использовать пакетные менеджеры conda или pip. Передайте имя пакета в свойствах кластера следующим образом:

Пакетный менеджер Ключ Значение Пример
conda conda:<имя_пакета> Номер версии пакета согласно спецификации conda conda:koalas : 1.5.0
pip pip:<имя_пакета> Номер версии пакета согласно спецификации pip pip:requests : 2.31.0

Использование Apache Spark Thrift ServerИспользование Apache Spark Thrift Server

Сервис Apache Spark Thrift Server может использоваться как распределенный движок SQL-запросов поверх Apache Spark.

Чтобы включить его, задайте настройку dataproc:hive.thrift.impl : spark — сервер будет доступен на TCP-порте 10000. По умолчанию задано значение dataproc:hive.thrift.impl : hive — на TCP-порте 10000 запускается Apache HiveServer2, если используется сервис Hive.

Функциональность доступна начиная с версии образа 2.0.48.

Была ли статья полезна?

Предыдущая
Хранилище в Yandex Data Processing
Следующая
Apache Iceberg™ в Yandex Data Processing
Проект Яндекса
© 2025 ООО «Яндекс.Облако»