Способы работы с кластерами Apache Spark™ в DataSphere

Статья создана

Обновлена 16 июня 2026 г.

Варианты развертывания кластеров
Настройки проекта DataSphere для работы с кластерами Yandex Data Processing

Сервис Yandex Data Processing позволяет разворачивать кластеры Apache Spark™. Вы можете использовать кластеры Yandex Data Processing, чтобы запускать распределенные обучения на кластерах.

Варианты развертывания кластеров

Чтобы работать в DataSphere с кластерами Yandex Data Processing, вы можете использовать:

Если у вас нет существующих кластеров Yandex Data Processing или кластер нужен на непродолжительное время, вы можете использовать временные кластеры Yandex Data Processing. Их можно создать с помощью:

коннектора Spark (предпочтительный способ);
шаблона Yandex Data Processing.

Все кластеры Yandex Data Processing вне зависимости от варианта развертывания тарифицируются по правилам сервиса Yandex Data Processing.

Настройки проекта DataSphere для работы с кластерами Yandex Data Processing

Для работы с кластерами Yandex Data Processing:

Укажите в настройках проекта следующие параметры:
- Каталог по умолчанию для интеграции с другими сервисами Yandex Cloud. В нем будет развернут кластер Yandex Data Processing в рамках текущих квот облака, а стоимость использования кластера будет списана с платежного аккаунта облака.
- Сервисный аккаунт с ролью vpc.user, от имени которого DataSphere будет работать с сетью кластера Yandex Data Processing.
- Подсеть для связи DataSphere с кластером Yandex Data Processing. Указанная подсеть должна находиться в зоне доступности, в которой создано сообщество. Кластеру Yandex Data Processing необходим доступ в интернет, поэтому в подсети должен быть настроен NAT-шлюз. После указания подсети время выделения вычислительных ресурсов может быть увеличено.
Создайте сервисного агента:
1. Чтобы разрешить сервисному агенту работать в DataSphere, попросите администратора или владельца вашего облака выполнить команду в Yandex Cloud CLI:
```
yc iam service-control enable datasphere --cloud-id <идентификатор_облака>
```
  Где --cloud-id — идентификатор облака, с которым вы будете работать в сообществе DataSphere.
2. Создайте сервисный аккаунт с ролями:
  - dataproc.agent — для использования кластеров Yandex Data Processing.
  - dataproc.admin— для создания кластеров из шаблонов Yandex Data Processing.
  - vpc.user — для работы с сетью кластера Yandex Data Processing.
  - iam.serviceAccounts.user — для создания ресурсов в каталоге от имени сервисного аккаунта.
3. В настройках сообщества в блоке Кластеры Spark нажмите Добавить сервисный аккаунт и выберите созданный сервисный аккаунт.

Важно

Постоянный кластер Yandex Data Processing должен иметь настройку livy:livy.spark.deploy-mode : client.

Способы работы с кластерами Apache Spark™ в DataSphere

Варианты развертывания кластеров

Настройки проекта DataSphere для работы с кластерами Yandex Data Processing

Полезные ссылки

Была ли статья полезна?

Способы работы с кластерами Apache Spark™ в DataSphere

Варианты развертывания кластеровВарианты развертывания кластеров

Настройки проекта DataSphere для работы с кластерами Yandex Data ProcessingНастройки проекта DataSphere для работы с кластерами Yandex Data Processing

Полезные ссылкиПолезные ссылки

Была ли статья полезна?

Варианты развертывания кластеров

Настройки проекта DataSphere для работы с кластерами Yandex Data Processing

Полезные ссылки