Способы работы с кластерами Apache Spark™ в DataSphere

Статья создана

Обновлена 13 сентября 2024 г.

Варианты развертывания кластеров
Настройки проекта DataSphere для работы с кластерами Yandex Data Processing

Сервис Yandex Data Processing позволяет разворачивать кластеры Apache Spark™. Вы можете использовать кластеры Yandex Data Processing, чтобы запускать распределенные обучения на кластерах.

Варианты развертывания кластеров

Чтобы работать в DataSphere с кластерами Yandex Data Processing, вы можете использовать:

Если у вас нет существующих кластеров Yandex Data Processing или кластер нужен на непродолжительное время, вы можете использовать временные кластеры Yandex Data Processing. Их можно создать с помощью:

коннектора Spark (предпочтительный способ);
шаблона Yandex Data Processing.

Все кластеры Yandex Data Processing вне зависимости от варианта развертывания тарифицируются по правилам сервиса Yandex Data Processing.

Настройки проекта DataSphere для работы с кластерами Yandex Data Processing

Для работы с кластерами Yandex Data Processing укажите в настройках проекта следующие параметры:

Каталог по умолчанию для интеграции с другими сервисами Yandex Cloud. В нем будет развернут кластер Yandex Data Processing в рамках текущих квот облака, а стоимость использования кластера будет списана с платежного аккаунта облака.
Сервисный аккаунт, от имени которого DataSphere будет создавать и управлять кластерами. Сервисному аккаунту понадобятся следующие роли:
- dataproc.agent — для использования кластеров Yandex Data Processing.
- dataproc.admin— для создания кластеров из шаблонов Yandex Data Processing.
- vpc.user — для работы с сетью кластера Yandex Data Processing.
- iam.serviceAccounts.user — для создания ресурсов в каталоге от имени сервисного аккаунта.
Подсеть для связи DataSphere с кластером Yandex Data Processing. Кластеру Yandex Data Processing необходим доступ в интернет, поэтому в подсети должен быть настроен NAT-шлюз.

Примечание

Если вы указали подсеть в настройках проекта, время выделения вычислительных ресурсов может быть увеличено.

Важно

Постоянный кластер Yandex Data Processing должен иметь настройку livy:livy.spark.deploy-mode : client.

Способы работы с кластерами Apache Spark™ в DataSphere

Варианты развертывания кластеров

Настройки проекта DataSphere для работы с кластерами Yandex Data Processing

См. также

Была ли статья полезна?

Способы работы с кластерами Apache Spark™ в DataSphere

Варианты развертывания кластеровВарианты развертывания кластеров

Настройки проекта DataSphere для работы с кластерами Yandex Data ProcessingНастройки проекта DataSphere для работы с кластерами Yandex Data Processing

См. такжеСм. также

Была ли статья полезна?

Варианты развертывания кластеров

Настройки проекта DataSphere для работы с кластерами Yandex Data Processing

См. также