Способы работы с кластерами Apache Spark™ в DataSphere
Сервис Yandex Data Processing позволяет разворачивать кластеры Apache Spark™. Вы можете использовать кластеры Yandex Data Processing, чтобы запускать распределенные обучения на кластерах.
Варианты развертывания кластеров
Чтобы работать в DataSphere с кластерами Yandex Data Processing, вы можете использовать:
Если у вас нет существующих кластеров Yandex Data Processing или кластер нужен на непродолжительное время, вы можете использовать временные кластеры Yandex Data Processing. Их можно создать с помощью:
- коннектора Spark (предпочтительный способ);
- шаблона Yandex Data Processing.
Все кластеры Yandex Data Processing вне зависимости от варианта развертывания тарифицируются по правилам сервиса Yandex Data Processing.
Настройки проекта DataSphere для работы с кластерами Yandex Data Processing
Для работы с кластерами Yandex Data Processing укажите в настройках проекта следующие параметры:
-
Каталог по умолчанию для интеграции с другими сервисами Yandex Cloud. В нем будет развернут кластер Yandex Data Processing в рамках текущих квот облака, а стоимость использования кластера будет списана с платежного аккаунта облака.
-
Сервисный аккаунт, от имени которого DataSphere будет создавать и управлять кластерами. Сервисному аккаунту понадобятся следующие роли:
dataproc.agent
— для использования кластеров Yandex Data Processing.dataproc.admin
— для создания кластеров из шаблонов Yandex Data Processing.vpc.user
— для работы с сетью кластера Yandex Data Processing.iam.serviceAccounts.user
— для создания ресурсов в каталоге от имени сервисного аккаунта.
-
Подсеть для связи DataSphere с кластером Yandex Data Processing. Кластеру Yandex Data Processing необходим доступ в интернет, поэтому в подсети должен быть настроен NAT-шлюз.
Примечание
Если вы указали подсеть в настройках проекта, время выделения вычислительных ресурсов может быть увеличено.
Важно
Постоянный кластер Yandex Data Processing должен иметь настройку livy:livy.spark.deploy-mode : client
.