Yandex Cloud
Поиск
Связаться с намиПодключиться
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
    • Популярные
    • Инфраструктура и сеть
    • Платформа данных
    • Контейнеры
    • Инструменты разработчика
    • Бессерверные вычисления
    • Безопасность
    • Мониторинг и управление ресурсами
    • Машинное обучение
    • Бизнес-инструменты
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Облако для интеграторов
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Контент-программа
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Истории успеха
    • Тарифы Yandex Cloud
    • Промоакции и free tier
    • Правила тарификации
  • Документация
  • Блог
Проект Яндекса
© 2025 ООО «Яндекс.Облако»
Yandex DataSphere
  • Начало работы
    • О сервисе DataSphere
    • Взаимосвязь ресурсов в DataSphere
    • Сообщества
    • Управление расходами
    • Проект
    • Конфигурации вычислительных ресурсов
      • Список предустановленного ПО
      • Доступные команды
        • Способы работы с кластерами Apache Spark™
        • Вычисления на кластерах Apache Spark™
        • Особенности работы с временными кластерами Yandex Data Processing
    • Фундаментальные модели
    • Квоты и лимиты
    • Специальные условия для образования
  • Справочник Terraform
  • Аудитные логи Audit Trails
  • Управление доступом
  • Правила тарификации
  • Публичные материалы
  • История изменений

В этой статье:

  • Варианты развертывания кластеров
  • Настройки проекта DataSphere для работы с кластерами Yandex Data Processing
  1. Концепции
  2. DataSphere Notebook
  3. Вычисления на кластерах Apache Spark™
  4. Способы работы с кластерами Apache Spark™

Способы работы с кластерами Apache Spark™ в DataSphere

Статья создана
Yandex Cloud
Обновлена 16 декабря 2024 г.
  • Варианты развертывания кластеров
  • Настройки проекта DataSphere для работы с кластерами Yandex Data Processing

Сервис Yandex Data Processing позволяет разворачивать кластеры Apache Spark™. Вы можете использовать кластеры Yandex Data Processing, чтобы запускать распределенные обучения на кластерах.

Варианты развертывания кластеровВарианты развертывания кластеров

Чтобы работать в DataSphere с кластерами Yandex Data Processing, вы можете использовать:

  • коннектор Spark;
  • Livy-сессию.

Если у вас нет существующих кластеров Yandex Data Processing или кластер нужен на непродолжительное время, вы можете использовать временные кластеры Yandex Data Processing. Их можно создать с помощью:

  • коннектора Spark (предпочтительный способ);
  • шаблона Yandex Data Processing.

Все кластеры Yandex Data Processing вне зависимости от варианта развертывания тарифицируются по правилам сервиса Yandex Data Processing.

Настройки проекта DataSphere для работы с кластерами Yandex Data ProcessingНастройки проекта DataSphere для работы с кластерами Yandex Data Processing

Для работы с кластерами Yandex Data Processing укажите в настройках проекта следующие параметры:

  • Каталог по умолчанию для интеграции с другими сервисами Yandex Cloud. В нем будет развернут кластер Yandex Data Processing в рамках текущих квот облака, а стоимость использования кластера будет списана с платежного аккаунта облака.

  • Сервисный аккаунт, от имени которого DataSphere будет создавать и управлять кластерами. Сервисному аккаунту понадобятся следующие роли:

    • dataproc.agent — для использования кластеров Yandex Data Processing.
    • dataproc.admin— для создания кластеров из шаблонов Yandex Data Processing.
    • vpc.user — для работы с сетью кластера Yandex Data Processing.
    • iam.serviceAccounts.user — для создания ресурсов в каталоге от имени сервисного аккаунта.
  • Подсеть для связи DataSphere с кластером Yandex Data Processing. Кластеру Yandex Data Processing необходим доступ в интернет, поэтому в подсети должен быть настроен NAT-шлюз.

    Примечание

    Если вы указали подсеть в настройках проекта, время выделения вычислительных ресурсов может быть увеличено.

Важно

Постоянный кластер Yandex Data Processing должен иметь настройку livy:livy.spark.deploy-mode : client.

См. такжеСм. также

  • Шаблоны Yandex Data Processing
  • Интеграция с сервисом Yandex Data Processing
  • Коннектор Spark

Была ли статья полезна?

Предыдущая
Доступные команды
Следующая
Вычисления на кластерах Apache Spark™
Проект Яндекса
© 2025 ООО «Яндекс.Облако»