Yandex Cloud
Поиск
Связаться с намиПодключиться
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
    • Популярные
    • Инфраструктура и сеть
    • Платформа данных
    • Контейнеры
    • Инструменты разработчика
    • Бессерверные вычисления
    • Безопасность
    • Мониторинг и управление ресурсами
    • Машинное обучение
    • Бизнес-инструменты
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Облако для интеграторов
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Контент-программа
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Истории успеха
    • Тарифы Yandex Cloud
    • Промоакции и free tier
    • Правила тарификации
  • Документация
  • Блог
Проект Яндекса
© 2025 ООО «Яндекс.Облако»
Yandex DataSphere
  • Начало работы
    • Все инструкции
      • Работа с секретами
      • Работа с шаблонами Yandex Data Processing
      • Работа с Docker-образами
      • Работа с датасетами
      • Работа с коннекторами S3
      • Работа с коннекторами Spark
      • Работа с моделями
      • Работа с файловыми хранилищами
    • Как перенести работу в новую версию
  • Справочник Terraform
  • Аудитные логи Audit Trails
  • Управление доступом
  • Правила тарификации
  • Публичные материалы
  • История изменений

В этой статье:

  • Перед началом работы
  • Создать коннектор Spark
  • Использовать кластер Yandex Data Processing в проекте
  • Изменить коннектор Spark
  • Поделиться коннектором Spark
  • Удалить коннектор Spark
  1. Пошаговые инструкции
  2. Работа с ресурсами
  3. Работа с коннекторами Spark

Работа с коннекторами Spark

Статья создана
Yandex Cloud
Обновлена 7 марта 2025 г.
  • Перед началом работы
  • Создать коннектор Spark
  • Использовать кластер Yandex Data Processing в проекте
  • Изменить коннектор Spark
  • Поделиться коннектором Spark
  • Удалить коннектор Spark

В DataSphere вы можете использовать коннекторы Spark, чтобы работать с уже существующими или автоматически создаваемыми кластерами Yandex Data Processing.

Перед началом работыПеред началом работы

Для работы с кластерами Yandex Data Processing укажите в настройках проекта следующие параметры:

  • Каталог по умолчанию для интеграции с другими сервисами Yandex Cloud. В нем будет развернут кластер Yandex Data Processing в рамках текущих квот облака, а стоимость использования кластера будет списана с платежного аккаунта облака.

  • Сервисный аккаунт, от имени которого DataSphere будет создавать и управлять кластерами. Сервисному аккаунту понадобятся следующие роли:

    • dataproc.agent — для использования кластеров Yandex Data Processing.
    • dataproc.admin— для создания кластеров из шаблонов Yandex Data Processing.
    • vpc.user — для работы с сетью кластера Yandex Data Processing.
    • iam.serviceAccounts.user — для создания ресурсов в каталоге от имени сервисного аккаунта.
  • Подсеть для связи DataSphere с кластером Yandex Data Processing. Кластеру Yandex Data Processing необходим доступ в интернет, поэтому в подсети должен быть настроен NAT-шлюз.

    Примечание

    Если вы указали подсеть в настройках проекта, время выделения вычислительных ресурсов может быть увеличено.

Важно

Постоянный кластер Yandex Data Processing должен иметь настройку livy:livy.spark.deploy-mode : client.

Создать коннектор SparkСоздать коннектор Spark

  1. Выберите нужный проект в своем сообществе или на главной странице DataSphere во вкладке Недавние проекты.

  2. В блоке Ресурсы проекта нажмите Коннектор Spark.

  3. Нажмите Создать коннектор.

  4. В поле Имя задайте имя коннектора. Формат имени:

    • Длина — от 3 до 63 символов.
    • Может содержать строчные и заглавные буквы латинского и русского алфавита, цифры, дефисы, подчеркивания и пробелы.
    • Первый символ должен быть буквой. Последний символ не может быть дефисом, подчеркиванием или пробелом.
  5. В блоке Кластер Yandex Data Processing выберите, с каким кластером вы планируете работать:

    • Выберите кластер — выберите существующий кластер Yandex Data Processing или нажмите Создать кластер в Yandex Data Processing, чтобы перейти в Yandex Data Processing и создать новый. Постоянный кластер Yandex Data Processing должен иметь настройку livy:livy.spark.deploy-mode : client.
    • Создать временный кластер — выберите, чтобы создать временный кластер Yandex Data Processing. Временный кластер будет создан при первом запуске вычислений в ноутбуке проекта.
  6. (Опционально) В блоке Настройки S3 укажите идентификатор статического ключа доступа и секрет, в котором хранится секретная часть статического ключа для коннектора S3.

    Настройки S3 позволяет указать данные для подключения к бакету S3. Это рекомендуется при работе с бакетами Object Storage в любых кластерах, и крайне желательно для кластеров Yandex Data Processing без включенной опции HDFS.

  7. В блоке Настройки Spark выберите опцию Использовать настройки по умолчанию, чтобы использовать стандартные настройки кластера Yandex Data Processing или укажите параметры Ключ и Значение, чтобы вручную дополнить или изменить параметры кластера Yandex Data Processing.

    Совет

    Для кластеров Yandex Data Processing без включенной опции HDFS задайте дополнительный параметр spark.hadoop.fs.s3a.fast.upload.buffer = bytebuffer.

    Для собственных кластеров с типом подключения Spark Connect задайте дополнительный параметр dataproc:spark-connect = enabled.

  8. Нажмите Создать. Откроется страница с информацией о созданном коннекторе.

Использовать кластер Yandex Data Processing в проектеИспользовать кластер Yandex Data Processing в проекте

Важно

Если вы работаете с кластерами Yandex Data Processing с помощью коннектора Spark, вместо стандартного окружения проекта в ноутбуке будет использоваться специальное окружение для работы с кластером.

Откройте проект DataSphere:

  1. Выберите нужный проект в своем сообществе или на главной странице DataSphere во вкладке Недавние проекты.

  2. Нажмите кнопку Открыть проект в JupyterLab и дождитесь окончания загрузки.
  3. Откройте вкладку с ноутбуком.
  1. Запустите любую ячейку, выбрав в меню Run ⟶ Run Selected Cells или использовав сочетание клавиш Shift + Enter.
  2. В открывшемся окне Конфигурации ВМ ноутбука перейдите на вкладку Для кластера Yandex Data Processing.
  3. Выберите необходимую конфигурацию и коннектор.
  4. Нажмите Выбрать.

Чтобы выключить временный кластер Yandex Data Processing, созданный с помощью коннектора Spark, остановите ВМ ноутбука.

Чтобы перестать платить за постоянный кластер Yandex Data Processing, удалите его в консоли управления.

Изменить коннектор SparkИзменить коннектор Spark

  1. Выберите нужный проект в своем сообществе или на главной странице DataSphere во вкладке Недавние проекты.

  2. В блоке Ресурсы проекта нажмите Коннектор Spark.
  3. В списке коннекторов Spark выберите тот, который вы хотите изменить. Нажмите Редактировать.
  4. Измените коннектор Spark: отредактируйте имя или параметры.
  5. Нажмите Сохранить.

Поделиться коннектором SparkПоделиться коннектором Spark

Примечание

Делиться ресурсами можно только в рамках одной организации между сообществами, созданными в одной зоне доступности.

Чтобы поделиться коннектором Spark в сообществе, понадобятся роли Editor в проекте и Developer в сообществе. Подробнее о ролях, действующих в DataSphere, см. в разделе Управление доступом в DataSphere.

  1. Выберите нужный проект в своем сообществе или на главной странице DataSphere во вкладке Недавние проекты.

  2. В блоке Ресурсы проекта нажмите Коннектор Spark.
  3. Выберите нужный коннектор Spark в списке.
  4. Перейдите на вкладку Доступ.
  5. Включите опцию видимости напротив названия сообщества, с которым нужно поделиться коннектором Spark.

Чтобы коннектор Spark стал доступен для работы в другом проекте, администратор проекта должен добавить его на вкладке Доступные.

Удалить коннектор SparkУдалить коннектор Spark

Вы можете удалить только коннектор, который недоступен в сообществе.

  1. Выберите нужный проект в своем сообществе или на главной странице DataSphere во вкладке Недавние проекты.

  2. В блоке Ресурсы проекта нажмите Коннектор Spark.
  3. В списке коннекторов Spark выберите тот, который хотите удалить. Нажмите Удалить.
  4. Нажмите Подтвердить.

Отобразится сообщение о том, что коннектор удален.

Важно

Фактически удаление ресурсов может занимать до 72 часов.

Была ли статья полезна?

Предыдущая
Работа с коннекторами S3
Следующая
Работа с моделями
Проект Яндекса
© 2025 ООО «Яндекс.Облако»