Yandex Cloud
Поиск
Связаться с намиПодключиться
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
    • Популярные
    • Инфраструктура и сеть
    • Платформа данных
    • Контейнеры
    • Инструменты разработчика
    • Бессерверные вычисления
    • Безопасность
    • Мониторинг и управление ресурсами
    • Машинное обучение
    • Бизнес-инструменты
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Облако для интеграторов
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Контент-программа
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Истории успеха
    • Тарифы Yandex Cloud
    • Промоакции и free tier
    • Правила тарификации
  • Документация
  • Блог
Проект Яндекса
© 2025 ООО «Яндекс.Облако»
Yandex DataSphere
  • Начало работы
    • О сервисе DataSphere
    • Взаимосвязь ресурсов в DataSphere
    • Сообщества
    • Управление расходами
    • Проект
    • Конфигурации вычислительных ресурсов
      • Обзор
      • Секреты
      • Docker-образы
      • Датасеты
      • Шаблоны Yandex Data Processing
      • Коннекторы S3
      • Коннекторы Spark
      • Модели
      • Дообученные фундаментальные модели
      • Файловые хранилища
    • Фундаментальные модели
    • Квоты и лимиты
    • Специальные условия для образования
  • Справочник Terraform
  • Аудитные логи Audit Trails
  • Управление доступом
  • Правила тарификации
  • Публичные материалы
  • История изменений

В этой статье:

  • Информация о коннекторе Spark как ресурсе
  • Работа с коннектором Spark
  • Конфигурации временных кластеров
  1. Концепции
  2. Ресурсы
  3. Коннекторы Spark

Коннектор Spark

Статья создана
Yandex Cloud
Обновлена 17 февраля 2025 г.
  • Информация о коннекторе Spark как ресурсе
  • Работа с коннектором Spark
    • Конфигурации временных кластеров

DataSphere позволяет обрабатывать большие объемы данных на кластерах Yandex Data Processing. С помощью коннектора Spark вы можете как использовать уже имеющиеся кластеры Yandex Data Processing, так и создавать временные кластеры.

Коннектор Spark — это специальный ресурс, который хранит настройки подключения и взаимодействия с существующими и временными кластерами Yandex Data Processing. Выбранные кластеры автоматически подключаются или создаются при запуске вычислений в IDE. При создании ресурса вы также можете указать данные для подключения к объектному хранилищу S3.

Информация о коннекторе Spark как ресурсеИнформация о коннекторе Spark как ресурсе

О каждом коннекторе Spark хранится следующая информация:

  • уникальный идентификатор ресурса;
  • создатель ресурса;
  • дата создания и дата последнего изменения в формате в UTC, например 22 апр. 2024 г., 13:21.
  • конфигурация кластера Yandex Data Processing;
  • настройки для подключения к S3.

Работа с коннектором SparkРабота с коннектором Spark

Создать коннектор Spark можно в интерфейсе DataSphere. При создании коннектора Spark вы можете выбрать тип подключения к существующему кластеру Yandex Data Processing — SparkContext или Spark Connect (доступен только для кластеров Yandex Data Processing версии 2.2 или старше). Для временных кластеров используется подключение SparkContext.

Коннекторы Spark используются в ноутбуках проекта. При первом запуске вычислений вы выбираете конфигурацию, на которой будет выполняться код ноутбука. Эта ВМ располагается в сети, указанной в коннекторе Spark, поэтому она имеет сетевой доступ к кластеру Yandex Data Processing, однако не принадлежит кластеру. По умолчанию код ячейки ноутбука будет выполняться на ВМ. Для выполнения кода на кластере Yandex Data Processing необходимо явно задать это при вызове (например, через SparkContext::runJob).

Окружение ВМ для работы с кластером отличается от стандартного окружения DataSphere и позволяет получить доступ к окружению кластера Yandex Data Processing. При этом вы также можете использовать сессии для работы с кластером.

После создания коннектор Spark доступен для проекта. Как и любой другой ресурс, коннектор Spark можно опубликовать в сообществе, чтобы использовать его в других проектах. Для этого вам минимально необходимы роли Editor в проекте и Developer в сообществе, в котором вы хотите его опубликовать. Открыть доступ можно на вкладке Доступ на странице просмотра коннектора Spark. Ресурс, доступный для сообщества, появится на странице сообщества в разделе Ресурсы сообщества.

Если при создании коннектора Spark вы выбрали временный кластер Yandex Data Processing, DataSphere создаст кластер Yandex Data Processing при первом запуске вычислений в ноутбуке и будет самостоятельно следить за ним. Кластер запускается и останавливается вместе с ВМ ноутбука. Кластер будет удален, если на нем не будет вычислений в течение времени, указанного в параметре Остановить простаивающую ВМ через, или если принудительно остановить ВМ ноутбука.

Работа с коннекторами Spark также доступна в DataSphere CLI.

Конфигурации временных кластеровКонфигурации временных кластеров

Временные кластеры Yandex Data Processing разворачиваются на базе виртуальных машин Yandex Compute Cloud на платформе Intel Cascade Lake (standard-v2).

Необходимый суммарный объем дисков для разных конфигураций кластеров можно рассчитать по формуле:

<количество_хостов_Yandex_Data_Processing> × 256 + 128
Тип кластера Количество хостов Объем дисков Параметры хоста
XS 1 384 ГБ HDD 4 vCPU, 16 ГБ RAM
S 4 1152 ГБ SSD 4 vCPU, 16 ГБ RAM
M 8 2176 ГБ SSD 16 vCPU, 64 ГБ RAM
L 16 4224 ГБ SSD 16 vCPU, 64 ГБ RAM
XL 32 8320 ГБ SSD 16 vCPU, 64 ГБ RAM

Совет

Перед запуском проекта с коннектором Spark для создания временного кластера Yandex Data Processing убедитесь, что квоты на создание HDD или SSD-дисков позволяют создать диск достаточного размера.

Работа временных кластеров, созданных из шаблонов Yandex Data Processing, тарифицируется дополнительно по правилам тарификации Yandex Data Processing.

См. такжеСм. также

  • Как создать, изменить и удалить коннектор Spark.
  • Ошибки при работе коннектора Spark

Была ли статья полезна?

Предыдущая
Коннекторы S3
Следующая
Модели
Проект Яндекса
© 2025 ООО «Яндекс.Облако»