Коннектор Spark
DataSphere позволяет обрабатывать большие объемы данных на кластерах Yandex Data Processing. С помощью коннектора Spark вы можете как использовать уже имеющиеся кластеры Yandex Data Processing, так и создавать временные кластеры.
Коннектор Spark — это специальный ресурс, который хранит настройки подключения и взаимодействия с существующими и временными кластерами Yandex Data Processing. Выбранные кластеры автоматически подключаются или создаются при запуске вычислений в IDE. При создании ресурса вы также можете указать данные для подключения к объектному хранилищу S3.
Информация о коннекторе Spark как ресурсе
О каждом коннекторе Spark хранится следующая информация:
- уникальный идентификатор ресурса;
- создатель ресурса;
- дата создания и дата последнего изменения в формате в UTC
, например22 апр. 2024 г., 13:21
. - конфигурация кластера Yandex Data Processing;
- настройки для подключения к S3.
Работа с коннектором Spark
Создать коннектор Spark можно в интерфейсе DataSphere
Коннекторы Spark используются в ноутбуках проекта. При первом запуске вычислений вы выбираете конфигурацию, на которой будет выполняться код ноутбука. Эта ВМ располагается в сети, указанной в коннекторе Spark, поэтому она имеет сетевой доступ к кластеру Yandex Data Processing, однако не принадлежит кластеру. По умолчанию код ячейки ноутбука будет выполняться на ВМ. Для выполнения кода на кластере Yandex Data Processing необходимо явно задать это при вызове (например, через SparkContext::runJob
).
Окружение ВМ для работы с кластером отличается от стандартного окружения DataSphere и позволяет получить доступ к окружению кластера Yandex Data Processing. При этом вы также можете использовать сессии для работы с кластером.
После создания коннектор Spark доступен для проекта. Как и любой другой ресурс, коннектор Spark можно опубликовать в сообществе, чтобы использовать его в других проектах. Для этого вам минимально необходимы роли Editor
в проекте и Developer
в сообществе, в котором вы хотите его опубликовать. Открыть доступ можно на вкладке Доступ на странице просмотра коннектора Spark. Ресурс, доступный для сообщества, появится на странице сообщества в разделе Ресурсы сообщества.
Если при создании коннектора Spark вы выбрали временный кластер Yandex Data Processing, DataSphere создаст кластер Yandex Data Processing при первом запуске вычислений в ноутбуке и будет самостоятельно следить за ним. Кластер запускается и останавливается вместе с ВМ ноутбука. Кластер будет удален, если на нем не будет вычислений в течение времени, указанного в параметре Остановить простаивающую ВМ через, или если принудительно остановить ВМ ноутбука.
Конфигурации временных кластеров
Временные кластеры Yandex Data Processing разворачиваются на базе виртуальных машин Yandex Compute Cloud на платформе Intel Cascade Lake (standard-v2
).
Необходимый суммарный объем дисков для разных конфигураций кластеров можно рассчитать по формуле:
<количество_хостов_Yandex_Data_Processing> × 256 + 128
Тип кластера | Количество хостов | Объем дисков | Параметры хоста |
---|---|---|---|
XS | 1 | 384 ГБ HDD | 4 vCPU, 16 ГБ RAM |
S | 4 | 1152 ГБ SSD | 4 vCPU, 16 ГБ RAM |
M | 8 | 2176 ГБ SSD | 16 vCPU, 64 ГБ RAM |
L | 16 | 4224 ГБ SSD | 16 vCPU, 64 ГБ RAM |
XL | 32 | 8320 ГБ SSD | 16 vCPU, 64 ГБ RAM |
Совет
Перед запуском проекта с коннектором Spark для создания временного кластера Yandex Data Processing убедитесь, что квоты
Работа временных кластеров, созданных из шаблонов Yandex Data Processing, тарифицируется дополнительно по правилам тарификации Yandex Data Processing.