Коннектор Spark
DataSphere позволяет обрабатывать большие объемы данных на кластерах Yandex Data Proc. С помощью коннектора Spark вы можете как использовать уже имеющиеся кластеры Yandex Data Proc, так и создавать временные кластеры.
Коннектор Spark — это специальный ресурс, который хранит настройки подключения и взаимодействия с существующими и временными кластерами Yandex Data Proc. Выбранные кластеры автоматически подключаются или создаются при запуске вычислений в IDE. При создании ресурса вы также можете указать данные для подключения к объектному хранилищу S3.
Информация о коннекторе Spark как ресурсе
О каждом коннекторе Spark хранится следующая информация:
- уникальный идентификатор ресурса;
- создатель ресурса;
- дата создания и дата последнего изменения в формате в UTC
, например22 апр. 2024 г., 13:21
. - конфигурация кластера Yandex Data Proc;
- настройки для подключения к S3.
Работа с коннектором Spark
Создать коннектор Spark можно в интерфейсе DataSphere
Коннекторы Spark используются в ноутбуках проекта. При первом запуске вычислений вы выбираете конфигурацию, на которой будет выполняться код ноутбука. Эта ВМ располагается в сети, указанной в коннекторе Spark, поэтому она имеет сетевой доступ к кластеру Yandex Data Proc, однако не принадлежит кластеру. По умолчанию код ячейки ноутбука будет выполняться на ВМ. Для выполнения кода на кластере Yandex Data Proc необходимо явно задать это при вызове (например, через SparkContext::runJob
).
Окружение ВМ для работы с кластером отличается от стандартного окружения DataSphere и позволяет получить доступ к окружению кластера Yandex Data Proc. При этом вы также можете использовать сессии для работы с кластером.
После создания коннектор Spark доступен для проекта. Как и любой другой ресурс, коннектор Spark можно опубликовать в сообществе, чтобы использовать его в других проектах. Для этого вам минимально необходимы роли Editor
в проекте и Developer
в сообществе, в котором вы хотите его опубликовать. Открыть доступ можно на вкладке Доступ на странице просмотра коннектора Spark. Ресурс, доступный для сообщества, появится на странице сообщества в разделе Ресурсы сообщества.
Если при создании коннектора Spark вы выбрали временный кластер Yandex Data Proc, DataSphere создаст кластер Yandex Data Proc при первом запуске вычислений в ноутбуке и будет самостоятельно следить за ним. Кластер запускается и останавливается вместе с ВМ ноутбука. Кластер будет удален, если на нем не будет вычислений в течение времени, указанного в параметре Остановить простаивающую ВМ через, или если принудительно остановить ВМ ноутбука.
Конфигурации временных кластеров
Временные кластеры Yandex Data Proc разворачиваются на базе виртуальных машин Yandex Compute Cloud на платформе Intel Cascade Lake (standard-v2
).
Необходимый суммарный объем дисков для разных конфигураций кластеров можно рассчитать по формуле:
<количество_хостов_Data_Proc> × 256 + 128
Тип кластера | Количество хостов | Объем дисков | Параметры хоста |
---|---|---|---|
XS | 1 | 384 ГБ HDD | 4 vCPU, 16 ГБ RAM |
S | 4 | 1152 ГБ SSD | 4 vCPU, 16 ГБ RAM |
M | 8 | 2176 ГБ SSD | 16 vCPU, 64 ГБ RAM |
L | 16 | 4224 ГБ SSD | 16 vCPU, 64 ГБ RAM |
XL | 32 | 8320 ГБ SSD | 16 vCPU, 64 ГБ RAM |
Совет
Перед запуском проекта с коннектором Spark для создания временного кластера Yandex Data Proc убедитесь, что квоты
Работа временных кластеров, созданных из шаблонов Yandex Data Proc, тарифицируется дополнительно по правилам тарификации Yandex Data Proc.