Подключение к кластеру Apache Spark™
Статья создана
Обновлена 18 ноября 2025 г.
В этом разделе представлены настройки для подключения к кластеру Yandex Managed Service for Apache Spark™ с помощью Spark Connect
Подключение с помощью Spark Connect
-
Создайте IAM-токен и сохраните его в переменной окружения:
export TOKEN=$(yc iam create-token) -
Создайте задание SparkConnect без указания параметров в вашем кластере.
-
Скопируйте эндпоинт Spark Connect Server созданного задания для подключения.
Эндпоинт можно получить с информацией о задании. Его значение указано в поле URL подключения в консоли управления или в поле
connect_urlв CLI и API. -
Установите пакет
pysparkи необходимые зависимости в вашем окружении с помощью менеджера пакетов pip .Примечание
В настоящее время поддерживается подключение только с версией PySpark
3.5.6. -
Выполните код для подключения к кластеру:
import os from pyspark.sql import SparkSession url_spark = "<эндпоинт_для_подключения_к_кластеру>" TOKEN = os.environ.get("TOKEN") spark = SparkSession.builder.remote(f"{url_spark}/;use_ssl=true;token={TOKEN}").getOrCreate() df = spark.createDataFrame([(1, "Sarah"), (2, "Maria")]).toDF(*["id", "name"]) df.show()Результат:
+---+-----+ | id| name| +---+-----+ | 1|Sarah| | 2|Maria| +---+-----+