Yandex Cloud
Поиск
Связаться с намиПопробовать бесплатно
  • Кейсы
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
  • Marketplace
    • Доступны в регионе
    • Инфраструктура и сеть
    • Платформа данных
    • Искусственный интеллект
    • Безопасность
    • Инструменты DevOps
    • Бессерверные вычисления
    • Управление ресурсами
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Партнёрская программа
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Калькулятор цен
    • Тарифы
    • Акции и free tier
  • Кейсы
  • Документация
  • Блог
Создавайте контент и получайте гранты!Готовы написать своё руководство? Участвуйте в контент-программе и получайте гранты на работу с облачными сервисами!
Подробнее о программе
Проект Яндекса
© 2026 ТОО «Облачные Сервисы Казахстан»
Практические руководства
    • Все руководства
      • Анализ данных с помощью Query
      • Работа с данными в Object Storage
      • Работа с данными в Managed Service for ClickHouse®
      • Работа с данными в Managed Service for PostgreSQL
      • Федеративные запросы к данным
      • Использование сервиса Managed Service for Apache Spark™

В этой статье:

  • Перед началом работы
  • Необходимые платные ресурсы
  • Подготовьте инфраструктуру
  • Создайте каталог
  • Создайте сеть
  • Создайте и настройте NAT-шлюз для доступа в интернет
  • Создайте сервисный аккаунт кластера
  • Настройте DataSphere
  • Создайте проект
  • Измените настройки проекта
  • Создайте кластер Managed Service for Apache Spark™ и коннектор Spark
  • Запустите вычисления
  • Удалите созданные ресурсы
  1. Построение Data Platform
  2. Интеграция Yandex Managed Service for Apache Spark™ и DataSphere

Использование сервиса Yandex Managed Service for Apache Spark™ в Yandex DataSphere

Статья создана
Yandex Cloud
Обновлена 22 апреля 2026 г.
  • Перед началом работы
    • Необходимые платные ресурсы
  • Подготовьте инфраструктуру
    • Создайте каталог
    • Создайте сеть
    • Создайте и настройте NAT-шлюз для доступа в интернет
    • Создайте сервисный аккаунт кластера
  • Настройте DataSphere
    • Создайте проект
    • Измените настройки проекта
  • Создайте кластер Managed Service for Apache Spark™ и коннектор Spark
  • Запустите вычисления
  • Удалите созданные ресурсы

В DataSphere вы можете использовать кластеры Apache Spark™, развернутые в сервисе Yandex Managed Service for Apache Spark™. Подключение кластеров Apache Spark™ выполняется с помощью коннекторов Spark. Для выполнения вычислений в кластере запускается задание с типом SparkConnect.

Чтобы в DataSphere настроить интеграцию с сервисом Managed Service for Apache Spark™:

  1. Подготовьте инфраструктуру.
  2. Настройте проект DataSphere.
  3. Создайте кластер Managed Service for Apache Spark™ и коннектор Spark.
  4. Запустите вычисления.

Если созданные ресурсы вам больше не нужны, удалите их.

Перед началом работыПеред началом работы

Перед началом работы нужно зарегистрироваться в Yandex Cloud, настроить сообщество и привязать к нему платежный аккаунт:

  1. На главной странице DataSphere нажмите Попробовать бесплатно и выберите аккаунт для входа — Яндекс ID или рабочий аккаунт в федерации (SSO).
  2. Выберите организацию Yandex Identity Hub, в которой вы будете работать в Yandex Cloud.
  3. Создайте сообщество.
  4. Привяжите платежный аккаунт к сообществу DataSphere, в котором вы будете работать. Убедитесь, что у вас подключен платежный аккаунт, и он находится в статусе ACTIVE или TRIAL_ACTIVE. Если платежного аккаунта нет, создайте его в интерфейсе DataSphere.

Необходимые платные ресурсыНеобходимые платные ресурсы

  • Кластер Managed Service for Apache Spark™: вычислительные ресурсы компонентов кластера (см. тарифы Managed Service for Apache Spark™).
  • NAT-шлюз: почасовое использование шлюза и исходящий через него трафик (см. тарифы Virtual Private Cloud).

Подготовьте инфраструктуруПодготовьте инфраструктуру

Создайте каталогСоздайте каталог

Создайте каталог, в котором будет работать ваш кластер Apache Spark™.

Консоль управления
  1. В консоли управления выберите облако и нажмите Создать каталог.
  2. Введите имя каталога, например data-folder.
  3. Отключите опцию Создать сеть по умолчанию, чтобы создать сеть и подсети вручную.
  4. Нажмите Создать.

Подробнее об облаках и каталогах.

Создайте сетьСоздайте сеть

Создайте сеть, в которой будет работать кластер Apache Spark™.

Консоль управления
  1. В консоли управления перейдите в каталог data-folder, созданный ранее.

  2. В списке сервисов выберите Virtual Private Cloud.

  3. В правом верхнем углу нажмите Создать сеть.

  4. В поле Имя укажите имя сети data-network.

    Вместе с ней автоматически будут созданы три подсети в разных зонах доступности.

  5. Нажмите Создать сеть.

Создайте и настройте NAT-шлюз для доступа в интернетСоздайте и настройте NAT-шлюз для доступа в интернет

Консоль управления
  1. В каталоге data-folder выберите сервис Virtual Private Cloud.
  2. На панели слева выберите Шлюзы.
  3. Нажмите Создать и задайте настройки шлюза:
    1. Введите имя шлюза, например nat-for-cluster.
    2. Выберите Тип шлюза — NAT-шлюз.
    3. Нажмите Сохранить.
  4. На панели слева выберите Таблицы маршрутизации.
  5. Нажмите Создать и введите параметры таблицы маршрутизации:
    1. Введите имя, например route-table.
    2. Выберите сеть data-network.
    3. Нажмите Добавить маршрут.
    4. В открывшемся окне в поле Next hop выберите Шлюз.
    5. В поле Шлюз выберите созданный NAT-шлюз. Префикс назначения заполнится автоматически.
    6. Нажмите Добавить.
    7. Нажмите Создать таблицу маршрутизации.
  6. Привяжите таблицу маршрутизации к одной из подсетей, чтобы направить трафик из нее через NAT-шлюз:
    1. На панели слева выберите Подсети.
    2. В строке нужной подсети нажмите .
    3. В открывшемся меню выберите пункт Привязать таблицу маршрутизации.
    4. В открывшемся окне выберите созданную таблицу в списке.
    5. Нажмите Привязать.

Создайте сервисный аккаунт кластераСоздайте сервисный аккаунт кластера

Консоль управления
  1. Перейдите в каталог data-folder.

  2. В списке сервисов выберите Identity and Access Management.

  3. Нажмите кнопку Создать сервисный аккаунт.

  4. Введите имя сервисного аккаунта, например sa-for-spark.

  5. Нажмите Добавить роль и назначьте сервисному аккаунту роли:

    • managed-spark.user — для использования кластеров Apache Spark™.
    • dataproc.agent — для получения информации о заданиях.
    • dataproc.user — для запуска заданий в кластерах Apache Spark™.
    • vpc.user — для работы с сетью кластера Apache Spark™.
    • iam.serviceAccounts.user — для создания ресурсов в каталоге от имени сервисного аккаунта.
  6. Нажмите Создать.

Настройте DataSphereНастройте DataSphere

Чтобы работать с кластерами Apache Spark™ в DataSphere, создайте и настройте проект.

Создайте проектСоздайте проект

  1. Откройте главную страницу DataSphere.
  2. На панели слева выберите Сообщества.
  3. Выберите сообщество, в котором вы хотите создать проект.
  4. На странице сообщества нажмите кнопку Создать проект.
  5. В открывшемся окне укажите имя и (опционально) описание проекта.
  6. Нажмите кнопку Создать.

Измените настройки проектаИзмените настройки проекта

  1. Перейдите на вкладку Настройки.

  2. В блоке Расширенные настройки нажмите кнопку Редактировать.

  3. Укажите параметры:

    • Каталог по умолчанию — data-folder.

    • Сервисный аккаунт — sa-for-spark.

    • Подсеть — подсеть data-network-kz1-a.

      Примечание

      Если вы указали подсеть в настройках проекта, подготовка ВМ при первом запуске вычислений может занять больше времени.

    • Группы безопасности, если они используются в вашей организации.

  4. Нажмите Сохранить.

Создайте кластер Managed Service for Apache Spark™ и коннектор SparkСоздайте кластер Managed Service for Apache Spark™ и коннектор Spark

  1. Создайте кластер Managed Service for Apache Spark™ любой подходящей конфигурации с параметрами:

    • Сервисный аккаунт — sa-for-spark.
    • Сеть — data-network.
    • Подсеть — data-network-kz1-a.
  2. Перейдите в рабочее пространство DataSphere.

  3. На панели слева выберите Сообщества.

  4. Откройте сообщество, в котором вы создали проект, и выберите нужный проект.

  5. В блоке Ресурсы проекта нажмите Коннектор Spark.

  6. Нажмите Создать коннектор.

  7. В поле Имя задайте имя коннектора. Формат имени:

    • Длина — от 3 до 63 символов.
    • Может содержать строчные и заглавные буквы латинского и русского алфавита, цифры, дефисы, подчеркивания и пробелы.
    • Первый символ должен быть буквой. Последний символ не может быть дефисом, подчеркиванием или пробелом.
  8. В блоке Кластер Yandex Data Processing:

    1. Нажмите на плитку Выберите кластер.
    2. Выберите из списка созданный ранее кластер Managed Service for Apache Spark™.
  9. (Опционально) Чтобы использовать бакет Object Storage в вычислениях, в блоке Настройки S3 укажите идентификатор статического ключа доступа и секрет, в котором хранится секретная часть статического ключа.

  10. В блоке Настройки Spark укажите параметры задания SparkConnect:

    • Чтобы использовать стандартные настройки кластера Apache Spark™ при выполнении вычислений, выберите опцию Использовать настройки по умолчанию.
    • Чтобы вручную дополнить или изменить параметры задания, укажите один или несколько параметров Ключ и Значение.
  11. Нажмите Создать. Откроется страница с информацией о созданном коннекторе.

Запустите вычисленияЗапустите вычисления

  1. Откройте проект DataSphere:

    1. Выберите нужный проект в своем сообществе или на главной странице DataSphere во вкладке Недавние проекты.

    2. Нажмите кнопку Открыть проект в JupyterLab и дождитесь окончания загрузки.
    3. Откройте вкладку с ноутбуком.
  2. В ячейку вставьте код для вычисления, например:

    df = spark.createDataFrame([(1, "Sarah"), (2, "Maria")]).toDF(*["id", "name"])
    df.show()
    
  3. Выберите в меню Run → Run Selected Cells или используйте сочетание клавиш Shift + Enter.

  4. В открывшемся окне Конфигурации ВМ ноутбука перейдите на вкладку Для кластера Yandex Data Processing.

  5. Выберите необходимую конфигурацию и коннектор.

  6. Нажмите Выбрать.

    В ноутбуке через переменную spark станет доступна локальная сессия PySpark. В кластере Apache Spark™ будет создано и запущено задание SparkConnect для выполнения кода ячеек ноутбука.

Чтобы завершить задание в кластере Apache Spark™, остановите ВМ ноутбука.

Удалите созданные ресурсыУдалите созданные ресурсы

Некоторые ресурсы платные. Чтобы за них не списывалась плата, удалите ресурсы, которые вы больше не будете использовать:

  1. Кластер Managed Service for Apache Spark™.
  2. NAT-шлюз.

Была ли статья полезна?

Предыдущая
Использование Yandex Object Storage в Yandex Managed Service for Apache Spark™
Следующая
Использование секрета Yandex Lockbox в PySpark-задании для подключения к Yandex Managed Service for PostgreSQL
Создавайте контент и получайте гранты!Готовы написать своё руководство? Участвуйте в контент-программе и получайте гранты на работу с облачными сервисами!
Подробнее о программе
Проект Яндекса
© 2026 ТОО «Облачные Сервисы Казахстан»