Yandex Cloud
Поиск
Связаться с намиПодключиться
  • Истории успеха
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
    • Популярные
    • Инфраструктура и сеть
    • Платформа данных
    • Контейнеры
    • Инструменты разработчика
    • Бессерверные вычисления
    • Безопасность
    • Мониторинг и управление ресурсами
    • ИИ для бизнеса
    • Бизнес-инструменты
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Облако для интеграторов
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Контент-программа
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Калькулятор цен
    • Тарифы
    • Промоакции и free tier
    • Правила тарификации
  • Истории успеха
  • Документация
  • Блог
Проект Яндекса
© 2025 ООО «Яндекс.Облако»
Yandex Managed Service for Apache Spark™
  • Начало работы
  • Управление доступом
  • Правила тарификации
  • Метрики Yandex Monitoring
  • Справочник Terraform
  • История изменений

В этой статье:

  • Необходимые платные ресурсы
  • Подготовьте облако к работе
  • Подготовьте инфраструктуру
  • Создайте кластер
  • Подготовьте задание PySpark
  • Запустите задание PySpark
  • Проверьте выполнение задания

Как начать работать с Yandex Managed Service for Apache Spark™

Статья создана
Yandex Cloud
Улучшена
Danila N.
Обновлена 27 ноября 2025 г.
  • Необходимые платные ресурсы
  • Подготовьте облако к работе
  • Подготовьте инфраструктуру
  • Создайте кластер
  • Подготовьте задание PySpark
  • Запустите задание PySpark
  • Проверьте выполнение задания

Чтобы начать работу с сервисом:

  • Подготовьте облако к работе.
  • Подготовьте инфраструктуру.
  • Создайте кластер.
  • Подготовьте задание PySpark.
  • Запустите задание в кластере.
  • Проверьте выполнение задания.

Необходимые платные ресурсыНеобходимые платные ресурсы

В стоимость поддержки инфраструктуры входит плата за использование бакета Yandex Object Storage (см. тарифы Object Storage).

Подготовьте облако к работеПодготовьте облако к работе

  1. Перейдите в консоль управления, затем войдите в Yandex Cloud или зарегистрируйтесь, если вы еще не зарегистрированы.

  2. Если у вас еще нет каталога, создайте его:

    1. В консоли управления на панели сверху нажмите и выберите нужное облако.

    2. Справа от названия облака нажмите .

    3. Выберите Создать каталог.

      create-folder1

    4. Введите имя каталога. Требования к имени:

      • длина — от 2 до 63 символов;
      • может содержать строчные буквы латинского алфавита, цифры и дефисы;
      • первый символ — буква, последний — не дефис.
    5. (Опционально) Введите описание каталога.

    6. Выберите опцию Создать сеть по умолчанию. Будет создана сеть с подсетями в каждой зоне доступности. Также в этой сети будет создана группа безопасности по умолчанию, внутри которой весь сетевой трафик разрешен.

    7. Нажмите кнопку Создать.

      create-folder2

  3. Назначьте вашему аккаунту в Yandex Cloud роли:

    • managed-spark.admin — чтобы создать кластер;
    • vpc.user — чтобы работать с сетью кластера;
    • iam.serviceAccounts.user — чтобы привязать сервисный аккаунт к кластеру.

    Примечание

    Если вы не можете управлять ролями, обратитесь к администратору вашего облака или организации.

Подготовьте инфраструктуруПодготовьте инфраструктуру

  1. Создайте сервисный аккаунт и назначьте ему роли:

    • managed-spark.integrationProvider — для взаимодействия Yandex Managed Service for Apache Spark™ с другими сервисами (например для отправки логов и метрик).
    • storage.editor — для доступа к файлам с PySpark-заданиями в бакете Object Storage.
  2. Создайте бакет Object Storage.

  3. Предоставьте сервисному аккаунту доступ к бакету Object Storage, в котором будут храниться код и данные для заданий на кластере:

    1. В консоли управления выберите нужный каталог.
    2. В списке сервисов выберите Object Storage.
      1. Откройте созданный ранее бакет.

      2. Перейдите в раздел Объекты.

      3. Нажмите на кнопку и выберите Настроить ACL.

      4. В открывшемся окне Редактирование ACL:

        1. Начните вводить имя созданного ранее сервисного аккаунта и выберите его из выпадающего списка.
        2. Выберите права доступа READ и WRITE .
        3. Нажмите кнопку Добавить.
        4. Нажмите кнопку Сохранить.

Создайте кластерСоздайте кластер

Консоль управления
  1. В консоли управления выберите каталог, в котором нужно создать кластер.

  2. Выберите сервис Managed Service for Apache Spark.

  3. Нажмите кнопку Создать кластер.

  4. Задайте имя кластера.

  5. В поле Сервисный аккаунт выберите созданный ранее сервисный аккаунт.

  6. В блоке Сетевые настройки выберите сеть, подсеть и группу безопасности для кластера.

  7. Задайте вычислительные ресурсы для хостов, на которых будут запускаться драйверы и исполнители.

  8. В блоке Дополнительные настройки настройте логирование:

    1. Включите настройку Запись логов.
    2. В поле Назначение выберите место записи логов — Каталог.
    3. В поле Каталог выберите ваш каталог из списка.
    4. Выберите Минимальный уровень логирования — INFO.
  9. Нажмите кнопку Создать.

  10. Дождитесь, когда кластер будет готов к работе: его статус на панели Yandex Managed Service for Apache Spark™ сменится на Running, а состояние — на Alive. Это может занять некоторое время.

Подготовьте задание PySparkПодготовьте задание PySpark

  1. Сохраните на локальный компьютер файл с кодом задания pi.py из репозитория Apache Spark™. Этот код вычисляет приблизительное значение числа Пи методом Монте-Карло.

  2. Загрузите файл в созданный ранее бакет Object Storage.

Запустите задание PySparkЗапустите задание PySpark

  1. В консоли управления откройте созданный ранее кластер.
  2. Перейдите в раздел Задания.
  3. Нажмите кнопку Создать задание.
  4. Выберите Тип задания — PySpark.
  5. В поле Main python файл введите путь к файлу pi.py в формате s3a://<имя_бакета_Object_Storage>/<имя_файла>.
  6. Нажмите кнопку Создать задание.

Проверьте выполнение заданияПроверьте выполнение задания

  1. Дождитесь, пока запущенное задание перейдет в статус Running.

  2. Перейдите на вкладку Логи.

  3. В логах найдите строку с результатом выполнения задания, например:

    Pi is roughly 3.144720
    

Была ли статья полезна?

Следующая
Все инструкции
Проект Яндекса
© 2025 ООО «Яндекс.Облако»