Yandex Cloud
Поиск
Связаться с намиПодключиться
  • Истории успеха
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
    • Доступны в регионе
    • Инфраструктура и сеть
    • Платформа данных
    • Контейнеры
    • Инструменты разработчика
    • Бессерверные вычисления
    • Безопасность
    • Мониторинг и управление ресурсами
    • ИИ для бизнеса
    • Бизнес-инструменты
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Партнёрская программа
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Тарифы Yandex Cloud
    • Промоакции и free tier
    • Правила тарификации
  • Истории успеха
  • Документация
  • Блог
Проект Яндекса
© 2025 ТОО «Облачные Сервисы Казахстан»
Yandex Managed Service for Apache Spark™
  • Начало работы
    • Все руководства
    • Автоматизация работы с помощью Yandex Managed Service for Apache Airflow™
    • Работа с таблицей в Object Storage из PySpark-задания
    • Интеграция Yandex Managed Service for Apache Spark™ и Apache Hive™ Metastore
    • Запуск PySpark-задания с помощью Yandex Managed Service for Apache Airflow™
    • Использование Yandex Object Storage в Managed Service for Apache Spark™
  • Управление доступом
  • Правила тарификации
  • Метрики Yandex Monitoring
  • Справочник Terraform
  • История изменений

В этой статье:

  • Необходимые платные ресурсы
  • Подготовьте инфраструктуру
  • Подготовьте PySpark-задание
  • Проверьте результат
  • Удалите созданные ресурсы
  1. Практические руководства
  2. Использование Yandex Object Storage в Managed Service for Apache Spark™

Использование Yandex Object Storage в Managed Service for Apache Spark™

Статья создана
Yandex Cloud
Обновлена 2 сентября 2025 г.
  • Необходимые платные ресурсы
  • Подготовьте инфраструктуру
  • Подготовьте PySpark-задание
  • Проверьте результат
  • Удалите созданные ресурсы

Важно

Часть ресурсов, необходимых для прохождения практического руководства, доступны только в регионе Россия.

В бакетах Yandex Object Storage можно хранить как файлы, необходимые для выполнения заданий в кластере Yandex Managed Service for Apache Spark™, так и результаты выполнения заданий.

Для использования Object Storage в сервисе Managed Service for Apache Spark™:

  1. Подготовьте инфраструктуру.
  2. Подготовьте PySpark-задание.
  3. Проверьте результат.

Если созданные ресурсы вам больше не нужны, удалите их.

Необходимые платные ресурсыНеобходимые платные ресурсы

В стоимость поддержки описываемого решения входят:

  • Плата за бакеты Object Storage: использование хранилища и выполнение операций с данными (см. тарифы Object Storage).
  • Плата за сервис Cloud Logging: объем записываемых данных и время их хранения (см. тарифы Cloud Logging).

Подготовьте инфраструктуруПодготовьте инфраструктуру

Консоль управления
  1. Создайте сервисный аккаунт spark-agent для кластера Apache Spark™ с ролью managed-spark.integrationProvider — чтобы кластер Apache Spark™ мог взаимодействовать с другими ресурсами.

  2. Создайте бакеты:

    • <бакет_для_исходного_кода_PySpark_задания>.
    • <бакет_для_выходных_данных_PySpark_задания>.
  3. Предоставьте разрешения для сервисного аккаунта spark-agent на созданные бакеты:

    • <бакет_для_исходного_кода_PySpark_задания> — разрешение READ.
    • <бакет_для_выходных_данных_PySpark_задания> — разрешение READ и WRITE.
  4. Создайте облачную сеть с именем spark-network.

    Вместе с ней автоматически будут созданы три подсети в разных зонах доступности.

  5. Создайте кластер Managed Service for Apache Spark™ с параметрами:

    • Сервисный аккаунт — spark-agent.
    • Сеть — spark-network.
    • Подсеть — spark-network-kz1-a.

Подготовьте PySpark-заданиеПодготовьте PySpark-задание

Для PySpark-задания будет использован Python-скрипт, который хранится в бакете Object Storage и создает таблицу table_1 в БД database_1. Подготовьте файл скрипта:

Консоль управления
  1. Создайте локально файл с именем job_save_table.py и скопируйте в него скрипт:

    job_save_table.py
    import random
    import sys
    from pyspark.sql import SparkSession
    
    
    def prepare_table(spark, database, table):
        create_database_sql = "create database if not exists {database}"
        create_table_sql = """
        create table if not exists {database}.{table} (
            id int,
            value double
        )
        """
        truncate_table_sql = "truncate table {database}.{table}"
    
        spark.sql(create_database_sql.format(database=database))
        spark.sql(create_table_sql.format(database=database, table=table))
        spark.sql(truncate_table_sql.format(database=database, table=table))
    
    
    def write_data(spark, database, table):
        data = [(i, random.random()) for i in range(100_000)]
        # Создание датафрейма
        df = spark.createDataFrame(data, schema=['id', 'value'])
        table_full_name = "{database}.{table}".format(database=database, table=table)
        df.write.mode('overwrite').format('json').saveAsTable(table_full_name)
    
    
    def main():
        # Создание Spark-сессии
        spark = (
            SparkSession
            .builder
            .appName('job_save_table')
            .config('spark.executor.instances', 1)
            .config('spark.sql.warehouse.dir', sys.argv[1])
            .config('spark.sql.catalogImplementation', 'hive')
            .getOrCreate()
        )
        database, table = 'database_1', 'table_1'
        prepare_table(spark, database, table)
        write_data(spark, database, table)
    
    
    if __name__ == '__main__':
        if len(sys.argv) != 2:
            print("Usage: job-save-table s3a://<bucket>/<folder>", file=sys.stderr)
            sys.exit(-1)
        main()
    
    
  2. Создайте в бакете <бакет_для_исходного_кода_PySpark_задания> папку scripts и загрузите в нее файл job_save_table.py.

  3. Создайте задание с параметрами:

    • Тип задания — PySpark.
    • Main python файл – s3a://<бакет_для_исходного_кода_PySpark_задания>/scripts/job_save_table.py.
    • Аргументы — s3a://<бакет_для_выходных_данных_PySpark_задания>/warehouse

Проверьте результатПроверьте результат

Консоль управления
  1. Перейдите на страницу каталога и выберите сервис Managed Service for Apache Spark.
  2. Нажмите на имя нужного кластера и выберите вкладку Задания.
  3. Дождитесь, когда созданное PySpark-задание перейдет в статус Done.
  4. Убедитесь, что в бакете <бакет_для_выходных_данных_PySpark_задания> в папке warehouse появилась БД database_1. Теперь данные из созданной БД хранятся в бакете Object Storage в формате JSON.

Удалите созданные ресурсыУдалите созданные ресурсы

Некоторые ресурсы платные. Удалите ресурсы, которые вы больше не будете использовать, чтобы не платить за них:

Консоль управления
  1. Бакеты Object Storage.
  2. Кластер Apache Spark™.

Была ли статья полезна?

Предыдущая
Запуск PySpark-задания с помощью Yandex Managed Service for Apache Airflow™
Следующая
Взаимосвязь ресурсов сервиса
Проект Яндекса
© 2025 ТОО «Облачные Сервисы Казахстан»