Yandex Cloud
Поиск
Связаться с экспертомПопробовать бесплатно
  • Кейсы
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
  • Marketplace
    • Доступны в регионе
    • Инфраструктура и сеть
    • Платформа данных
    • Искусственный интеллект
    • Безопасность
    • Инструменты DevOps
    • Бессерверные вычисления
    • Управление ресурсами
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Партнёрская программа
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Калькулятор цен
    • Тарифы
    • Акции и free tier
  • Кейсы
  • Документация
  • Блог
Создавайте контент и получайте гранты!Готовы написать своё руководство? Участвуйте в контент-программе и получайте гранты на работу с облачными сервисами!
Подробнее о программе
Проект Яндекса
© 2026 ТОО «Облачные Сервисы Казахстан»
Yandex Data Processing
RU
  • Начало работы
    • Все руководства
        • Использование Object Storage в Yandex Data Processing
        • Импорт данных из Object Storage, обработка и экспорт в Managed Service for ClickHouse®
        • Монтирование бакетов к файловой системе хостов Yandex Data Processing
      • Обмен данными с Managed Service for ClickHouse®
      • Импорт данных из кластера Managed Service for MySQL® с помощью Sqoop
      • Импорт данных из кластера Managed Service for PostgreSQL с помощью Sqoop
      • Интеграция с сервисом DataSphere
      • Работа с топиками Apache Kafka® с помощью PySpark-заданий
      • Автоматизация работы с помощью Managed Service for Apache Airflow™
  • Управление доступом
  • Правила тарификации
  • Справочник Terraform
  • Метрики Monitoring
  • Аудитные логи Audit Trails
  • Публичные материалы
  • Вопросы и ответы
  • Обучающие курсы

В этой статье:

  • Перед началом работы
  • Необходимые платные ресурсы
  • Подготовьте инфраструктуру
  • Подготовьте скрипт инициализации
  • Создайте кластер, использующий скрипт инициализации
  • Проверьте доступность бакета
  • Удалите созданные ресурсы
  1. Практические руководства
  2. Интеграция Yandex Data Processing с другими сервисами
  3. Object Storage
  4. Монтирование бакетов к файловой системе хостов Yandex Data Processing

Монтирование бакетов Yandex Object Storage к файловой системе хостов Yandex Data Processing

Статья создана
Yandex Cloud
Обновлена 25 июня 2026 г.
  • Перед началом работы
    • Необходимые платные ресурсы
  • Подготовьте инфраструктуру
  • Подготовьте скрипт инициализации
  • Создайте кластер, использующий скрипт инициализации
  • Проверьте доступность бакета
  • Удалите созданные ресурсы

Важно

Часть ресурсов, необходимых для прохождения практического руководства, доступны только в регионе Россия.

В сервисе Yandex Data Processing вы можете использовать для настройки хостов скрипты инициализации (initialization actions).

С их помощью можно автоматизировать установку и настройку программы GeeseFS, позволяющей хостам кластера Yandex Data Processing монтировать бакеты Yandex Object Storage через FUSE.

Чтобы настроить GeeseFS:

  1. Подготовьте инфраструктуру.
  2. Подготовьте скрипт инициализации.
  3. Создайте кластер, использующий скрипт инициализации.
  4. Проверьте доступность бакета.

Если созданные ресурсы вам больше не нужны, удалите их.

Перед началом работыПеред началом работы

Зарегистрируйтесь в Yandex Cloud и создайте платежный аккаунт:

  1. Перейдите в консоль управления, затем войдите в Yandex Cloud или зарегистрируйтесь.
  2. На странице Yandex Cloud Billing убедитесь, что у вас подключен платежный аккаунт, и он находится в статусе ACTIVE или TRIAL_ACTIVE. Если платежного аккаунта нет, создайте его и привяжите к нему облако.

Если у вас есть активный платежный аккаунт, вы можете создать или выбрать каталог, в котором будет работать ваша инфраструктура, на странице облака.

Подробнее об облаках и каталогах.

Необходимые платные ресурсыНеобходимые платные ресурсы

  • Кластер Yandex Data Processing: использование вычислительных ресурсов с наценкой за сервис Yandex Data Processing, использование сетевых дисков, получение и хранение логов, объем исходящего трафика (тарифы Yandex Data Processing).
  • Публичные IP-адреса, если для хостов кластера включен публичный доступ (тарифы Yandex Virtual Private Cloud).
  • NAT-шлюз: почасовое использование шлюза и исходящий через него трафик (тарифы Virtual Private Cloud).
  • Бакет Object Storage: использование хранилища и выполнение операций с данными (тарифы Object Storage).

Подготовьте инфраструктуруПодготовьте инфраструктуру

Вручную
Terraform
  1. Создайте сервисный аккаунт с ролями dataproc.agent и dataproc.provisioner.

  2. Создайте бакет Object Storage.

  3. Предоставьте сервисному аккаунту доступ на чтение из бакета. Для этого воспользуйтесь одним из способов:

    • Настройте ACL бакета и выдайте сервисному аккаунту разрешение READ.

      Сервисный аккаунт получит доступ на чтение только к указанному бакету.

    • Назначьте сервисному аккаунту роль storage.viewer.

      Сервисный аккаунт получит доступ на чтение ко всем бакетам в каталоге.

  4. Создайте NAT-шлюз для подсети, в которой будет создан кластер Yandex Data Processing.

  1. Если у вас еще нет Terraform, установите его.

  2. Получите данные для аутентификации. Вы можете добавить их в переменные окружения или указать далее в файле с настройками провайдера.

  3. Настройте и инициализируйте провайдер. Чтобы не создавать конфигурационный файл с настройками провайдера вручную, скачайте его.

  4. Поместите конфигурационный файл в отдельную рабочую директорию и укажите значения параметров. Если данные для аутентификации не были добавлены в переменные окружения, укажите их в конфигурационном файле.

  5. Скачайте в ту же рабочую директорию файл конфигурации data-processing-init-actions-geesefs.tf.

    В этом файле описаны:

    • сеть;
    • подсеть;
    • таблица маршрутизации;
    • NAT-шлюз;
    • группа безопасности и правила, необходимые для подключения к кластеру Yandex Data Processing;
    • сервисный аккаунт с ролями, которые требуются для работы с бакетом Object Storage и кластером Yandex Data Processing;
    • статический ключ сервисного аккаунта для управления бакетом Object Storage;
    • бакет Object Storage;
    • кластер Yandex Data Processing.
  6. Укажите в файле data-processing-init-actions-geesefs.tf значения параметров:

    • dp_network_name — имя сети для кластера Yandex Data Processing;
    • dp_subnet_name — имя подсети для кластера Yandex Data Processing;
    • dp_sg_name — имя группы безопасности для кластера Yandex Data Processing;
    • dp_sa_folder_id — идентификатор каталога, в котором будет создана инфраструктура и кластер Yandex Data Processing;
    • dp_sa_name — имя сервисного аккаунта для кластера Yandex Data Processing и бакета Object Storage;
    • dp_bucket_name — имя бакета Object Storage;
    • dataproc_name — имя кластера Yandex Data Processing;
    • ssh-path — путь к файлу публичного SSH-ключа для кластера Yandex Data Processing.
  7. Проверьте корректность файлов конфигурации Terraform с помощью команды:

    terraform validate
    

    Если в файлах конфигурации есть ошибки, Terraform на них укажет.

  8. Создайте необходимую инфраструктуру:

    1. Выполните команду для просмотра планируемых изменений:

      terraform plan
      

      Если конфигурации ресурсов описаны верно, в терминале отобразится список изменяемых ресурсов и их параметров. Это проверочный этап: ресурсы не будут изменены.

    2. Если вас устраивают планируемые изменения, внесите их:

      1. Выполните команду:

        terraform apply
        
      2. Подтвердите изменение ресурсов.

      3. Дождитесь завершения операции.

    В указанном каталоге будут созданы все требуемые ресурсы. Проверить появление ресурсов и их настройки можно в консоли управления.

Подготовьте скрипт инициализацииПодготовьте скрипт инициализации

  1. Создайте файл скрипта инициализации geesefs_mount.sh, принимающий два позиционных аргумента — имя бакета Object Storage и директорию в файловой системе хоста, куда он должен быть смонтирован.

    #!/bin/bash
    
    set -e
    
    BUCKET=$1
    MOUNT_POINT=$2
    
    # Загрузка GeeseFS
    wget https://github.com/yandex-cloud/geesefs/releases/latest/download/geesefs-linux-amd64 -O /opt/geesefs
    chmod a+rwx /opt/geesefs
    mkdir -p "${MOUNT_POINT}"
    
    # Подготовка скрипта, выполняющегося при каждой загрузке
    BOOT_SCRIPT="/var/lib/cloud/scripts/per-boot/80-geesefs-mount.sh"
    echo "#!/bin/bash" >> ${BOOT_SCRIPT}
    echo "/opt/geesefs -o allow_other --iam ${BUCKET} ${MOUNT_POINT}" >> ${BOOT_SCRIPT}
    chmod 755 ${BOOT_SCRIPT}
    
    # Запуск скрипта
    ${BOOT_SCRIPT}
    
  2. Загрузите файл geesefs_mount.sh в созданный ранее бакет Object Storage.

Создайте кластер, использующий скрипт инициализацииСоздайте кластер, использующий скрипт инициализации

Вручную
Terraform

Создайте кластер Yandex Data Processing со следующими параметрами:

  • В поле Версия выберите версию 2.0.

  • В поле Сервисный аккаунт выберите сервисный аккаунт, созданный ранее.

  • В поле Пользовательские скрипты нажмите кнопку Добавить и задайте параметры скрипта:

    • В поле URI укажите путь к файлу скрипта в бакете, например:

      s3a://<имя_бакета>/geesefs_mount.sh
      
    • В поле Аргументы укажите имя созданного ранее бакета и точку монтирования /mnt/test. Аргументы указываются на отдельных строках:

      <имя_бакета>
      /mnt/test
      
  • В поле Имя бакета выберите бакет, созданный ранее.

  • В меню Подкластеры включите в настройках опцию Публичный доступ.

    Примечание

    Публичный доступ к хостам кластера нужен, если вы планируете подключаться к кластеру через интернет. Этот вариант подключения более простой, и его рекомендуется использовать для прохождения руководства. К хостам без публичного доступа тоже можно подключиться, но только с виртуальных машин Yandex Cloud, расположенных в той же облачной сети, что и кластер.

  1. В файле data-processing-init-actions-geesefs.tf укажите значение переменной create_cluster = 1.

  2. Проверьте корректность файлов конфигурации Terraform с помощью команды:

    terraform validate
    

    Если в файлах конфигурации есть ошибки, Terraform на них укажет.

  3. Создайте необходимую инфраструктуру:

    1. Выполните команду для просмотра планируемых изменений:

      terraform plan
      

      Если конфигурации ресурсов описаны верно, в терминале отобразится список изменяемых ресурсов и их параметров. Это проверочный этап: ресурсы не будут изменены.

    2. Если вас устраивают планируемые изменения, внесите их:

      1. Выполните команду:

        terraform apply
        
      2. Подтвердите изменение ресурсов.

      3. Дождитесь завершения операции.

    В указанном каталоге будут созданы все требуемые ресурсы. Проверить появление ресурсов и их настройки можно в консоли управления.

Проверьте доступность бакетаПроверьте доступность бакета

  1. После того, как кластер перейдет в статус Alive, подключитесь по SSH от имени пользователя ubuntu к любому из его хостов.

  2. Чтобы убедиться в успешном монтировании бакета, выполните команду:

    ls /mnt/test
    

    В результате будет выведен список объектов, хранящихся в корневом каталоге бакета. В данном случае — имя файла geesefs_mount.sh.

Удалите созданные ресурсыУдалите созданные ресурсы

Совет

Перед удалением инфраструктуры удалите вручную все объекты из бакета.

Некоторые ресурсы платные. Чтобы за них не списывалась плата, удалите ресурсы, которые вы больше не будете использовать:

Вручную
Terraform
  1. Удалите кластер Yandex Data Processing.
  2. Если для доступа к хостам кластера использовались статические публичные IP-адреса, освободите и удалите их.
  3. Удалите бакет Object Storage.
  4. Удалите сервисный аккаунт.
  1. В терминале перейдите в рабочую директорию с конфигурационным файлом data-processing-init-actions-geesefs.tf.

  2. Удалите ресурсы с помощью команды:

    terraform destroy
    
  3. Введите слово yes и нажмите Enter.

    Все ресурсы, которые были описаны в конфигурационном файле data-processing-init-actions-geesefs.tf, будут удалены.

Была ли статья полезна?

Предыдущая
Импорт данных из Object Storage, обработка и экспорт в Managed Service for ClickHouse®
Следующая
Совместная работа с таблицами с использованием Apache Hive™ Metastore
Создавайте контент и получайте гранты!Готовы написать своё руководство? Участвуйте в контент-программе и получайте гранты на работу с облачными сервисами!
Подробнее о программе
Проект Яндекса
© 2026 ТОО «Облачные Сервисы Казахстан»