Yandex Cloud
Поиск
Связаться с намиПодключиться
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
    • Популярные
    • Инфраструктура и сеть
    • Платформа данных
    • Контейнеры
    • Инструменты разработчика
    • Бессерверные вычисления
    • Безопасность
    • Мониторинг и управление ресурсами
    • Машинное обучение
    • Бизнес-инструменты
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Облако для интеграторов
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Контент-программа
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Истории успеха
    • Тарифы Yandex Cloud
    • Промоакции и free tier
    • Правила тарификации
  • Документация
  • Блог
Проект Яндекса
© 2025 ООО «Яндекс.Облако»
Yandex Data Processing
  • Начало работы
    • Все инструкции
      • Все задания
      • Запуск заданий
      • Задания Spark
      • Задания PySpark
      • Задания Hive
      • Задания MapReduce
    • Подготовка и использование виртуальных окружений Python
  • Управление доступом
  • Правила тарификации
  • Справочник Terraform
  • Метрики Monitoring
  • Аудитные логи Audit Trails
  • Публичные материалы
  • Вопросы и ответы
  • Обучающие курсы

В этой статье:

  • Создать задание
  • Отменить задание
  • Получить список заданий
  • Получить общую информацию о задании
  • Получить логи выполнения задания
  1. Пошаговые инструкции
  2. Задания (jobs)
  3. Задания MapReduce

Управление заданиями MapReduce

Статья создана
Yandex Cloud
Улучшена
mmerihsesh
Обновлена 21 апреля 2025 г.
  • Создать задание
  • Отменить задание
  • Получить список заданий
  • Получить общую информацию о задании
  • Получить логи выполнения задания

MapReduce — инструмент параллельной обработки больших (порядка нескольких десятков ТБ) наборов данных на кластерах в экосистеме Hadoop. Позволяет работать с данными в разных форматах. Ввод и вывод задания хранится в Yandex Object Storage. MapReduce использует ряд библиотек, путь к которым определяется сборщиком Apache Bigtop.

Создать заданиеСоздать задание

Консоль управления
CLI
API
  1. Перейдите на страницу каталога и выберите сервис Yandex Data Processing.

  2. Нажмите на имя нужного кластера и выберите вкладку Задания.

  3. Нажмите кнопку Создать задание.

  4. (Опционально) Укажите имя задания.

  5. В поле Тип задания выберите Mapreduce.

  6. Выберите один из типов драйвера и укажите, что использовать для запуска задания:

    • имя основного класса;

    • путь к основному JAR-файлу в формате:

      Размещение файла Формат пути
      Файловая система инстанса file:///<путь_к_файлу>
      Распределенная файловая система кластера hdfs:///<путь_к_файлу>
      Бакет Object Storage s3a://<имя_бакета>/<путь_к_файлу>
      Интернет http://<путь_к_файлу> или https://<путь_к_файлу>

      Допускается использование архивов стандартных для Linux форматов: zip, gz, xz, bz2 и т. д.

      Сервисному аккаунту кластера необходим доступ на чтение ко всем файлам в бакете. Пошаговые инструкции по настройке доступа к Object Storage приведены в разделе Редактирование ACL бакета.

  7. Укажите аргументы задания.

    Если аргумент, переменная или свойство состоит из нескольких частей, разделенных пробелом, указывайте каждую часть отдельно. При этом важно сохранить порядок объявления аргументов, переменных и свойств.

    Например, аргумент -mapper mapper.py должен быть преобразован в два аргумента -mapper и mapper.py, стоящих последовательно.

  8. (Опционально) Укажите пути к дополнительным JAR-файлам, если они используются.

  9. (Опционально) Задайте дополнительные настройки:

    • Укажите пути к необходимым файлам и архивам.
    • В поле Настройки укажите свойства компонентов в виде пары ключ-значение.
  10. Нажмите кнопку Создать задание.

Если у вас еще нет интерфейса командной строки Yandex Cloud (CLI), установите и инициализируйте его.

По умолчанию используется каталог, указанный при создании профиля CLI. Чтобы изменить каталог по умолчанию, используйте команду yc config set folder-id <идентификатор_каталога>. Также для любой команды вы можете указать другой каталог с помощью параметров --folder-name или --folder-id.

Чтобы создать задание:

  1. Посмотрите описание команды CLI для создания заданий типа Mapreduce:

    yc dataproc job create-mapreduce --help
    
  2. Создайте задание (в примере приведены не все доступные параметры):

    yc dataproc job create-mapreduce \
       --cluster-name=<имя_кластера> \
       --name=<имя_задания> \
       --main-class=<имя_основного_класса> \
       --file-uris=<путь_к_файлу> \
       --archive-uris=<пути_к_архивам> \
       --properties=<свойства_компонентов> \
       --args=<аргумент>
    

    Где --properties — свойства компонентов в виде пары ключ-значение.

    Пути к необходимым для выполнения задания файлам передавайте в формате:

    Размещение файла Формат пути
    Файловая система инстанса file:///<путь_к_файлу>
    Распределенная файловая система кластера hdfs:///<путь_к_файлу>
    Бакет Object Storage s3a://<имя_бакета>/<путь_к_файлу>
    Интернет http://<путь_к_файлу> или https://<путь_к_файлу>

    Допускается использование архивов стандартных для Linux форматов: zip, gz, xz, bz2 и т. д.

    Сервисному аккаунту кластера необходим доступ на чтение ко всем файлам в бакете. Пошаговые инструкции по настройке доступа к Object Storage приведены в разделе Редактирование ACL бакета.

Идентификатор и имя кластера можно получить со списком кластеров в каталоге.

Воспользуйтесь методом API create и передайте в запросе:

  • идентификатор кластера в параметре clusterId;
  • имя задания в параметре name;
  • свойства задания в параметре mapreduceJob.

Идентификатор кластера можно получить со списком кластеров в каталоге.

Отменить заданиеОтменить задание

Примечание

Задания в статусах ERROR, DONE или CANCELLED отменить нельзя. Чтобы узнать статус задания, получите список заданий в кластере.

Консоль управления
CLI
API
  1. Перейдите на страницу каталога и выберите сервис Yandex Data Processing.
  2. Нажмите на имя нужного кластера и выберите вкладку Задания.
  3. Нажмите на имя нужного задания.
  4. В правом верхнем углу страницы нажмите кнопку Отменить.
  5. В открывшемся окне выберите Отменить.

Если у вас еще нет интерфейса командной строки Yandex Cloud (CLI), установите и инициализируйте его.

По умолчанию используется каталог, указанный при создании профиля CLI. Чтобы изменить каталог по умолчанию, используйте команду yc config set folder-id <идентификатор_каталога>. Также для любой команды вы можете указать другой каталог с помощью параметров --folder-name или --folder-id.

Чтобы отменить задание, выполните команду:

yc dataproc job cancel <имя_или_идентификатор_задания> \
  --cluster-name=<имя_кластера>

Идентификатор и имя задания можно получить со списком заданий в кластере, имя кластера — со списком кластеров в каталоге.

Воспользуйтесь методом API cancel и передайте в запросе:

  • Идентификатор кластера в параметре clusterId.
  • Идентификатор задания в параметре jobId.

Идентификатор кластера можно получить со списком кластеров в каталоге, идентификатор задания — со списком заданий в кластере.

Получить список заданийПолучить список заданий

Консоль управления
CLI
API
  1. Перейдите на страницу каталога и выберите сервис Yandex Data Processing.
  2. Нажмите на имя нужного кластера и выберите вкладку Задания.

Если у вас еще нет интерфейса командной строки Yandex Cloud (CLI), установите и инициализируйте его.

По умолчанию используется каталог, указанный при создании профиля CLI. Чтобы изменить каталог по умолчанию, используйте команду yc config set folder-id <идентификатор_каталога>. Также для любой команды вы можете указать другой каталог с помощью параметров --folder-name или --folder-id.

Чтобы получить список заданий, выполните команду:

yc dataproc job list --cluster-name=<имя_кластера>

Идентификатор и имя кластера можно получить со списком кластеров в каталоге.

Воспользуйтесь методом API list и передайте в запросе идентификатор кластера в параметре clusterId.

Идентификатор кластера можно получить со списком кластеров в каталоге.

Получить общую информацию о заданииПолучить общую информацию о задании

Консоль управления
CLI
API
  1. Перейдите на страницу каталога и выберите сервис Yandex Data Processing.
  2. Нажмите на имя нужного кластера и выберите вкладку Задания.
  3. Нажмите на имя нужного задания.

Если у вас еще нет интерфейса командной строки Yandex Cloud (CLI), установите и инициализируйте его.

По умолчанию используется каталог, указанный при создании профиля CLI. Чтобы изменить каталог по умолчанию, используйте команду yc config set folder-id <идентификатор_каталога>. Также для любой команды вы можете указать другой каталог с помощью параметров --folder-name или --folder-id.

Для получения общей информации о задании выполните команду:

yc dataproc job get \
   --cluster-name=<имя_кластера> \
   --name=<имя_задания>

Идентификатор и имя кластера можно получить со списком кластеров в каталоге.

Воспользуйтесь методом API get и передайте в запросе:

  • Идентификатор кластера в параметре clusterId. Его можно получить со списком кластеров в каталоге
  • Идентификатор задания в параметре jobId. Его можно получить со списком заданий в кластере.

Получить логи выполнения заданияПолучить логи выполнения задания

Примечание

Вы можете просматривать логи выполнения заданий и искать в них информацию с помощью сервиса Yandex Cloud Logging. Подробнее см. в разделе Работа с логами.

Консоль управления
CLI
API
  1. Перейдите на страницу каталога и выберите сервис Yandex Data Processing.
  2. Нажмите на имя нужного кластера и выберите вкладку Задания.
  3. Нажмите на имя нужного задания.

Если у вас еще нет интерфейса командной строки Yandex Cloud (CLI), установите и инициализируйте его.

По умолчанию используется каталог, указанный при создании профиля CLI. Чтобы изменить каталог по умолчанию, используйте команду yc config set folder-id <идентификатор_каталога>. Также для любой команды вы можете указать другой каталог с помощью параметров --folder-name или --folder-id.

Чтобы получить логи выполнения задания, выполните команду:

yc dataproc job log \
   --cluster-name=<имя_кластера> \
   --name=<имя_задания>

Идентификатор и имя кластера можно получить со списком кластеров в каталоге.

Воспользуйтесь методом API listLog и передайте в запросе:

  • Идентификатор кластера в параметре clusterId. Его можно получить со списком кластеров в каталоге.
  • Идентификатор задания в параметре jobId. Его можно получить со списком заданий в кластере.

Примечание

Для работы с MapReduce вы можете использовать библиотеки, которые находятся в директории /usr/lib/hadoop-mapreduce/.

Была ли статья полезна?

Предыдущая
Задания Hive
Следующая
Работа с логами
Проект Яндекса
© 2025 ООО «Яндекс.Облако»