Yandex Cloud
Поиск
Связаться с намиПодключиться
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
    • Популярные
    • Инфраструктура и сеть
    • Платформа данных
    • Контейнеры
    • Инструменты разработчика
    • Бессерверные вычисления
    • Безопасность
    • Мониторинг и управление ресурсами
    • Машинное обучение
    • Бизнес-инструменты
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Облако для интеграторов
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Контент-программа
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Истории успеха
    • Тарифы Yandex Cloud
    • Промоакции и free tier
    • Правила тарификации
  • Документация
  • Блог
Проект Яндекса
© 2025 ООО «Яндекс.Облако»
Yandex Data Processing
  • Начало работы
    • Все инструкции
      • Все задания
      • Запуск заданий
      • Задания Spark
      • Задания PySpark
      • Задания Hive
      • Задания MapReduce
    • Подготовка и использование виртуальных окружений Python
  • Управление доступом
  • Правила тарификации
  • Справочник Terraform
  • Метрики Monitoring
  • Аудитные логи Audit Trails
  • Публичные материалы
  • Вопросы и ответы
  • Обучающие курсы

В этой статье:

  • Создать задание
  • Отменить задание
  • Получить список заданий
  • Получить общую информацию о задании
  • Получить логи выполнения задания
  1. Пошаговые инструкции
  2. Задания (jobs)
  3. Задания Hive

Управление заданиями Hive

Статья создана
Yandex Cloud
Улучшена
mmerihsesh
Обновлена 21 апреля 2025 г.
  • Создать задание
  • Отменить задание
  • Получить список заданий
  • Получить общую информацию о задании
  • Получить логи выполнения задания

В кластере Yandex Data Processing можно управлять заданиями (jobs), а также получать логи их выполнения. Примеры заданий см. в разделе Работа с заданиями.

Создать заданиеСоздать задание

Консоль управления
CLI
API
  1. Перейдите на страницу каталога и выберите сервис Yandex Data Processing.

  2. Нажмите на имя нужного кластера и выберите вкладку Задания.

  3. Нажмите кнопку Создать задание.

  4. (Опционально) Укажите имя задания.

  5. В поле Тип задания выберите Hive.

  6. (Опционально) В поле Настройки укажите свойства компонентов в виде пары ключ-значение.

    Если аргумент, переменная или свойство состоит из нескольких частей, разделенных пробелом, указывайте каждую часть отдельно. При этом важно сохранить порядок объявления аргументов, переменных и свойств.

    Например, аргумент -mapper mapper.py должен быть преобразован в два аргумента -mapper и mapper.py, стоящих последовательно.

  7. (Опционально) Включите настройку Продолжать при ошибке.

  8. Укажите Переменные скрипта в виде пары ключ-значение.

  9. (Опционально) Укажите пути к JAR-файлам, если они используются:

    Размещение файла Формат пути
    Файловая система инстанса file:///<путь_к_файлу>
    Распределенная файловая система кластера hdfs:///<путь_к_файлу>
    Бакет Object Storage s3a://<имя_бакета>/<путь_к_файлу>
    Интернет http://<путь_к_файлу> или https://<путь_к_файлу>

    Допускается использование архивов стандартных для Linux форматов: zip, gz, xz, bz2 и т. д.

    Сервисному аккаунту кластера необходим доступ на чтение ко всем файлам в бакете. Пошаговые инструкции по настройке доступа к Object Storage приведены в разделе Редактирование ACL бакета.

  10. Выберите один из типов драйвера и укажите, что использовать для запуска задания:

    • список запросов, которые необходимо выполнить;
    • путь к файлу с запросами, которые нужно выполнить.
  11. Нажмите кнопку Создать задание.

Если у вас еще нет интерфейса командной строки Yandex Cloud (CLI), установите и инициализируйте его.

По умолчанию используется каталог, указанный при создании профиля CLI. Чтобы изменить каталог по умолчанию, используйте команду yc config set folder-id <идентификатор_каталога>. Также для любой команды вы можете указать другой каталог с помощью параметров --folder-name или --folder-id.

Чтобы создать задание:

  1. Посмотрите описание команды CLI для создания заданий типа Hive:

    yc dataproc job create-hive --help
    
  2. Создайте задание (в примере приведены не все доступные параметры):

    yc dataproc job create-hive \
       --cluster-name=<имя_кластера> \
       --name=<имя_задания> \
       --query-file-uri=<URI_файла_запроса> \
       --script-variables=<список_значений>
    

    Где --script-variables — список значений переменных, разделенных запятыми.

    Пути к необходимым для выполнения задания файлам передавайте в формате:

    Размещение файла Формат пути
    Файловая система инстанса file:///<путь_к_файлу>
    Распределенная файловая система кластера hdfs:///<путь_к_файлу>
    Бакет Object Storage s3a://<имя_бакета>/<путь_к_файлу>
    Интернет http://<путь_к_файлу> или https://<путь_к_файлу>

    Допускается использование архивов стандартных для Linux форматов: zip, gz, xz, bz2 и т. д.

    Сервисному аккаунту кластера необходим доступ на чтение ко всем файлам в бакете. Пошаговые инструкции по настройке доступа к Object Storage приведены в разделе Редактирование ACL бакета.

Идентификатор и имя кластера можно получить со списком кластеров в каталоге.

Воспользуйтесь методом API create и передайте в запросе:

  • Идентификатор кластера в параметре clusterId. Его можно получить со списком кластеров в каталоге.
  • Имя задания в параметре name.
  • Свойства задания в параметре hiveJob.

Отменить заданиеОтменить задание

Примечание

Задания в статусах ERROR, DONE или CANCELLED отменить нельзя. Чтобы узнать статус задания, получите список заданий в кластере.

Консоль управления
CLI
API
  1. Перейдите на страницу каталога и выберите сервис Yandex Data Processing.
  2. Нажмите на имя нужного кластера и выберите вкладку Задания.
  3. Нажмите на имя нужного задания.
  4. В правом верхнем углу страницы нажмите кнопку Отменить.
  5. В открывшемся окне выберите Отменить.

Если у вас еще нет интерфейса командной строки Yandex Cloud (CLI), установите и инициализируйте его.

По умолчанию используется каталог, указанный при создании профиля CLI. Чтобы изменить каталог по умолчанию, используйте команду yc config set folder-id <идентификатор_каталога>. Также для любой команды вы можете указать другой каталог с помощью параметров --folder-name или --folder-id.

Чтобы отменить задание, выполните команду:

yc dataproc job cancel <имя_или_идентификатор_задания> \
  --cluster-name=<имя_кластера>

Идентификатор и имя задания можно получить со списком заданий в кластере, имя кластера — со списком кластеров в каталоге.

Воспользуйтесь методом API cancel и передайте в запросе:

  • Идентификатор кластера в параметре clusterId.
  • Идентификатор задания в параметре jobId.

Идентификатор кластера можно получить со списком кластеров в каталоге, идентификатор задания — со списком заданий в кластере.

Получить список заданийПолучить список заданий

Консоль управления
CLI
API
  1. Перейдите на страницу каталога и выберите сервис Yandex Data Processing.
  2. Нажмите на имя нужного кластера и выберите вкладку Задания.

Если у вас еще нет интерфейса командной строки Yandex Cloud (CLI), установите и инициализируйте его.

По умолчанию используется каталог, указанный при создании профиля CLI. Чтобы изменить каталог по умолчанию, используйте команду yc config set folder-id <идентификатор_каталога>. Также для любой команды вы можете указать другой каталог с помощью параметров --folder-name или --folder-id.

Чтобы получить список заданий, выполните команду:

yc dataproc job list --cluster-name=<имя_кластера>

Идентификатор и имя кластера можно получить со списком кластеров в каталоге.

Воспользуйтесь методом API list и передайте в запросе идентификатор кластера в параметре clusterId.

Идентификатор кластера можно получить со списком кластеров в каталоге.

Получить общую информацию о заданииПолучить общую информацию о задании

Консоль управления
CLI
API
  1. Перейдите на страницу каталога и выберите сервис Yandex Data Processing.
  2. Нажмите на имя нужного кластера и выберите вкладку Задания.
  3. Нажмите на имя нужного задания.

Если у вас еще нет интерфейса командной строки Yandex Cloud (CLI), установите и инициализируйте его.

По умолчанию используется каталог, указанный при создании профиля CLI. Чтобы изменить каталог по умолчанию, используйте команду yc config set folder-id <идентификатор_каталога>. Также для любой команды вы можете указать другой каталог с помощью параметров --folder-name или --folder-id.

Для получения общей информации о задании выполните команду:

yc dataproc job get \
   --cluster-name=<имя_кластера> \
   --name=<имя_задания>

Идентификатор и имя кластера можно получить со списком кластеров в каталоге.

Воспользуйтесь методом API get и передайте в запросе:

  • Идентификатор кластера в параметре clusterId. Его можно получить со списком кластеров в каталоге
  • Идентификатор задания в параметре jobId. Его можно получить со списком заданий в кластере.

Получить логи выполнения заданияПолучить логи выполнения задания

Примечание

Вы можете просматривать логи выполнения заданий и искать в них информацию с помощью сервиса Yandex Cloud Logging. Подробнее см. в разделе Работа с логами.

Консоль управления
CLI
API
  1. Перейдите на страницу каталога и выберите сервис Yandex Data Processing.
  2. Нажмите на имя нужного кластера и выберите вкладку Задания.
  3. Нажмите на имя нужного задания.

Если у вас еще нет интерфейса командной строки Yandex Cloud (CLI), установите и инициализируйте его.

По умолчанию используется каталог, указанный при создании профиля CLI. Чтобы изменить каталог по умолчанию, используйте команду yc config set folder-id <идентификатор_каталога>. Также для любой команды вы можете указать другой каталог с помощью параметров --folder-name или --folder-id.

Чтобы получить логи выполнения задания, выполните команду:

yc dataproc job log \
   --cluster-name=<имя_кластера> \
   --name=<имя_задания>

Идентификатор и имя кластера можно получить со списком кластеров в каталоге.

Воспользуйтесь методом API listLog и передайте в запросе:

  • Идентификатор кластера в параметре clusterId. Его можно получить со списком кластеров в каталоге.
  • Идентификатор задания в параметре jobId. Его можно получить со списком заданий в кластере.

Была ли статья полезна?

Предыдущая
Задания PySpark
Следующая
Задания MapReduce
Проект Яндекса
© 2025 ООО «Яндекс.Облако»