Yandex Cloud
Поиск
Связаться с намиПодключиться
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
    • Популярные
    • Инфраструктура и сеть
    • Платформа данных
    • Контейнеры
    • Инструменты разработчика
    • Бессерверные вычисления
    • Безопасность
    • Мониторинг и управление ресурсами
    • Машинное обучение
    • Бизнес-инструменты
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Облако для интеграторов
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Контент-программа
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Истории успеха
    • Тарифы Yandex Cloud
    • Промоакции и free tier
    • Правила тарификации
  • Документация
  • Блог
Проект Яндекса
© 2025 ООО «Яндекс.Облако»
Yandex DataSphere
  • Начало работы
    • О сервисе DataSphere
    • Взаимосвязь ресурсов в DataSphere
    • Сообщества
    • Управление расходами
    • Проект
    • Конфигурации вычислительных ресурсов
      • Задания
      • DataSphere CLI
      • Docker-образы в заданиях
      • Среда исполнения заданий
      • Повторный запуск заданий
      • Интеграция с Managed Service for Apache Airflow™
      • Работа с коннекторами Spark
    • Фундаментальные модели
    • Квоты и лимиты
    • Специальные условия для образования
  • Справочник Terraform
  • Аудитные логи Audit Trails
  • Управление доступом
  • Правила тарификации
  • Публичные материалы
  • История изменений
  1. Концепции
  2. DataSphere Jobs
  3. Повторный запуск заданий

Повторный запуск заданий DataSphere Jobs

Статья создана
Yandex Cloud
Обновлена 25 декабря 2024 г.

В Yandex DataSphere доступен повторный запуск задания с переопределением необходимых параметров. Повторный запуск создает клон задания (job fork), а оригинальное задание становится родительским. Клон задания также можно запустить повторно, тогда задание станет одновременно и клоном одного, и родительским другого.

Чтобы реализовать регулярный запуск одного и того же задания с переопределением некоторых параметров, DataSphere Jobs можно использовать совместно с Yandex Managed Service for Apache Airflow™.

Для повторного запуска задания с новыми параметрами в DataSphere CLI и в составе DataSphere Jobs SDK доступна команда fork, которая позволяет переопределить следующие параметры:

  • name — имя задания;
  • desc — описание задания;
  • args — аргументы задания;
  • vars — файлы с входными и выходными данными;
  • env_vars — переменные окружения;
  • working_storage — конфигурация расширенной рабочей директории;
  • cloud_instance_types — конфигурация вычислительных ресурсов.

ПримерПример

Рассмотрим файл конфигурации задания config.yaml для кода, запускающего поиск подстроки (grep) по входному файлу:

name: simple-bash-script
desc: Find text pattern in input file with grep
cmd: grep -C ${RANGE} ${OPTIONS} -f ${PATTERN} ${INPUT} > ${OUTPUT}
args:
  RANGE: 0
  OPTIONS: "-h -r"
inputs:
  - pattern.txt: PATTERN
  - input.txt: INPUT
outputs:
  - output.txt: OUTPUT

Где:

  • RANGE — интервал вывода поиска.
  • OPTIONS — дополнительные флаги команды grep.
  • PATTERN — файл с паттерном подстроки.
  • INPUT — файл с входными данными.
  • OUTPUT — файл с выходными данными.

После запуска задания его идентификатор можно получить из логов CLI, с помощью команды execute или на странице проекта во вкладке DataSphere Jobs в браузере. Чтобы повторно запустить это задание с помощью команды SDK fork, укажите его идентификатор и переопределите необходимые параметры. Например, задайте новый интервал вывода поиска и новый файл с входными данными:

from datasphere import SDK

sdk = SDK()

sdk.fork_job(
  '<идентификатор_задания>',
  args={'RANGE': '1'},
  vars={'INPUT': 'new_input.txt'},
)

Время жизни данных заданияВремя жизни данных задания

По умолчанию данные заданий удаляются через 14 дней. Если они будут удалены, повторный запуск задания станет невозможным. Вы можете изменить время жизни данных задания, выполнив команду:

datasphere project job set-data-ttl --id <идентификатор_задания> --days <количество_дней>

Где:

--id — идентификатор задания.
--days — количество дней, по прошествии которых данные задания будут удалены.

См. такжеСм. также

  • DataSphere Jobs
  • Интеграция с Yandex Managed Service for Apache Airflow™
  • DataSphere CLI

Была ли статья полезна?

Предыдущая
Среда исполнения заданий
Следующая
Интеграция с Managed Service for Apache Airflow™
Проект Яндекса
© 2025 ООО «Яндекс.Облако»