DataSphere CLI
Для запуска заданий DataSphere Jobs используется утилита DataSphere CLI.
Чтобы установить DataSphere CLI, в виртуальном окружении Python
pip install datasphere
После завершения установки вы можете посмотреть справку, запустив команду с флагом -h
:
datasphere -h
Результат выполнения команды:
usage: datasphere [-h] [-t TOKEN] [-l {ERROR,WARNING,INFO,DEBUG}] [--log-config LOG_CONFIG] {version,project} ...
positional arguments:
{version,project}
version Show version
options:
-h, --help show this help message and exit
-t TOKEN, --token TOKEN
YC OAuth token, see https://yandex.cloud/en/docs/iam/concepts/authorization/oauth-token
-l {ERROR,WARNING,INFO,DEBUG}, --log-level {ERROR,WARNING,INFO,DEBUG}
Logging level
--log-config LOG_CONFIG
Custom logging config
Команды DataSphere CLI
Для управления заданиями используются команды раздела datasphere project job
:
Запуск заданий
Чтобы запустить задание, выполните команду:
datasphere project job execute -p <идентификатор_проекта> -c <файл_конфигурации>
Где:
<идентификатор_проекта>
— идентификатор проекта DataSphere, в котором вы будете запускать задание.<файл_конфигурации>
— путь к файлу конфигурации задания.
Запуск задания блокирует сессию командной оболочки до завершения задания. Логи работы кода задания будут выведены в стандартные потоки вывода stdout
и ошибок stderr
. Системные логи выполнения задания будут записаны в отдельный файл в рабочей директории пользователя.
Если в процессе выполнения задания сессия командной оболочки прервалась, задание продолжит выполняться в DataSphere, однако логи выполнения не будут сохраняться. Чтобы возобновить запись логов, восстановите сессию, выполнив команду:
datasphere project job attach --id <идентификатор_задания>
Узнать идентификатор задания можно в интерфейсе DataSphere в виджете заданий на странице проекта.
Отслеживание и запись логов возобновятся после восстановления сессии задания.
Просмотр информации о задании
Вы можете посмотреть все прошедшие и текущие задания проекта, выполнив команду:
datasphere project job list -p <идентификатор_проекта>
В ответ вернется таблица со следующими полями:
- идентификатор задания;
- имя;
- описание;
- статус;
- дата начала выполнения и окончания задания (если оно уже завершилось);
- имя пользователя, запустившего задание.
Чтобы посмотреть информацию о конкретном задании, выполните команду:
datasphere project job get --id <идентификатор_задания>
Отмена задания
Вы можете остановить и отменить выполнение задания двумя способами:
-
Если у вас запущена сессия командной оболочки с заданием в процессе выполнения, нажмите Ctrl + C.
-
Если вы хотите остановить выполнение задания, не связанного с активной сессией командной оболочки, выполните команду:
datasphere project job cancel --id <идентификатор_задания>
Запущенное задание будет остановлено.
Логи заданий
При запуске задания через DataSphere CLI командная оболочка первым сообщением уведомляет пользователя о сохранении логов в рабочей директории пользователя. Например:
2024-05-16 12:42:35,447 - [INFO] - logs file path: C:\Temp\datasphere\job_2024-05-16T12-42-35.427056
После выполнения задания в рабочей директории пользователя можно найти следующие файлы:
stdout.txt
— стандартный поток вывода пользовательской программы.stderr.txt
— стандартный поток сообщений об ошибках.system.log
— системный лог настройки ВМ и установки пакетов окружения.log.txt
— общий лог утилиты DataSphere CLI, в который записывается ход выполнения задания.docker_stats.tsv
— лог о потребляемых Docker-образом ресурсах, таких как задействованная мощность процессора, скорости чтения и записи, используемый объем оперативной памяти и скорость загрузки. Эту информацию также можно получить с помощью командыdocker stats
.gpu_stats.tsv
— лог об использовании графического процессора: количество ядер, задействованная мощность и видеопамять.
Чтобы изменить директорию для хранения логов, воспользуйтесь командой:
datasphere --log-dir <новая_директория>