Как начать работать с DataSphere
Yandex DataSphere — среда для ML-разработки полного цикла, которая сочетает в себе привычные IDE, технологию бессерверных вычислений и возможность бесшовного использования разных конфигураций вычислительных ресурсов Yandex Cloud. Yandex DataSphere является частью платформы данных и предоставляет широкие возможности для простого взаимодействия с сервисами Yandex Cloud. В качестве IDE DataSphere предоставляет Jupyter® Notebook
В этом разделе вы научитесь:
- Создавать проект.
- Запускать проект.
- Настраивать окружение.
- Загружать данные в проект.
- Запускать обучение.
- Делиться результатами.
Перед началом работы
- Перейдите в консоль управления
, затем войдите в Yandex Cloud или зарегистрируйтесь, если вы еще не зарегистрированы. - Перейдите в сервис Yandex Cloud Billing
и убедитесь, что у вас подключен платежный аккаунт и он находится в статусеACTIVE
илиTRIAL_ACTIVE
. Если платежного аккаунта нет, создайте его. - Откройте главную страницу
DataSphere. - Примите пользовательское соглашение.
- Выберите организацию, в которой вы будете работать с DataSphere, или создайте новую.
Создайте проект
- Откройте главную страницу
DataSphere. - На панели слева выберите
Сообщества. - Выберите сообщество, в котором вы хотите создать проект.
- На странице сообщества нажмите кнопку
Создать проект. - В открывшемся окне укажите имя и (опционально) описание проекта.
- Нажмите кнопку Создать.
Запустите проект
Чтобы запустить проект, нажмите кнопку Открыть проект в JupyterLab.
Настройте окружение
Популярные пакеты для анализа данных и машинного обучения уже предустановлены и готовы к использованию, см. список.
Вы можете установить недостающие пакеты с помощью пакетного менеджера pip.
Чтобы установить пакет:
-
Напишите в ячейке ноутбука команду:
%pip install <имя_пакета>
Например, установите пакет seaborn
для визуализации статистических данных:%pip install seaborn
Вы можете использовать различные опции, которые поддерживает команда pip install
. См. примеры использования этой команды. -
Выполните ячейку. Для этого нажмите значок
.Результат установки пакета отобразится под ячейкой.
Вы также можете настроить окружение для выполнения вашего кода, используя Docker-образы.
Загрузите данные в проект
Данные небольшого объема (до 100 МБ) можно загрузить в проект DataSphere через интерфейс JupyterLab. Больший объем информации рекомендуем загружать из сетевых хранилищ и баз данных. Также для работы с большим объемом данных удобно использовать датасеты.
Чтобы загрузить данные в проект через интерфейс JupyterLab:
- В блоке
File Browser выберите папку, в которую нужно загрузить данные. - Слева сверху нажмите кнопку
. - Выберите файлы, которые нужно загрузить.
Подробнее о хранилище проекта.
DataSphere позволяет загружать данные из разных источников:
- Подключение к S3 с помощью библиотеки boto3.
- Подключение к Google Drive.
- Подключение к базе данных ClickHouse®.
- Подключение к базе данных PostgreSQL.
- Подключение к Яндекс Диску.
Запустите обучение
Чтобы запустить вычисления:
-
В блоке
File Browser выберите ноутбук, в котором содержится код на Python или bash. -
Выберите одну или несколько ячеек с кодом и запустите их, выбрав в меню Run → Run Selected Cells (также можно использовать сочетание клавиш Shift + Enter).
-
Дождитесь завершения операции.
Результат выполнения отобразится под ячейкой.