Как начать работать с DataSphere
Yandex DataSphere — среда для ML-разработки полного цикла, которая сочетает в себе привычные IDE, технологию бессерверных вычислений и возможность бесшовного использования разных конфигураций вычислительных ресурсов Yandex Cloud. Yandex DataSphere является частью платформы данных и предоставляет широкие возможности для простого взаимодействия с сервисами Yandex Cloud. В качестве IDE DataSphere предоставляет Jupyter® Notebook
В этом разделе вы научитесь:
- Создавать проект.
- Запускать проект.
- Настраивать окружение.
- Загружать данные в проект.
- Запускать обучение.
Перед началом работы
- Перейдите в консоль управления
, затем войдите в Yandex Cloud или зарегистрируйтесь, если вы еще не зарегистрированы. - Перейдите в сервис Yandex Cloud Billing
и убедитесь, что у вас подключен платежный аккаунт и он находится в статусеACTIVEилиTRIAL_ACTIVE. Если платежного аккаунта нет, создайте его. - Откройте главную страницу
DataSphere. - Примите пользовательское соглашение.
- Выберите организацию, в которой вы будете работать с DataSphere, или создайте новую.
Создайте проект
- Откройте главную страницу
DataSphere. - На панели слева выберите
Сообщества. - Выберите сообщество, в котором вы хотите создать проект.
- На странице сообщества нажмите кнопку
Создать проект. - В открывшемся окне укажите имя и (опционально) описание проекта.
- Нажмите кнопку Создать.
Запустите проект
Чтобы запустить проект, нажмите кнопку Открыть проект в JupyterLab.
Настройте окружение
Популярные пакеты для анализа данных и машинного обучения уже предустановлены и готовы к использованию, см. список.
Вы можете установить недостающие пакеты с помощью пакетного менеджера pip.
Чтобы установить пакет:
-
Напишите в ячейке ноутбука команду:
%pip install <имя_пакета>Например, установите пакет seaborn
для визуализации статистических данных:%pip install seabornВы можете использовать различные опции, которые поддерживает команда pip install
. См. примеры использования этой команды. -
Выполните ячейку. Для этого нажмите значок
.Результат установки пакета отобразится под ячейкой.
Вы также можете настроить окружение для выполнения вашего кода, используя Docker-образы.
Загрузите данные в проект
Важно
После 20.04.2026 создание новых датасетов станет невозможным. Для хранения данных используйте файловые хранилища. Датасеты, созданные до 20.04.2026, продолжат работать без изменений.
Данные небольшого объема (до 100 МБ) можно загрузить в проект DataSphere через интерфейс JupyterLab. Больший объем информации рекомендуем загружать из сетевых хранилищ и баз данных. Также для работы с большим объемом данных используются датасеты.
Чтобы загрузить данные в проект через интерфейс JupyterLab:
- В блоке
File Browser выберите папку, в которую нужно загрузить данные. - Слева сверху нажмите кнопку
. - Выберите файлы, которые нужно загрузить.
Подробнее о хранилище проекта.
DataSphere позволяет загружать данные из разных источников:
- Подключение к S3 с помощью библиотеки boto3.
- Подключение к Google Drive.
- Подключение к базе данных ClickHouse®.
- Подключение к базе данных PostgreSQL.
- Подключение к Яндекс Диску.
Запустите обучение
Чтобы запустить вычисления:
-
В блоке
File Browser выберите ноутбук, в котором содержится код на Python или bash. -
Выберите одну или несколько ячеек с кодом и запустите их, выбрав в меню Run → Run Selected Cells (также можно использовать сочетание клавиш Shift + Enter).
-
Дождитесь завершения операции.
Результат выполнения отобразится под ячейкой.