Датасеты в DataSphere
Датасет в DataSphere — это механизм хранения информации, который предоставляет быстрый доступ к большим объемам данных. Датасеты позволяют хранить до 4 ТБ, при этом доступ к данным будет быстрее, чем к основному хранилищу проекта.
Совет
Чем больше выделенный для датасета диск, тем выше скорость чтения данных.
Создание и наполнение датасета происходит во время инициализации. После инициализации датасет нельзя изменить, он будет доступен только для чтения. Если вы хотите добавить файлы в датасет, создайте его заново.
Датасеты не включены в основное хранилище проекта и тарифицируются отдельно.
Как и другими ресурсами, датасетами можно делиться в сообществе, чтобы использовать данные в нескольких проектах.
При активации в проекте диск с датасетом монтируется к хранилищу проекта. Файлы активированного датасета можно читать как локальные файлы хранилища проекта по пути /home/jupyter/mnt/datasets/<имя_датасета>
.
Одновременно в проекте может быть активировано до 3 датасетов. Вы можете активировать и деактивировать датасеты проекта прямо во время работы без перезагрузки проекта. Все ограничения DataSphere см. в разделе Квоты и лимиты в DataSphere.
Информация о датасете как ресурсе
О каждом датасете хранится следующая информация:
- имя;
- статус подключения к проекту;
- имя пользователя, создавшего датасет;
- дата создания датасета в формате в UTC
, например18 июля 2022 г., 14:23
.
Чтобы посмотреть подробную информацию о датасете, нажмите на его название в списке датасетов проекта. На вкладке Обзор конкретного датасета можно увидеть:
- зону доступности, в которой хранится датасет;
- размер;
- код инициализации.