Общие вопросы про DataSphere
Я могу получить логи моей работы в сервисах?
Да, вы можете запросить записи о том, что происходило с вашими ресурсами, из логов сервисов Yandex Cloud. Подробнее читайте в разделе Запросы данных.
Как узнать, какие персональные данные хранит Yandex Cloud?
Вы можете узнать, какие именно персональные данные хранит Yandex Cloud, обратившись в техническую поддержку. Вы также можете запросить полное удаление ваших персональных данных.
Что делать, если в проекте невозможно установить пакет или нет доступа к интернету?
Проблемы с интернетом могут возникнуть, если в проекте включена подсеть, которая не имеет доступ к интернету.
Если для проекта требуется подсеть, настройте NAT-шлюз, чтобы иметь доступ к интернету.
Изменить или отключить подсеть можно в настройках проекта.
Можно ли закрыть вкладку с ноутбуком?
Да. Если вы закроете вкладку с ноутбуком, текущие исполнения продолжат работу, все переменные и результаты вычислений сохранятся, однако вывод результатов исполнений, которые закончились, пока ноутбук был закрыт, не сохранится.
После завершения всех запущенных вычислений ВМ будет закреплена за ноутбуком в течение 3 часов. Вы можете изменить это значение в настройках проекта.
Как указать тип конфигурации для проекта?
Вы можете выбрать конфигурацию вычислительных ресурсов при первом запуске вычислений в ноутбуке DataSphere. Минимальная доступная конфигурация — c1.4 (4 vCPU).
Если запущенную ячейку удалить, вычисления остановятся?
Нет, вычисления будут продолжаться, даже если вы удалите ячейку из ноутбука. Поэтому перед удалением ячейки обязательно остановите ее. Если же вы удалили работающую ячейку, остановите запущенные вычисления. Для этого выберите File ⟶ Stop IDE executions в JupyterLab или нажмите Остановить JupyterLab и ВМ в виджете Запущенные операции на странице проекта.
Как очистить вывод ячеек?
Выберите Edit ⟶ Clear All Outputs в JupyterLab или нажмите правую кнопку мыши на любой ячейке и выберите Clear All Outputs. Во втором случае вывод сбросится только для текущего сеанса.
Можно ли в DataSphere запускать ячейки по расписанию?
Запуск вычислений по расписанию можно реализовать с помощью повторного запуска заданий DataSphere Jobs и их интеграции с Yandex Managed Service for Apache Airflow™.
Также вы можете использовать Yandex Cloud Functions, чтобы автоматически запускать исполнение ноутбука с помощью API DataSphere. Пример использования регулярных запусков подробно описан в руководстве.
Мой браузер не может открыть проект DataSphere в IDE. Как это исправить?
При открытии проекта в IDE DataSphere перенаправляет ваш запрос на собственный хост с JupyterLab. Современные браузеры могут блокировать такое поведение сайтов, если вы используете режимы повышенной конфиденциальности, в том числе режим инкогнито. Чтобы открыть проект в IDE, отключите блокирующие настройки:
- Chrome: разрешите использовать сторонние cookie.
- Safari: отключите опцию Отслеживание на веб-сайтах: Предотвращать перекрестное отслеживание в меню Настройки ⟶ Конфиденциальность.
- Яндекс Браузер: разрешите использование сторонних cookie-файлов для DataSphere в настройках браузера в разделе Сайты ⟶ Расширенные настройки сайтов.
- Firefox: нажмите на значок щита в адресной строке и отключите опцию Enhanced Tracking Protection.
Мой браузер просит предоставить доступ к хосту JupyterLab. Как его дать?
Сообщение провоцирует экспериментальная опция Chrome, реализующая API доступа к хранилищу. Для ее отключения введите в адресную строку браузера chrome://flags
, через строку поиска ниже найдите Storage Access API и переведите эту опцию в статус Disabled.
Как развернуть модель с платформы Hugging Face в DataSphere?
Некоторые библиотеки по умолчанию скачивают модели в заранее определенные директории. После скачивания модель может быть недоступна для импорта, потому что директория располагалась не в хранилище проекта. Чтобы избежать этого, определите правильную директорию для скачивания и указывайте ее при импорте модели:
cache_dir="/home/jupyter/datasphere/project/huggingface_cache_dir/"
config = AutoConfig.from_pretrained("<имя_модели>", cache_dir=cache_dir)
model = AutoModel.from_pretrained("<имя_модели>", config=config, cache_dir=cache_dir)
Чтобы не указывать адрес директории каждый раз, вы можете определить ее в переменной окружения. Это нужно сделать в самом начале ноутбука до импорта библиотек:
import os
os.environ['TRANSFORMERS_CACHE'] = '/home/jupyter/datasphere/project/huggingface_cache_dir/'
Также вы можете установить модель для работы в оффлайн-режиме, воспользовавшись официальной документацией