Как настроить проект для работы с облаком Yandex Cloud
Yandex DataSphere обладает всем необходимым для анализа данных и обучения моделей машинного обучения. Однако если вы хотите использовать все возможности платформы Yandex Cloud, вам понадобится настроить проект DataSphere для работы с облаком Yandex Cloud и интеграции с другими сервисами платформы.
В руководстве описаны принципы организации рабочего пространства в DataSphere для эффективной работы с сервисами Yandex Cloud.
- Создайте проект.
- Создайте облако и каталог.
- Настройте сеть.
- Создайте сервисный аккаунт.
- Примеры интеграции сервисов.
Подробные инструкции по созданию и настройке ресурсов представлены в разделе Пошаговые инструкции документации соответствующих сервисов.
Перед началом работы
Перед началом работы нужно зарегистрироваться в Yandex Cloud, настроить сообщество и привязать к нему платежный аккаунт:
- На главной странице DataSphere
нажмите Попробовать бесплатно и выберите аккаунт для входа — Яндекс ID или рабочий аккаунт в федерации (SSO). - Выберите организацию Yandex Cloud Organization, в которой вы будете работать в Yandex Cloud.
- Создайте сообщество.
- Привяжите платежный аккаунт к сообществу DataSphere, в котором вы будете работать. Убедитесь, что у вас подключен платежный аккаунт, и он находится в статусе
ACTIVE
илиTRIAL_ACTIVE
. Если платежного аккаунта нет, создайте его в интерфейсе DataSphere.
Создайте проект
Сообщества DataSphere объединяют пользователей в команду, позволяют использовать общие ресурсы и контролировать бюджет. Проекты внутри сообщества — это индивидуальные рабочие места пользователей, которые запускаются на виртуальных машинах Yandex Cloud. В зависимости от режима работы в проекте может быть одна или несколько виртуальных машин, однако каждая ВМ будет закреплена за отдельным ноутбуком внутри проекта.
Примечание
DataSphere не предназначена для парного программирования. В режиме Dedicated совместная работа нескольких пользователей в одном проекте возможна при условии, что каждый пользователь работает в отдельном ноутбуке.
Создайте проект DataSphere, как описано в инструкции.
После этого на странице редактирования проекта можно указать параметры для интеграции с другими сервисами Yandex Cloud.
Создайте облако и каталог
Большинство сервисов Yandex Cloud работают внутри каталогов облака. Для доступа к облачным ресурсам используется Yandex Cloud Console
Войдите в консоль управления, создайте свое первое облако и каталог, в котором будут работать сервисы, с которыми вы хотите работать из DataSphere.
Подробнее о взаимодействии пользователей и ресурсов в Yandex Cloud.
Совет
Вы можете использовать несколько каталогов, чтобы гибко настраивать права доступа и разделить рабочие окружения и задачи.
Настройте сеть
Чтобы ресурсы сервисов Yandex Cloud могли обмениваться информацией между собой, необходимо создать облачную сеть и подсеть. По умолчанию сеть изолирована внутри Yandex Cloud без доступа в интернет. Чтобы облачные ресурсы имели доступ в интернет без использования публичных IP-адресов, создайте и настройте NAT-шлюз.
Примечание
По умолчанию проекты DataSphere используют сервисную подсеть с доступом в интернет. Если вы укажете в настройках проекта свою подсеть без настроенного NAT-шлюза, обновление установленных пакетов и другие сетевые операции станут недоступны.
Создайте сервисный аккаунт
В Yandex Cloud существует специальный тип аккаунта для автоматизации действий — сервисный аккаунт. Сервисный аккаунт позволяет программам управлять ресурсами сервисов. Чтобы сервисный аккаунт получил разрешение выполнять операции с ресурсами, ему нужно назначить соответствующие роли. О ролях, действующих в сервисе, можно узнать в разделе Управление доступом документации сервиса.
В DataSphere существует два способа предоставить сервисному аккаунту возможность выполнять операции:
- Если сервисный аккаунт должен выполнять операции с ресурсами других сервисов от имени DataSphere, добавьте его в настройки проекта.
- Если сервисный аккаунт должен выполнять операции с проектом или сообществом DataSphere (запускать исполнение ячеек, создавать ресурсы и т.п.), добавьте его в список участников проекта или сообщества с соответствующей ролью.
Примеры интеграции сервисов
В этом разделе вы найдете примеры настройки проекта для выполнения различных задач в DataSphere и интеграции с сервисами Yandex Cloud.
Вычисления на кластерах Apache Spark™
DataSphere позволяет проводить вычисления на кластерах Apache Spark™, созданных в сервисе Yandex Data Processing.
Для работы с кластерами Yandex Data Processing укажите в настройках проекта следующие параметры:
-
Каталог по умолчанию для интеграции с другими сервисами Yandex Cloud. В нем будет развернут кластер Yandex Data Processing в рамках текущих квот облака, а стоимость использования кластера будет списана с платежного аккаунта облака.
-
Сервисный аккаунт, от имени которого DataSphere будет создавать и управлять кластерами. Сервисному аккаунту понадобятся следующие роли:
dataproc.agent
— для использования кластеров Yandex Data Processing.dataproc.admin
— для создания кластеров из шаблонов Yandex Data Processing.vpc.user
— для работы с сетью кластера Yandex Data Processing.iam.serviceAccounts.user
— для создания ресурсов в каталоге от имени сервисного аккаунта.
-
Подсеть для связи DataSphere с кластером Yandex Data Processing. Кластеру Yandex Data Processing необходим доступ в интернет, поэтому в подсети должен быть настроен NAT-шлюз.
Примечание
Если вы указали подсеть в настройках проекта, время выделения вычислительных ресурсов может быть увеличено.
Важно
Постоянный кластер Yandex Data Processing должен иметь настройку livy:livy.spark.deploy-mode : client
.
Подробнее о работе с кластерами Yandex Data Processing в DataSphere:
- Способы работы с кластерами Apache Spark™ в DataSphere.
- Интеграция с сервисом Yandex Data Processing.
Развертывание предобученной модели в качестве сервиса
Если вы хотите развернуть в DataSphere модель в качестве отдельного сервиса, используйте ноды на основе Docker-образа. В настройках проекта укажите следующие параметры:
- Каталог по умолчанию для хранения логов ноды.
- Сервисный аккаунт с правами:
container-registry.images.puller
— чтобы разрешить DataSphere скачивать ваш Docker-образ для создания ноды.vpc.user
— для работы с сетью DataSphere.- (опционально)
datasphere.user
— чтобы отправлять запросы в ноду.
Подробнее про развертывание сервисов в DataSphere: