Как начать работать с Yandex Data Processing
Чтобы начать работу с сервисом:
Перед началом работы
-
Перейдите в консоль управления
, затем войдите в Yandex Cloud или зарегистрируйтесь, если вы еще не зарегистрированы. -
Если у вас еще нет каталога, создайте его:
-
В консоли управления
в списке слева выберите нужное облако. -
Справа сверху нажмите кнопку Создать каталог.
-
Введите имя каталога. Требования к имени:
- длина — от 3 до 63 символов;
- может содержать строчные буквы латинского алфавита, цифры и дефисы;
- первый символ — буква, последний — не дефис.
-
(Опционально) Введите описание каталога.
-
Выберите опцию Создать сеть по умолчанию. Будет создана сеть с подсетями в каждой зоне доступности. Также в этой сети будет создана группа безопасности по умолчанию, внутри которой весь сетевой трафик разрешен.
-
Нажмите кнопку Создать.
-
-
Убедитесь, что для создания кластера у вашего аккаунта есть роли:
- dataproc.editor — чтобы создать кластер;
- vpc.user — чтобы работать с сетью кластера;
- iam.serviceAccounts.user — чтобы привязать сервисный аккаунт к кластеру и создавать ресурсы от имени этого сервисного аккаунта.
-
Настройте NAT-шлюз в подсети, в которой будет размещен кластер.
-
Если вы используете группы безопасности, настройте их.
-
Подключаться к кластеру Yandex Data Processing можно как изнутри, так и извне Yandex Cloud:
-
Чтобы подключиться изнутри Yandex Cloud, создайте виртуальную машину на основе Linux в той же сети, что и кластер.
-
Чтобы подключиться к кластеру из интернета, запросите публичный доступ к подкластерам при создании кластера.
Примечание
Следующий шаг предполагает, что подключение к кластеру производится с ВМ на основе Linux.
-
-
Подключитесь к ВМ по SSH.
Создайте кластер
Чтобы создать кластер:
- В консоли управления откройте каталог, в котором нужно создать кластер, и выберите сервис Yandex Data Processing.
- Нажмите кнопку Создать кластер.
- Задайте параметры кластера и нажмите кнопку Создать кластер. Процесс подробно рассмотрен в разделе Создание кластера.
- Дождитесь, когда кластер будет готов к работе: его состояние сменится на Alive. Это может занять некоторое время.
Подключитесь к кластеру
Чтобы подключиться к кластеру:
-
Если вы используете группы безопасности для облачной сети, настройте их так, чтобы был разрешен весь необходимый трафик между кластером и хостом, с которого выполняется подключение.
-
Скопируйте на ВМ SSL-ключ, который вы указали при создании кластера Yandex Data Processing.
-
Подключитесь к кластеру по SSH и проверьте, что команды Hadoop выполняются. В зависимости от версии образа, укажите имя пользователя:
- для версии 2.0 —
ubuntu
; - для версии 1.4 —
root
.
- для версии 2.0 —
Подробно процесс подключения к кластеру Yandex Data Processing рассмотрен в разделе Подключение к кластеру.
Подключитесь к интерфейсам компонентов
Чтобы подключиться к интерфейсам компонентов Yandex Data Processing по веб-интерфейсу:
- Включите настройку UI Proxy в кластере.
- Получите список URL интерфейсов.
Чтобы подключиться к интерфейсам компонентов Yandex Data Processing по SSH с перенаправлением портов:
-
Создайте промежуточную ВМ с публичным IP-адресом в одной сети с кластером и с группой безопасности, в которой разрешены входящий и исходящий трафик через порты компонентов.
-
Подключитесь к созданной ВМ по SSH с перенаправлением к нужным портам хоста Yandex Data Processing. В зависимости от версии образа, укажите имя пользователя:
- для версии 2.0 —
ubuntu
; - для версии 1.4 —
root
.
- для версии 2.0 —
Подробно процесс подключения к интерфейсам компонентов кластера Yandex Data Processing рассмотрен в разделе Подключение к интерфейсам компонентов.
Что дальше
- Изучите концепции сервиса.
- Узнайте подробнее о создании кластера и работе с заданиями.