Yandex Cloud
Поиск
Связаться с намиПодключиться
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
    • Популярные
    • Инфраструктура и сеть
    • Платформа данных
    • Контейнеры
    • Инструменты разработчика
    • Бессерверные вычисления
    • Безопасность
    • Мониторинг и управление ресурсами
    • Машинное обучение
    • Бизнес-инструменты
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Облако для интеграторов
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Контент-программа
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Истории успеха
    • Тарифы Yandex Cloud
    • Промоакции и free tier
    • Правила тарификации
  • Документация
  • Блог
Проект Яндекса
© 2025 ООО «Яндекс.Облако»
Yandex Data Processing
  • Начало работы
    • Все инструкции
      • Информация об имеющихся кластерах
      • Создание кластера
      • Создание кластера с автомасштабированием в сети другого каталога
      • Подключение к кластеру
      • Изменение кластера
      • Миграция легковесного кластера в другую зону доступности
      • Удаление кластера
    • Подготовка и использование виртуальных окружений Python
  • Управление доступом
  • Правила тарификации
  • Справочник Terraform
  • Метрики Monitoring
  • Аудитные логи Audit Trails
  • Публичные материалы
  • Вопросы и ответы
  • Обучающие курсы

В этой статье:

  • Настройка групп безопасности
  • FQDN хоста Yandex Data Processing
  • SSH-подключение к хосту Yandex Data Processing
  • Подключение из графических IDE
  1. Пошаговые инструкции
  2. Кластеры Yandex Data Processing
  3. Подключение к кластеру

Подключение к кластеру Yandex Data Processing

Статья создана
Yandex Cloud
Обновлена 31 января 2025 г.
  • Настройка групп безопасности
  • FQDN хоста Yandex Data Processing
  • SSH-подключение к хосту Yandex Data Processing
  • Подключение из графических IDE

После создания кластера Yandex Data Processing вы можете подключиться к хостам подкластеров:

  • Через интернет, если вы настроили публичный доступ для подкластера.
  • С виртуальной машины Yandex Cloud, расположенной в той же облачной сети.

Настройка групп безопасностиНастройка групп безопасности

Группы безопасности могут препятствовать подключению к кластеру — в этом случае внесите изменения в правила групп.

Внимание

При настройке групп безопасности не изменяйте правила для служебного трафика. Это может привести к неработоспособности кластера.

Настройки правил будут различаться в зависимости от выбранного способа подключения:

SSH
UI Proxy
Подключение с перенаправлением портов
  • Для подключения к хостам подкластеров с публичным доступом из облачных сетей и интернета настройте группы безопасности кластера так, чтобы они разрешали входящий трафик с любых IP-адресов на порт 22. Для этого создайте следующее правило для входящего трафика:

    • Диапазон портов — 22.
    • Протокол — TCP.
    • Источник — CIDR.
    • CIDR блоки — 0.0.0.0/0.
  • Для подключения к кластеру с промежуточной виртуальной машины:

    1. Настройте группу безопасности, в которой находится ВМ, так, чтобы можно было подключаться к ВМ и был разрешен трафик между ВМ и хостами подкластеров. Для этого создайте следующие правила:

      • для входящего трафика:

        • Диапазон портов — 22.
        • Протокол — TCP.
        • Источник — CIDR.
        • CIDR блоки — 0.0.0.0/0.
      • для исходящего трафика:

        • Диапазон портов — 22.
        • Протокол — TCP.
        • Назначение — CIDR.
        • CIDR блоки — диапазон адресов подсети, в которой находятся хосты кластера. Если подкластеры находятся в разных подсетях, то создайте это правило для каждой подсети.
    2. Настройте группы безопасности кластера так, чтобы они разрешали входящий трафик из группы безопасности, в которой находится ВМ, на порт 22. Для этого создайте следующее правило для входящего трафика:

      • Диапазон портов — 22.
      • Протокол — TCP.
      • Источник — Группа безопасности.
      • Группа безопасности — группа безопасности, в которой находится ВМ.

Для использования UI Proxy добавьте в группу безопасности хоста подкластера правила, разрешающие входящий трафик через порт 443:

  • Диапазон портов — 443.
  • Протокол — TCP.
  • Источник — CIDR.
  • CIDR блоки — 0.0.0.0/0.

Если подключение выполняется через промежуточную ВМ, добавьте в группу безопасности хоста подкластера правила, разрешающие подключения через нее:

  • для входящего трафика:

    • Диапазон портов — 443.
    • Протокол — TCP.
    • Источник — CIDR.
    • CIDR блоки — 0.0.0.0/0.
  • для исходящего трафика:

    • Диапазон портов — 443.
    • Протокол — TCP.
    • Назначение — CIDR.
    • CIDR блоки — диапазон адресов подсети, в которой находится хост подкластера.

При использовании перенаправления портов, добавьте в группу безопасности промежуточной ВМ правила, разрешающие входящий и исходящий трафик через порты требуемых компонентов:

  • Диапазон портов — <порт_компонента>.

    Номера портов для компонентов Yandex Data Processing приведены в таблице:

    Сервис Порт
    HBase Master 16010
    HBase REST 8085
    HDFS Name Node 9870
    Hive Server2 10002
    Livy 8998
    MapReduce Application History 19888
    Oozie 11000
    Spark History 18080
    YARN Application History 8188
    YARN Resource Manager 8088
    Zeppelin 8890
  • Протокол — TCP.

  • Источник — CIDR.

  • CIDR блоки — 0.0.0.0/0.

Примечание

Вы можете задать более детальные правила для групп безопасности, например, разрешающие трафик только в определенных подсетях.

Группы безопасности должны быть корректно настроены для всех подсетей, в которых будут размещены подкластеры.

Подробнее о группах безопасности см. в разделе Группы безопасности.

FQDN хоста Yandex Data ProcessingFQDN хоста Yandex Data Processing

Для подключения к хосту потребуется его FQDN — доменное имя. Его можно посмотреть в консоли управления:

  1. Перейдите на страницу кластера.
  2. Перейдите в раздел Хосты.
  3. Скопируйте значение в столбце FQDN хоста.

SSH-подключение к хосту Yandex Data ProcessingSSH-подключение к хосту Yandex Data Processing

Чтобы подключиться к хосту Yandex Data Processing, на локальной машине или промежуточной ВМ должен быть доступен SSH-ключ, который вы указали при создании кластера Yandex Data Processing. Вы можете скопировать ключ на машину, с которой будет производиться подключение к кластеру, или подключаться к ней с запущенным SSH-агентом.

  1. Подключитесь к промежуточной виртуальной машине по протоколу SSH, если вы не настраивали публичный доступ для подкластера.

  2. Запустите SSH-агент:

    eval `ssh-agent -s`
    
  3. Добавьте нужный ключ в список доступных агенту:

    ssh-add ~/.ssh/example-key
    
  4. Откройте SSH-соединение с хостом Yandex Data Processing, указав его FQDN или IP-адрес, если для хоста включен публичный доступ. Для образа 2.0 укажите пользователя ubuntu, для образа 1.4 — root, например:

    ssh ubuntu@rc1b-dataproc-m-fh4y4nur********.mdb.yandexcloud.net
    

    Результат:

    ubuntu@rc1b-dataproc-m-fh4y4nur********:~#
    
  5. Проверьте, что команды Hadoop выполняются, например:

    hadoop version
    

    Результат:

    Hadoop 2.8.5
    Subversion https://github.yandex-team.ru/mdb/bigtop.git -r 78508f2a4b4f3dc8b3d295ccb50a45a4********
    Compiled by robot-pgaas-ci on 2019-04-16T10:35Z
    Compiled with protoc 2.5.0
    From source with checksum 9942ca5c745417c14e31883********
    This command was run using /usr/lib/hadoop/hadoop-common-2.8.5.jar
    

Подключение из графических IDEПодключение из графических IDE

Подключения проверялись в следующем окружении:

  • Ubuntu 20.04, DBeaver: 22.2.4;
  • MacOS Monterey 12.7:
    • JetBrains DataGrip: 2023.3.4;
    • DBeaver Community: 24.0.0.

Для использования графических IDE сохраните сертификат в локальную папку и укажите путь к нему в настройках подключения.

DataGrip
DBeaver
  1. Создайте источник данных:
    1. Выберите в меню File → New → Data Source → Apache Hive.

      Примечание

      Выберите источник данных в зависимости от компонента Yandex Data Processing, к которому вы подключаетесь:

      • Hive — выберите Apache Hive;
      • Spark — выберите Apache Spark.

      Список настроек не меняется.

    2. Укажите параметры подключения на вкладке General:

      • Host — FQDN хоста-мастера кластера или его публичный IP-адрес;
      • Если вы подключаетесь впервые, то нажмите ссылку Download, чтобы загрузить драйвер соединения.
    3. На вкладке SSH/SSL:

      1. Включите настройку Use SSL и укажите параметры для SSL-подключения:
        • CA file — загруженный ранее SSL-сертификат для подключения;
        • Client key file, Client key password — файл закрытого ключа для подключения к кластеру Yandex Data Processing и пароль к нему.
      2. (Опционально) Для подключения через промежуточную ВМ настройте параметры SSH-туннеля:
        1. Выберите Use SSH tunnel, создайте SSH-конфигурацию и укажите параметры:
          • Host — IP-адрес ВМ;
          • User name — имя пользователя ВМ;
          • Private key file, Passphrase — файл закрытого ключа для подключения к ВМ и пароль к нему.
        2. Нажмите ссылку Test Connection для проверки подключения к ВМ из DataGrip.
        3. Нажмите кнопку OK, чтобы сохранить конфигурацию.
  2. Нажмите ссылку Test Connection для проверки подключения. При успешном подключении будет выведен статус подключения OK, информация о СУБД и драйвере.
  3. Нажмите кнопку OK, чтобы сохранить источник данных.
  1. Загрузите SSH-ключ на локальную машину или ВМ для подключения к кластеру Yandex Data Processing.
  2. Создайте новое соединение с БД:
    1. Выберите в меню База данных пункт Новое соединение.

    2. Выберите из списка БД источник данных в зависимости от конфигурации кластера Yandex Data Processing, к которому вы подключаетесь:

      • Если в кластере используется Hive — выберите Apache Hive.
      • Если в кластере включен только Spark и включен Thrift-сервер — выберите Apache Spark.
    3. Нажмите кнопку Далее.

    4. На вкладке SSH включите настройку Использовать туннель SSH и укажите параметры:

      • Хост/IP — FQDN (для подключения через промежуточную ВМ) или публичный IP-адрес хоста-мастера;
      • Имя пользователя – укажите имя пользователя:
        • для версии 2.0 — ubuntu;
        • для версии 1.4 — root.
      • Метод аутентификации — Публичный ключ;
      • Секретный ключ — путь к файлу закрытого ключа кластера;
      • Passphrase — пароль от закрытого ключа.
      • (Опционально) Для подключения через промежуточную ВМ включите настройку Использовать jump сервер и укажите параметры:
        • Хост/IP — публичный IP-адрес ВМ для подключения;
        • Имя пользователя — логин для подключения к ВМ;
        • Метод аутентификации — Публичный ключ;
        • Секретный ключ — путь к файлу закрытого ключа ВМ;
        • Passphrase — пароль от закрытого ключа.
  3. Нажмите кнопку Тест соединения ... для проверки подключения. При успешном подключении будет выведен статус подключения, информация о СУБД и драйвере.
  4. Нажмите кнопку Готово, чтобы сохранить настройки соединения с БД.

Была ли статья полезна?

Предыдущая
Создание кластера с автомасштабированием в сети другого каталога
Следующая
Изменение кластера
Проект Яндекса
© 2025 ООО «Яндекс.Облако»