Yandex Cloud
Поиск
Связаться с намиПодключиться
  • Истории успеха
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
    • Популярные
    • Инфраструктура и сеть
    • Платформа данных
    • Контейнеры
    • Инструменты разработчика
    • Бессерверные вычисления
    • Безопасность
    • Мониторинг и управление ресурсами
    • ИИ для бизнеса
    • Бизнес-инструменты
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Облако для интеграторов
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Контент-программа
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Тарифы Yandex Cloud
    • Промоакции и free tier
    • Правила тарификации
  • Истории успеха
  • Документация
  • Блог
Проект Яндекса
© 2025 ООО «Яндекс.Облако»
Yandex Data Processing
  • Начало работы
    • Взаимосвязь ресурсов сервиса
    • Среда исполнения
    • Интерфейсы и порты компонентов Yandex Data Processing
    • Задания в Yandex Data Processing
    • Задания Spark
    • Автоматическое масштабирование
    • Декомиссия подкластеров и хостов
    • Сеть в Yandex Data Processing
    • Техническое обслуживание
    • Квоты и лимиты
    • Хранилище в Yandex Data Processing
    • Свойства компонентов
    • Apache Iceberg™ в Yandex Data Processing
    • Delta Lake в Yandex Data Processing
    • Логи в Yandex Data Processing
    • Скрипты инициализации
  • Управление доступом
  • Правила тарификации
  • Справочник Terraform
  • Метрики Monitoring
  • Аудитные логи Audit Trails
  • Публичные материалы
  • Вопросы и ответы
  • Обучающие курсы

В этой статье:

  • Ресурсы
  • Легковесные кластеры
  • Безопасность
  1. Концепции
  2. Взаимосвязь ресурсов сервиса

Взаимосвязь ресурсов сервиса Yandex Data Processing

Статья создана
Yandex Cloud
Улучшена
Sergey Z.
Обновлена 31 января 2025 г.
  • Ресурсы
  • Легковесные кластеры
  • Безопасность

Сервис Yandex Data Processing позволяет реализовать распределенное хранение и обработку данных с помощью сервисов из экосистемы Apache Hadoop.

РесурсыРесурсы

Основная сущность сервиса — кластер. Кластер объединяет все ресурсы, доступные Hadoop: вычислительные мощности и хранилище.

Каждый кластер состоит из подкластеров. Подкластеры объединяют хосты, выполняющие идентичные функции:

  • Подкластер с хостом-мастером (masternode). Например, NameNode для HDFS или ResourceManager для YARN.

    В каждом кластере может быть не больше одного подкластера с хостом-мастером.

  • Подкластеры для хранения данных (Data или datanode). Например, DataNode для HDFS.

  • Подкластеры для обработки данных (Compute или computenode). Например, NodeManager для YARN.

Подкластеры каждого кластера должны находиться в одной облачной сети и в одной зоне доступности.

Хосты в каждом подкластере создаются с вычислительной мощностью, соответствующей указанному классу хостов. Список доступных классов хостов и их характеристики см. в разделе Классы хостов.

Виртуальные машины, соответствующие хостам кластера, могут размещаться:

  • На стандартных хостах Yandex Cloud.

    Это физические серверы для размещения виртуальных машин кластера. Такие хосты выбираются случайным образом из пула доступных хостов, удовлетворяющих выбранной конфигурации подкластеров.

  • На выделенных хостах Yandex Cloud.

    Это физические серверы для размещения исключительно ваших виртуальных машин. Эти виртуальные машины обеспечивают как работу кластера, так и работу других ваших сервисов, которые поддерживают выделенные хосты. Такие хосты выбираются из групп выделенных хостов, указанных при создании кластера.

    При таком варианте размещения обеспечивается физическая изоляция виртуальных машин. Кластер Yandex Data Processing, использующий выделенные хосты, обладает всеми возможностями обычных кластеров.

    Подробнее о выделенных хостах см. в документации Yandex Compute Cloud.

О сетевой конфигурации и сетевом доступе к кластеру см. раздел Сеть в Yandex Data Processing.

Важно

Изменение свойств хостов через интерфейсы Yandex Compute Cloud может привести к его неработоспособности. Чтобы изменить параметры хостов кластера, воспользуйтесь интерфейсами сервиса Yandex Data Processing: консолью управления, CLI, Terraform или API.

Легковесные кластерыЛегковесные кластеры

Начиная с версии образа 2.0.39 доступна легковесная (LightWeight) конфигурация кластера — без HDFS и подкластеров для хранения данных. Такие кластеры могут включать в себя, например, только YARN и SPARK. Они создаются быстрее и эффективней используют вычислительные ресурсы хостов. Легковесные кластеры рекомендуются для запуска единичных заданий для обработки данных в Spark или PySpark.

Преимущества легковесных кластеров:

  • Spark Driver запускается на подкластере с хостами-мастерами. Это позволяет выдавать разные ресурсы для подкластера с хостами-мастерами, где будет запущен Spark Driver, и подкластеров для обработки данных, где будут запущены Spark Executors.

  • В обычных кластерах на каждом подкластере для обработки данных запускается как минимум по одному экземпляру Spark Driver и Spark Executor. В легковесных кластерах Spark Driver может использовать все свободные ресурсы подкластера с хостами-мастерами, а Spark Executors — все свободные ресурсы подкластеров для обработки данных. Это повышает эффективность работы хостов.

Требования для использования легковесных кластеров:

  • Не выбран компонент HDFS.
  • В кластере не используются подкластеры для хранения данных.
  • Кластер содержит один или несколько подкластеров для обработки данных.
  • В настройках кластера указан бакет в Yandex Object Storage.

Подробнее о распределении ресурсов см. в разделе Задания Spark.

БезопасностьБезопасность

Так как кластер Yandex Data Processing имеет функцию запуска заданий без непосредственного доступа к кластеру по SSH, то для удобства пользователя кластер пишет журнал выполнения заданий в S3-бакет. Запись в бакет происходит под сервисным аккаунтом, указанным во время создания кластера. Более подробно с концепцией можно ознакомиться на странице Сервисные аккаунты.

Для кластера Yandex Data Processing рекомендуется использовать хотя бы два отдельных бакета S3:

  1. Для исходных данных, где сервисный аккаунт имеет права только на чтение.
  2. Для журналов и результатов операций — сервисный аккаунт имеет полный доступ.

Это необходимо для уменьшения рисков непредвиденных модификаций и удаления исходных данных.

Была ли статья полезна?

Предыдущая
Автоматизация работы с помощью Managed Service for Apache Airflow™
Следующая
Действующие классы хостов
Проект Яндекса
© 2025 ООО «Яндекс.Облако»