Работа с заданиями MapReduce

Статья создана

Обновлена 25 июня 2026 г.

Перед началом работы
- Необходимые платные ресурсы
Подготовьте инфраструктуру
Создайте задание MapReduce
Удалите созданные ресурсы

MapReduce — инструмент параллельной обработки больших (порядка нескольких десятков ТБ) наборов данных на кластерах в экосистеме Hadoop. Позволяет работать с данными в разных форматах. Ввод и вывод задания хранится в Yandex Object Storage. MapReduce использует ряд библиотек, путь к которым определяется сборщиком Apache Bigtop.

В этой статье на простом примере показывается, как в Yandex Data Processing использовать MapReduce. При помощи MapReduce подсчитывается количество жителей 500 самых населенных городов мира из набора данных о городах.

Чтобы запустить MapReduce на Hadoop, используется интерфейс Streaming. При этом для этапов предобработки данных (map) и вычисления финальных данных (reduce) используются программы, читающие из стандартного программного ввода (stdin) и выдающие результат в стандартный вывод (stdout).

Чтобы выполнить задание MapReduce:

Если созданные ресурсы вам больше не нужны, удалите их.

Перед началом работы

Зарегистрируйтесь в Yandex Cloud и создайте платежный аккаунт:

Перейдите в консоль управления, затем войдите в Yandex Cloud или зарегистрируйтесь.
На странице Yandex Cloud Billing убедитесь, что у вас подключен платежный аккаунт, и он находится в статусе ACTIVE или TRIAL_ACTIVE. Если платежного аккаунта нет, создайте его и привяжите к нему облако.

Если у вас есть активный платежный аккаунт, вы можете создать или выбрать каталог, в котором будет работать ваша инфраструктура, на странице облака.

Подробнее об облаках и каталогах.

Необходимые платные ресурсы

Кластер Yandex Data Processing: использование вычислительных ресурсов с наценкой за сервис Yandex Data Processing, использование сетевых дисков, получение и хранение логов, объем исходящего трафика (тарифы Yandex Data Processing).
Публичные IP-адреса, если для хостов кластера включен публичный доступ (тарифы Yandex Virtual Private Cloud).
Бакеты Yandex Object Storage: использование хранилища и выполнение операций с данными (тарифы Object Storage).

Подготовьте инфраструктуру

Создайте сервисный аккаунт с ролями dataproc.agent и dataproc.provisioner.
В Object Storage создайте бакеты и настройте доступ к ним:
1. Создайте бакет для исходных данных и предоставьте сервисному аккаунту кластера разрешение READ для этого бакета.
2. Создайте бакет для результатов обработки и предоставьте сервисному аккаунту кластера разрешение READ и WRITE для этого бакета.
Создайте кластер Yandex Data Processing со следующими настройками:
- Окружение — PRODUCTION.
- Сервисы:
  - HDFS
  - MAPREDUCE
  - YARN
- Сервисный аккаунт: выберите созданный ранее сервисный аккаунт.
- Имя бакета: выберите бакет для результатов обработки.

Создайте задание MapReduce

Скачайте и загрузите в бакет для исходных данных архив CSV-файла с набором данных о городах.
Загрузите в бакет для исходных данных файлы на языке Python с кодом программ предобработки данных (этап map) mapper.py и вычисления финальных данных (этап reduce) reducer.py:

mapper.py
```
#!/usr/bin/python
import sys

population = sum(int(line.split('\t')[14]) for line in sys.stdin)
print(population)
```
reducer.py
```
#!/usr/bin/python
import sys

population = sum(int(value) for value in sys.stdin)
print(population)
```
Создайте задание MapReduce с параметрами:
- Основной класс: org.apache.hadoop.streaming.HadoopStreaming
- Аргументы:
  - -mapper
  - mapper.py
  - -reducer
  - reducer.py
  - -numReduceTasks
  - 1
  - -input
  - s3a://<имя_бакета_для_исходных_данных>/cities500.txt
  - -output
  - s3a://<имя_бакета_для_результатов_обработки>/<папка_для_результатов>
- Файлы:
  - s3a://<имя_бакета_для_исходных_данных>/mapper.py
  - s3a://<имя_бакета_для_исходных_данных>/reducer.py
- Настройки:
  - mapreduce.job.maps: 6
  - yarn.app.mapreduce.am.resource.mb: 2048
  - yarn.app.mapreduce.am.command-opts: -Xmx2048m
Подождите, пока статус задания изменится на Done.
Скачайте из бакета и просмотрите файл с результатом обработки:

part-00000
```
3157107417
```

Примечание

Вы можете просматривать логи выполнения заданий и искать в них информацию с помощью сервиса Yandex Cloud Logging. Подробнее в разделе Работа с логами.

Удалите созданные ресурсы

Некоторые ресурсы платные. Чтобы за них не списывалась плата, удалите ресурсы, которые вы больше не будете использовать:

Работа с заданиями MapReduce

Перед началом работыПеред началом работы

Необходимые платные ресурсыНеобходимые платные ресурсы

Подготовьте инфраструктуруПодготовьте инфраструктуру

Создайте задание MapReduceСоздайте задание MapReduce

Удалите созданные ресурсыУдалите созданные ресурсы

Была ли статья полезна?

Перед началом работы

Необходимые платные ресурсы

Подготовьте инфраструктуру

Создайте задание MapReduce

Удалите созданные ресурсы