Работа с заданиями Hive

Статья создана

Обновлена 25 июня 2026 г.

Перед началом работы
- Необходимые платные ресурсы
Подготовьте инфраструктуру
Создайте задание Hive
Удалите созданные ресурсы

Apache Hive — это система управления большими распределенными наборами данных на основе платформы Hadoop, использующая язык запросов SQL.

В этой статье на простом примере показывается, как в Yandex Data Processing использовать Hive для анализа данных. При помощи Hive в приведенном примере анализируется численность населения крупнейших городов России.

Чтобы выполнить задание Hive:

Если созданные ресурсы вам больше не нужны, удалите их.

Перед началом работы

Зарегистрируйтесь в Yandex Cloud и создайте платежный аккаунт:

Перейдите в консоль управления, затем войдите в Yandex Cloud или зарегистрируйтесь.
На странице Yandex Cloud Billing убедитесь, что у вас подключен платежный аккаунт, и он находится в статусе ACTIVE или TRIAL_ACTIVE. Если платежного аккаунта нет, создайте его и привяжите к нему облако.

Если у вас есть активный платежный аккаунт, вы можете создать или выбрать каталог, в котором будет работать ваша инфраструктура, на странице облака.

Подробнее об облаках и каталогах.

Необходимые платные ресурсы

Кластер Yandex Data Processing: использование вычислительных ресурсов с наценкой за сервис Yandex Data Processing, использование сетевых дисков, получение и хранение логов, объем исходящего трафика (тарифы Yandex Data Processing).
Публичные IP-адреса, если для хостов кластера включен публичный доступ (тарифы Yandex Virtual Private Cloud).
Бакеты Yandex Object Storage: использование хранилища и выполнение операций с данными (тарифы Object Storage).

Подготовьте инфраструктуру

Создайте сервисный аккаунт с ролями dataproc.agent и dataproc.provisioner.
В Object Storage создайте бакеты и настройте доступ к ним:
1. Создайте бакет для исходных данных и предоставьте сервисному аккаунту кластера разрешение READ для этого бакета.
2. Создайте бакет для результатов обработки и предоставьте сервисному аккаунту кластера разрешение READ и WRITE для этого бакета.
Создайте кластер Yandex Data Processing со следующими настройками:
- Окружение — PRODUCTION.
- Сервисы:
  - HDFS
  - SPARK
  - HIVE
- Сервисный аккаунт: выберите созданный ранее сервисный аккаунт.
- Имя бакета: выберите бакет для результатов обработки.

Создайте задание Hive

В бакете для исходных данных создайте папку cities и загрузите в нее файл для обработки cities.csv:
cities.csv
```
Moscow,12655000
Saint Petersburg,5384000
Novosibirsk,1620000
Yekaterinburg,1495000
Kazan,1257000
Nizhny Novgorod,1244000
Chelyabinsk,1188000
Samara,1145000
Omsk,1140000
Rostov-on-Don,1138000
Ufa,1126000
Krasnoyarsk,1093000
Voronezh,1051000
Perm,1049000
Volgograd,1005000
```
В файле показана численность населения крупнейших городов России, с населением более одного миллиона человек, по оценке на 2021 год (округленно).

Создайте и загрузите в бакет для исходных данных файл c SQL-запросами cities.sql:

cities.sql

/* Создать внешнюю таблицу с данными, которые содержатся в CSV-файлах: */
CREATE EXTERNAL TABLE IF NOT EXISTS cities
(city_name string, population decimal)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
STORED AS TEXTFILE
LOCATION 's3a://<бакет_для_исходных_данных>/cities';

/* Показать количество городов и суммарную численность населения в них: */
SELECT COUNT(*) num_cities, SUM(population) sum_populataion FROM cities;

/* Показать минимальную и максимальную численность населения: */
SELECT MIN(population) min_population, MAX(population) max_population FROM cities;

Создайте задание Hive с параметрами:
- Драйвер: Файл
- Файл с запросами: s3a://<имя_бакета_для_исходных_данных>/cities.sql
Подождите, пока статус задания изменится на Done.

Откройте логи задания и просмотрите результаты обработки:

Логи

...
OK
15  33590000
Time taken: 21.104 seconds, Fetched: 1 row(s)
...
OK
1005000 12655000
Time taken: 3.393 seconds, Fetched: 1 row(s)

Примечание

Вы можете просматривать логи выполнения заданий и искать в них информацию с помощью сервиса Yandex Cloud Logging. Подробнее в разделе Работа с логами.

Удалите созданные ресурсы

Некоторые ресурсы платные. Чтобы за них не списывалась плата, удалите ресурсы, которые вы больше не будете использовать:

Работа с заданиями Hive

Перед началом работыПеред началом работы

Необходимые платные ресурсыНеобходимые платные ресурсы

Подготовьте инфраструктуруПодготовьте инфраструктуру

Создайте задание HiveСоздайте задание Hive

Удалите созданные ресурсыУдалите созданные ресурсы

Была ли статья полезна?

Перед началом работы

Необходимые платные ресурсы

Подготовьте инфраструктуру

Создайте задание Hive

Удалите созданные ресурсы