Yandex Data Processing

Сервис для обработки многотерабайтных массивов данных с использованием инструментов с открытым исходным кодом, таких как Apache Spark, Apache Hadoop®, Apache HBase®, Apache Zeppelin и других сервисов экосистемы Apache®.

Простота использования

Выберите размер кластера, мощность узлов и набор сервисов, а Yandex Data Processing автоматически создаст и настроит кластеры Spark, Hadoop и другие компоненты. Для совместной работы есть возможность использовать Zeppelin notebooks и другие WEB-приложения через UI Proxy.

Низкая стоимость

Вы можете запустить кластер Yandex Data Processing всего за 18 рублей в час. Кроме того, можно экономить до 70% от стоимости виртуальных машин, выбирая прерываемые виртуальные машины.

Полный контроль над кластером

Вы полностью контролируете кластер с root-пользователем для каждой виртуальной машины. Устанавливайте собственные приложения и библиотеки на работающих кластерах без необходимости их перезагружать.

АвтомасштабированиеPreview

Yandex Data Processing использует группы виртуальных машин Instance Groups, чтобы автоматически наращивать или уменьшать вычислительные ресурсы compute-подкластеров на основе показателей загруженности процессоров.

Автоматизация задач

Сэкономьте время на построении ETL-пайплайнов и пайплайнов для обучения и разработки моделей, а также для описания других итерационных задач. В Apache Airflow уже встроен оператор Yandex Data Processing.

Решайте свои задачи с Yandex Data Processing

Анализ действий пользователей

Анализируйте события с помощью кластера Hadoop. Используйте инструменты аналитики для категоризации данных, выявления закономерностей и тенденций.

Обработка данных в потоковом режиме

Обрабатывайте потоки данных в режиме реального времени с помощью кластера Apache Spark. Стройте метрики и сохраняйте необходимые срезы, интегрируя Yandex Data Processing c Yandex Object Storage.

Работает в связке с
Object Storage

Извлечение, преобразование и загрузка данных

Описывайте и обрабатывайте потоки данных с помощью системы Apache Oozie. Автоматически стройте витрины данных и бизнес-метрики.

Мы берём на себя большую часть работы по обслуживанию кластеров

Процессы
Yandex Data Processing
Самостоятельная инсталляция Apache Hadoop
Разграничение доступа к данным
Создание и изменение кластеров
Настройка сети
Установка ОС и ПО
Обновление версий образов
Интерфейсы запуска заданий
Автоматизация масштабирования
Интеграция с сервисами Yandex Cloud
Инструменты мониторинга

Самостоятельный контроль

Контроль на стороне Yandex Cloud

С чего начать

Выберите необходимые вычислительные мощности, сервисы Apache® и создайте готовый к работе кластер Yandex Data Processing.

Научим работать с сервисом

На курсе «Инженер облачных сервисов» вы научитесь создавать отказоустойчивые облачные системы, работать с управляемыми базами данных и контейнерами, изучите основы бессерверных технологий и подходы к созданию защищённой от внешних атак облачной инфраструктуры.

Вопросы и ответы

Какие сервисы Apache® доступны в Yandex Data Processing?

Spark, HDFS, YARN, HBase®, Oozie, Sqoop, Flume, Tez®, Zeppelin.

Начните пользоваться Yandex Data Processing

Apache, Apache Hadoop, Apache Spark и Apache Oozie являются зарегистрированными товарными знаками или товарными знаками Apache Software Foundation в США и/или других странах.