Обработка и анализ больших данных с помощью Apache Spark на Yandex Data Processing

  • Свободный доступ
  • 7 тем с теорией и практикой
  • Материал рассчитан на 75 часов
  • Свидетельство об окончании

Обновлено в марте 2025 года.

Вы узнаете

Как проектировать архитектуру для обработки больших данных

Как управлять кластерами Apache Spark

О применении технологии Data Lakehouse в Yandex Cloud

Методы пакетной обработки данных с датасетом R7

Технологии работы с потоковыми данными

Как организовывать и запускать задания Apache Spark

Yandex Data Processing

Сервис для обработки многотерабайтных массивов данных с использованием инструментов с открытым исходным кодом, таких как Apache Spark, Apache Hadoop®, Apache HBase®, Apache Hive, Apache Zeppelin и других сервисов экосистемы Apache®.

Кому будет полезно

  • Дата-инженерам, которые хотят узнать, как можно использовать Yandex Data Processing для решения задач по обработке и анализу данных.
  • DataOps‑инженерам, которые хотят освоить Yandex Data Processing и другие сервисы Data Platform в Yandex Cloud.
  • Аналитикам данных, которые хотят научиться обрабатывать данные и создавать витрины с помощью Yandex Data Processing.

Программа

Темы можно проходить в произвольном порядке

— Современные подходы к обработке больших данных

— MPP vs MapReduce

— Архитектура Apache Spark

— Проектирование архитектуры решения

Разработано совместно с Hilbert Team

Команда инженеров Hilbert Team бесшовно перенесёт ваш бизнес в облако, поможет оптимизировать и автоматизировать IT‑инфраструктуру и процессы, закроет все нужные компетенции и сопроводит ваш проект.

Авторы

Что вас ждёт

Понятная теория на интерактивной платформе

Программу составили эксперты Yandex Cloud с большим опытом работы в IT. Вы изучите теорию на наглядных примерах и выполните интерактивные задания на платформе.

Практические работы с сервисами Yandex Cloud

Пробуйте силы на реальных кейсах.

Поддержка на всех этапах

Задавайте вопросы в телеграм-чате, обменивайтесь опытом и получайте рекомендации от экспертов Yandex Cloud.

Доступ в любое время

Подходит для самостоятельного обучения — узнавайте новое в комфортном для вас темпе, когда и где угодно. А доступ к материалам останется у вас навсегда.

Вам потребуются знания и навыки

Основы Spark и PySpark

Владение одним из языков программирования (Python, Java, Go, Scala, C++, .Net)

Опыт работы в операционных системах Linux/Unix

Опыт работы с SQL

Умение работать с СУБД (классическими или NoSQL)

Частые вопросы

Для закрепления теории вам даются практические задания, которые вы выполняете самостоятельно. Вы можете проверить себя по подробному How‑to‑guide и задать вопросы другим студентам в телеграм‑чате.

Начните прямо сейчас

Научитесь решать привычные задачи быстрее с помощью нового инструмента.