Обработка и анализ больших данных с помощью Apache Spark на Yandex Data Processing

  • Свободный доступ
  • 7 тем с теорией и практикой
  • Материал рассчитан на 75 часов
  • Свидетельство о прохождении курса

Обновлено в марте 2025 года.

Что вы узнаете

Как проектировать архитектуру для обработки больших данных

Как управлять кластерами Apache Spark

Применение технологии Data Lakehouse в Yandex Cloud

Методы пакетной обработки данных с датасетом R7

Технологии работы с потоковыми данными

Как организовывать и запускать задания Apache Spark

Yandex Data Processing

Сервис для обработки многотерабайтных массивов данных с использованием инструментов с открытым исходным кодом, таких как Apache Spark, Apache Hadoop®, Apache HBase®, Apache Hive, Apache Zeppelin и других сервисов экосистемы Apache®.

Кому будет полезно

  • Дата-инженерам, которые хотят узнать, как Yandex Data Processing может быть использован для решения задач по обработке и анализу данных.
  • DataOps‑инженерам, которые хотят узнать, как правильно эксплуатировать Yandex Data Processing и другие сервисы Data Platform в Yandex Cloud.
  • Аналитикам данных, которые хотят узнать, как обрабатывать данные и создавать витрины с помощью Yandex Data Processing.

Программа

Темы можно проходить в произвольном порядке

— Современные подходы к обработке больших данных

— MPP vs MapReduce

— Архитектура Apache Spark

— Проектирование архитектуры решения

Разработано совместно с Hilbert Team

Команда инженеров Hilbert Team бесшовно перенесёт ваш бизнес в облако, поможет оптимизировать и автоматизировать IT‑инфраструктуру и процессы, закроет все нужные компетенции и сопроводит ваш проект.

Авторы

Что вас ждёт

Доступ в любое время

Это курс для самостоятельного обучения — вы можете узнать новое в комфортном для вас темпе, когда угодно, из любой точки мира. А доступ к материалам курса останется у вас навсегда.

Понятная теория на интерактивной платформе

Программу составили эксперты Yandex Cloud с большим опытом работы в IT-индустрии. Вы будете изучать теорию с примерами из жизни и интерактивными заданиями прямо на платформе.

Практические работы с сервисами Yandex Cloud

Пробуйте силы на реальных кейсах.

Обмен опытом

Задавайте вопросы в телеграм-чате, обменивайтесь опытом и получайте рекомендации от экспертов Yandex Cloud.

Вам потребуются знания и навыки

Знание Spark и PySpark на базовом уровне

Владение одним из языков программирования (Python, Java, Go, Scala, C++, .Net)

Навыки работы в операционных системах Linux/Unix

Базовые навыки работы с SQL

Базовые навыки работы с СУБД (классическими или NoSQL)

Частые вопросы

Для закрепления теории вам даются практические задания, которые вы выполняете самостоятельно. Вы можете проверить себя по подробному How‑to‑guide и задать вопросы другим студентам в телеграм‑чате.

Начните прямо сейчас

Научитесь решать привычные задачи быстрее с помощью нового инструмента