Обработка и анализ больших данных с помощью Apache Spark на Yandex Data Processing

  • Свободный доступ
  • 7 тем с теорией и практикой
  • Материал рассчитан на 75 часов
  • Свидетельство о прохождении курса

Обновлено в марте 2025 года.

Что вы узнаете

Как проектировать архитектуру для обработки больших данных

Как управлять кластерами Apache Spark

Применение технологии Data Lakehouse в Yandex Cloud

Методы пакетной обработки данных с датасетом R7

Технологии работы с потоковыми данными

Как организовывать и запускать задания Apache Spark

Yandex Data Processing

Сервис для обработки многотерабайтных массивов данных с использованием инструментов с открытым исходным кодом, таких как Apache Spark, Apache Hadoop®, Apache HBase®, Apache Hive, Apache Zeppelin и других сервисов экосистемы Apache®.

Кому будет полезно

  • Дата-инженерам, которые хотят узнать, как Yandex Data Processing может быть использован для решения задач по обработке и анализу данных.
  • DataOps‑инженерам, которые хотят узнать, как правильно эксплуатировать Yandex Data Processing и другие сервисы Data Platform в Yandex Cloud.
  • Аналитикам данных, которые хотят узнать, как обрабатывать данные и создавать витрины с помощью Yandex Data Processing.

Программа

Темы можно проходить в произвольном порядке

— Современные подходы к обработке больших данных

— MPP vs MapReduce

— Архитектура Apache Spark

— Проектирование архитектуры решения

Разработано совместно с Hilbert Team

Команда инженеров Hilbert Team бесшовно перенесёт ваш бизнес в облако, поможет оптимизировать и автоматизировать IT‑инфраструктуру и процессы, закроет все нужные компетенции и сопроводит ваш проект.

Авторы

Максим Зиналь

Архитектор Data Platform Yandex Cloud

Дмитрий Долбин

Архитектор Data Platform Yandex Cloud

Юрий Конов

Архитектор Data Platform Yandex Cloud

Вячеслав Бессонов

Директор по развитию бизнеса Hilbert Team

Что вас ждёт

Доступ в любое время

Это курс для самостоятельного обучения. Вы можете узнавать новое в комфортном для вас темпе, когда угодно, из любой точки мира. А доступ к материалам курса останется у вас навсегда.

Понятная теория на интерактивной платформе

Программу составили эксперты Yandex Cloud с большим опытом работы в IT-индустрии. Вы будете изучать теорию с примерами из жизни и интерактивными заданиями прямо на платформе.

Практические работы с сервисами Yandex Cloud

Вам предстоит выполнить 27 практических заданий в своём облаке на платформе Yandex Cloud.

Вам потребуются знания и навыки

Знание Spark и PySpark на базовом уровне

Владение одним из языков программирования (Python, Java, Go, Scala, C++, .Net)

Навыки работы в операционных системах Linux/Unix

Базовые навыки работы с SQL

Базовые навыки работы с СУБД (классическими или NoSQL)

Частые вопросы

Для закрепления теории вам даются практические задания, которые вы выполняете самостоятельно. Вы можете проверить себя по подробному How‑to‑guide и задать вопросы другим студентам в телеграм‑чате комьюнити Yandex Cloud: Data Platform.

Начните прямо сейчас

Научитесь решать привычные задачи быстрее с помощью нового инструмента