Обработка и анализ больших данных с помощью Apache Spark на Yandex Data Processing

  • Бесплатный доступ*
  • 7 тем с теорией и практикой
  • Материал рассчитан на 75 часов
  • Свидетельство об окончании

Обновлено в июне 2025 года.

Вы узнаете

Как проектировать архитектуру для обработки больших данных

Как управлять кластерами Apache Spark

Как применять технологии Data Lakehouse в Yandex Cloud

Каковы методы пакетной обработки данных

Как работать с потоковыми данными

Как организовывать и запускать задания Apache Spark

Yandex Data Processing

Сервис для обработки многотерабайтных массивов данных с использованием инструментов с открытым исходным кодом, таких как Apache Spark, Apache Hadoop®, Apache HBase®, Apache Hive, Apache Zeppelin и других сервисов экосистемы Apache®.

Кому будет полезно

  • Data-инженерам

Узнаете, как использовать Yandex Data Processing для обработки и анализа данных.

  • DataOps-инженерам

Узнаете, как правильно эксплуатировать Yandex Data Processing и другие сервисы Data Platform в Yandex Cloud.

  • Аналитикам данных

Узнаете, как обрабатывать данные и создавать витрины с помощью Yandex Data Processing.

Программа

Темы можно проходить в произвольном порядке

— Современные подходы к обработке больших данных

— MPP vs MapReduce

— Архитектура Apache Spark

— Проектирование архитектуры решения

Разработано совместно с Hilbert Team

Команда инженеров Hilbert Team бесшовно перенесёт бизнес в облако, поможет оптимизировать и автоматизировать IT‑инфраструктуру и процессы, сопроводит проект.

Авторы

Что вас ждёт

Понятная теория на интерактивной платформе

Программу составили эксперты Yandex Cloud с большим опытом работы в IT. Вы изучите теорию на наглядных примерах и выполните интерактивные задания на платформе.

Практические работы с сервисами Yandex Cloud

Пробуйте силы на реальных кейсах.

Поддержка на всех этапах

Задавайте вопросы в телеграм-чате, обменивайтесь опытом и получайте рекомендации от экспертов Yandex Cloud.

Доступ в любое время

Подходит для самостоятельного обучения — узнавайте новое в комфортном для вас темпе, когда и где угодно. А доступ к материалам останется у вас навсегда.

Вам потребуются знания и навыки

Знание Spark, PySpark на базовом уровне

Понимаете логику задач и принцип распределённой обработки данных

Владение одним из языков программирования: Python, Java, Go, Scala, C++, .NET

Умеете писать и отлаживать код в Jupyter Notebook, чтобы взаимодействовать с PySpark и обрабатывать данные

Опыт работы в операционных системах Linux/Unix

Умеете развёртывать инфраструктуру в среде, основанной на Linux

Базовые навыки работы с SQL

Понимаете структуру и логику запросов в Data Lakehouse и логику трансформаций в PySpark

Умение работать с СУБД (классическими или NoSQL)

Умеете ориентироваться в источниках данных и корректно анализировать информацию независимо от типа базы

Частые вопросы

Для закрепления теории вам даются практические задания, которые вы выполняете самостоятельно. Можно проверить себя по эталонному решению и итоговому тесту, а также задать вопросы коллегам и авторам в телеграм-чате.

Начните прямо сейчас

Научитесь решать привычные задачи быстрее с помощью нового инструмента.

Может быть интересно

* Теоретическая часть бесплатная. Для практики новым пользователям Yandex Cloud предоставляется стартовый грант, после его исчерпания возможны дополнительные расходы.