Yandex Managed Service for Apache Spark

  • Бесплатный доступ*
  • 7 тем с теорией и практикой
  • Материал рассчитан на 17 часов
  • Свидетельство об окончании

Обновлено в июне 2026 года

Вы узнаете

Как устроены архитектура Apache Spark и обработка больших данных

Как работать с Structured APIs: DataFrame API, Spark SQL и Datasets

Как использовать Spark-кластеры в Yandex Cloud на примере реального датасета

Как оптимизировать и отлаживать Spark-приложения с помощью Spark UI

Как строить batch- и streaming-пайплайны в Apache Spark

Как проектировать сквозной ETL-процесс на практике

Yandex Managed Service for Apache Spark

Управляемый сервис кластерных вычислений на основе Apache Spark.

Он предлагает:

  • быстрое развёртывание кластеров и автоматические обновления;
  • оптимизацию под пакетную и потоковую обработку, машинное обучение и аналитические запросы;
  • интеллектуальное масштабирование ресурсов (CPU и памяти) под нагрузку;
  • встроенный мониторинг и журналирование для упрощения администрирования.

Кому будет полезно

  • Инженерам
    Узнаете, как собирать пайплайны в Apache Spark, настраивать кластер и интегрировать обработку с другими сервисами.
  • Аналитикам данных
    Поймёте, как работать со Spark SQL и DataFrame API: выполнять запросы и преобразования, смотреть статус заданий и получать надёжный результат.
  • Архитекторам
    Разберётесь, для чего использовать Yandex Managed Service for Apache Spark и с какими сервисами комбинировать.

Программа

Темы можно проходить в произвольном порядке и выбирать те, которые актуальны для ваших рабочих задач.
Темы 4 — 7 находятся в разработке. Все зарегистрированные участники курса получат уведомление сразу, как темы станут доступны.
  • Большие данные и их вызовы. Эволюция Apache Spark
  • Архитектура Apache Spark
  • Работа с Object Storage
  • Настройка маршрутизации с помощью NAT-шлюза
  • Создание и использование кластера Spark. Применение IAM
  • Использование Apache Airflow®
  • Использование Valkey
  • Использование open table format (Iceberg)

Разработано совместно Neoflex

Neoflex — надёжный партнёр для реализации проектов любой сложности в Yandex Cloud на всех этапах: от стратегии до внедрения и поддержки.

Авторы

Что вас ждёт

Понятная теория на интерактивной платформе

Программу составили эксперты Yandex Cloud с большим опытом работы в IT. Вы изучите теорию на наглядных примерах и выполните интерактивные задания на платформе.

Практические работы с сервисами Yandex Cloud

Пробуйте силы на реальных кейсах.

Поддержка на всех этапах

Задавайте вопросы в телеграм-чате, обменивайтесь опытом и получайте рекомендации от экспертов Yandex Cloud.

Доступ в любое время

Подходит для самостоятельного изучения — узнавайте новое в комфортном для вас темпе, когда и где угодно. А доступ к материалам останется у вас навсегда.

Вам потребуются знания и навыки

Базовое понимание облачной инфраструктуры

Базовые навыки работы с SQL и СУБД (классическими или NoSQL)

Python (средний уровень) или Java/Scala (базовый уровень)

Понимание принципов работы с данными и аналитикой

Частые вопросы

Для закрепления теории вам даются самостоятельные практические задания. Их стоит выполнять, если они релевантны для ваших задач. Можно проверить себя по авторскому варианту решения, а также задать вопросы коллегам и авторам в телеграм-чате.

Начните прямо сейчас

Научитесь использовать Apache Spark в Yandex Cloud для различных задач по обработке данных.

Вам может быть интересно

* Теоретическая часть бесплатная. Для практики новым пользователям Yandex Cloud предоставляется стартовый грант, после его исчерпания возможны дополнительные расходы.