Yandex Managed Service for Apache Airflow

  • Свободный доступ
  • 11 тем с теорией и практикой
  • Материал рассчитан на 14 часов
  • Свидетельство об окончании

Обновлено в апреле 2025 года.

Чему вы научитесь

Работать с облачным сервисом Yandex Managed Service for Apache Airflow

Автоматизировать процессы загрузки и обработки данных с помощью сервиса

Писать и загружать DAG-файлы для оркестрации процессов и управления зависимостями

Использовать сервис: от развёртывания кластера до управления доступами

Интегрировать Yandex Managed Service for Apache Airflow с другими сервисами Yandex Cloud

Yandex Managed Service for Apache Airflow

Сервис помогает разворачивать, администрировать и поддерживать кластеры Apache Airflow в инфраструктуре Yandex Cloud.

Apache Airflow — платформа для разработки, запуска и мониторинга рабочих процессов, ориентированных на пакетную обработку данных. Она является мощным инструментом для автоматизации задач благодаря:

  • поддержке множества источников данных и плагинов,
  • масштабируемости,
  • функциям мониторинга и журналирования.

Кому будет полезно

  • IT-командам
    Научитесь правильно разворачивать и настраивать Airflow.

  • DevOps-инженерам
    Узнаете об инфраструктурных возможностях облачной платформы для развёртывания технологий Airflow.

  • Архитекторам
    Изучите возможности и ограничения Airflow с точки зрения функциональности системы и архитектуры.

  • Дата-инженерам
    Освоите DAG для управления потоками данных.

1. Что такое Airflow и какие задачи он решает

  • Познакомитесь с общей архитектурой Airflow и узнаете, какие задачи он решает.
  • Поймёте, как устроены компоненты и ролевая модель, как организовано взаимодействие с сервисом.
  • Рассмотрите основные сценарии использования платформы.

2. Знание объектов Airflow

  • Разберётесь в ключевых объектах Airflow (DAGs, Providers, Operators, XCom, Connection, Variable) и узнаете, какую задачу они выполняют.

3. DAG как основной компонент Airflow. Тонкости работы

  • Изучите структуру DAG (subdag, task group).
  • Поймёте, как задаётся порядок выполнения задач (приоритет, веса).
  • Изучите ресурсную модель DAG и операторов, приёмы работы с ними.
  • Разберётесь в статусной модели DAG: узнаете статусы объектов и принцип их смены.
  • Узнаете различия между синхронными и асинхронными операторами, их возможности и принципы работы.

4. Что такое Yandex Managed Service for Apache Airflow

  • Узнаете, как устроен Yandex Managed Service for Apache Airflow, включая автомасштабирование, логи и архитектурные особенности.
  • Поймёте, как происходит тарификация сервиса.

5. Практика. Начало работы в Yandex Managed Service for Apache Airflow

  • Научитесь создавать кластеры, подключаться к консоли, просматривать статусы заданий и анализировать логи.

Разработано совместно с АЭРО

Провайдер e-com- и дата-решений АЭРО строит надёжную дата-инфраструктуру и помогает бизнесу зарабатывать на данных.

Авторы

Иван Веткасов

Архитектор Yandex Cloud

Игорь Путятин

Архитектор Yandex Cloud

Татьяна Дидова

Архитектор данных АЭРО

Никита Костин

Руководитель группы инженеров данных АЭРО

Что вас ждёт

Доступ в любое время

Подходит для самостоятельного обучения — узнавайте новое в комфортном для вас темпе, когда и где угодно. А доступ к материалам останется у вас навсегда.

Понятная теория на интерактивной платформе

Программу составили эксперты Yandex Cloud с большим опытом работы в IT. Вы изучите теорию на реальных примерах и выполните интерактивные задания на платформе.

Практическая работа с сервисами Yandex Cloud

Пробуйте силы на реальных кейсах.

Обмен опытом

Делитесь опытом в телеграм-чате комьюнити Yandex Cloud: Data Platform.

Вам потребуются

Базовые знания в Python и опыт работы в терминале

Базовые знания в SQL

Частые вопросы

Все материалы предоставляются бесплатно.

Начните прямо сейчас

Автоматизируйте процессы работы с данными в Yandex Managed Service for Apache Airflow.

Может быть интересно

card-background

Построение корпоративной платформы данных

Узнаете, как с помощью облака организовать сбор и анализ данных компании и создать для них внешнее хранилище. Освоите MySQL, Apache Kafka®, ClickHouse® и CDC.

card-background

Managed Service for Greenplum®

Разберётесь в архитектуре Greenplum и научитесь разворачивать кластеры в облачном сервисе.

card-background

Managed Service for ClickHouse®

Пройдёте практический курс по управлению базами данных и узнаете лучшие методики работы с ClickHouse в облаке.

Apache® и Apache Airflow являются зарегистрированными товарными знаками или товарными знаками Apache Software Foundation в США и/или других странах.

ClickHouse является зарегистрированным товарным знаком ClickHouse, Inc.