Проверяемые компетенции

Об экзамене

Сертификационный экзамен Yandex Cloud Certified Data Engineer предназначен для оценки компетенций инженеров данных, решающих рабочие задачи с использованием сервисов Платформы данных Yandex Cloud.

Сертификат Yandex Cloud Certified Data Engineer подтверждает знания, умения и навыки по следующим темам (доменам).

Содержание экзамена

Экзамен представляет собой тест, включающий 50 заданий:

  • 40 оцениваемых, ответы на которые влияют на итоговый балл участника;
  • 10 неоцениваемых, ответы на которые на итоговый результат не влияют.

На прохождение теста отводится 90 минут. Участник экзамена может завершить прохождение теста досрочно. В ходе тестирования можно оставлять вопросы без ответа и переходить к следующим, а затем возвращаться обратно.

Задания могут быть трёх типов:

  • одиночный выбор (с одним правильным и тремя неправильными вариантами ответа);
  • множественный выбор (с двумя или более правильными ответами среди 5–7 предложенных вариантов);
  • сопоставление вариантов ответа с несколькими категориями.

В формулировке заданий с одиночным и множественным выбором указывается количество правильных вариантов ответа.

Перечень проверяемых компетенций

Домен 1. Загрузка данных

Понимать:

  • настройки эндпоинтов в Data Transfer;
  • процесс загрузки данных через JDBC/ODBC с помощью SQL-запроса;
  • необходимость изоляции транзакций.

Уметь:

  • создавать эндпоинты и трансферы в сервисе Data Transfer, запускать их, читать диагностические логи;
  • извлекать данные из различных источников с использованием Yandex Managed Service for Trino;
  • создавать топики, передавать и получать события;
  • настраивать CDC с помощью Data Transfer;
  • создавать процессы загрузки и трансформации данных с использованием Spark и Trino;
  • писать Spark-задания на Python;
  • создавать управляемые кластеры Trino и Spark в инфраструктуре Yandex Cloud;
  • создавать кластеры Yandex Data Processing в инфраструктуре Yandex Cloud.

Домен 2. Хранение и обработка данных

Знать:

  • что такое ИИ-ассистент в WebSQL.

Понимать:

  • особенности типов (row/column-ориентированные) и форматов (ORC, Parquet, AVRO и т. д.) хранения данных.

Уметь:

  • настраивать источник и писать федеративные SQL-запросы к нескольким источникам;
  • создавать витрины данных в Yandex Managed Service for ClickHouse®;
  • работать с планом запроса и оптимизировать SQL-код;
  • производить отладку и валидацию данных (SQL-проверки, поиск аномалий, сверка с источниками);
  • применять функциональность ИИ-ассистента в WebSQL для написания SQL-кода;
  • создавать, наполнять и обслуживать (compaction) таблицы в формате Iceberg, расположенные в Object Storage, при помощи различных движков;
  • создавать базовые проверки и организовывать шаги процесса обеспечения качества данных (data quality) в своей зоне ответственности (формирование витрин/отчетов качества; встраивание необходимых шагов в регламентные ETL-потоки, включая стоп-флаги; отправка уведомлений) по ТЗ.

Домен 3. Оркестрация, метаданные и мониторинг

Знать:

  • основные понятия (DAG, task) в Airflow и компоненты архитектуры.

Понимать:

  • назначение Airflow;
  • принципы работы и назначение Data Catalog;
  • принципы работы observability-платформ.

Уметь:

  • создавать DAG для Airflow, добавлять их в кластер и выполнять операции над ними в интерфейсе (запуск, постановка на расписание, ручная загрузка и догрузка через upstream/downstream, работа со статусами DAG).

Домен 4. Управление и безопасность

Знать:

  • стандарты ИБ при работе с чувствительными данными (маскирование, шифрование на уровне приложения).

Понимать:

  • принцип наименьших привилегий в контексте разработки ETL/ELT-процессов в Yandex Cloud;
  • устройство биллинга Yandex Cloud в контексте сервисов платформы данных.

Уметь:

  • хранить секреты с помощью Lockbox;
  • смотреть детализацию биллинга.

Основные сервисы

Ниже перечислены сервисы, вопросы по которым могут встретиться на экзамене. Порядок расположения элементов в списке не указывает на их относительный вес или важность.

  • Data Transfer
  • Yandex Managed Service for Trino
  • Managed Service for Apache Kafka®
  • Data Processing (Spark)
  • Data Processing
  • Yandex Managed Service for ClickHouse®
  • Object Storage
  • Yandex WebSQL
  • Yandex Managed Service for Apache Airflow
  • Yandex MetaData Hub (Data Catalog)
  • Monium
  • Yandex Lockbox
  • Yandex Cloud Billing

Итоги тестирования

Правила начисления баллов

Все вопросы оцениваются независимо друг от друга и имеют равный вес. За каждый правильно отвеченный вопрос начисляется один балл. Если вопрос содержит два или более правильных вариантов ответа, то один балл начисляется только при выборе всех правильных вариантов. За неверный ответ штрафные баллы не начисляются.

Результаты теста

По итогам тестирования подсчитывается сумма баллов, которая может находиться в диапазоне от 0 до 40. Чтобы успешно сдать экзамен, необходимо набрать не менее 28 баллов. Порог для оценки установлен на основе минимальных стандартов, разработанных экспертами Yandex Cloud.

В зависимости от числа набранных баллов участник получает отметку «сдано» или «не сдано». При получении отметки «сдано» и положительном заключении прокторинга участнику выдаётся сертификат.

Повторное прохождение

Если тест не сдан, его можно пройти повторно, но не ранее чем через 30 дней после неудачной попытки.