Проверяемые компетенции

Об экзамене

Сертификационный экзамен Yandex Cloud Certified Lakehouse Data Engineer предназначен для оценки компетенций инженеров данных, решающих рабочие задачи по проектированию и развёртыванию Lakehouse-решений с использованием сервисов Платформы данных Yandex Cloud.

Сертификат Yandex Cloud Certified Data Engineer подтверждает знания, умения и навыки по следующим темам (доменам).

Содержание экзамена

Экзамен представляет собой тест, включающий 30 вопросов:

  • 25 оцениваемых, ответы на которые влияют на итоговый балл участника;
  • 5 неоцениваемых, ответы на которые на итоговый результат не влияют.

На прохождение теста отводится 45 минут. Участник экзамена может завершить прохождение теста досрочно. В ходе тестирования можно оставлять вопросы без ответа и переходить к следующим, а затем возвращаться обратно.

Задания могут быть трёх типов:

  • одиночный выбор (с одним правильным и тремя неправильными вариантами ответа);
  • множественный выбор (с двумя или более правильными ответами среди 5–7 предложенных вариантов);
  • сопоставление вариантов ответа с несколькими категориями.

В формулировке заданий с одиночным и множественным выбором указывается количество правильных вариантов ответа.

Перечень проверяемых компетенций

Домен 1. Загрузка данных

Понимать:

  • архитектуру Kafka и ее основных сущностей (state store, consumer, producer, topic, партиции);
  • архитектуру Spark, назначения основных компонентов (cluster manager, executor, worker) кластера;
  • архитектуру Trino, назначения основных компонентов кластера (координатор, worker) и других сущностей (например, коннектор);
  • сценарии применения временных кластеров и их отличия от сценариев с постоянными кластерами;
  • настройки эндпоинтов в Data Transfer;
  • процесс загрузки данных через JDBC/ODBC с помощью SQL-запроса;
  • принцип работы CDC;
  • необходимость изоляции транзакций.

Уметь:

  • создавать управляемые кластеры Trino и Spark в инфраструктуре Yandex Cloud;
  • создавать кластеры Yandex Data Processing в инфраструктуре Yandex Cloud;
  • работать с временными кластерами Data Processing;
  • создавать процессы загрузки и трансформации данных с использованием Spark и Trino;
  • писать Spark-задания на Python;
  • создавать эндпоинты и трансферы в сервисе Data Transfer, запускать их, читать диагностические логи;
  • создавать топики, передавать и получать события;
  • настраивать CDC с помощью Data Transfer;
  • извлекать данные из различных источников с использованием Yandex Managed Service for Trino.

Домен 2. Хранение и обработка данных

Знать:

  • что такое ИИ-ассистент в WebSQL;
  • различные движки в ClickHouse (mergeTree, s3 iceberg);
  • основные понятия Data Quality.

Понимать:

  • устройство слоев, модель данных детального слоя;
  • особенности типов (row/column-ориентированные) и форматов (ORC, Parquet, AVRO и т. д.) хранения данных.

Уметь:

  • создавать, наполнять и обслуживать (compaction) таблицы в формате Iceberg, расположенные в Object Storage, при помощи различных движков;
  • настраивать источник и писать федеративные SQL-запросы к нескольким источникам;
  • создавать витрины данных в Yandex Managed Service for ClickHouse®;
  • работать с планом запроса и оптимизировать SQL-код;
  • производить отладку и валидацию данных (SQL-проверки, поиск аномалий, сверка с источниками);
  • создавать базовые проверки и организовывать шаги процесса обеспечения качества данных (data quality) в своей зоне ответственности (формирование витрин/отчетов качества; встраивание необходимых шагов в регламентные ETL-потоки, включая стоп-флаги; отправка уведомлений) по ТЗ;
  • применять функциональность ИИ-ассистента в WebSQL для написания SQL-кода.

Домен 3. Оркестрация, метаданные и мониторинг

Знать:

  • основные понятия (DAG, task) в Airflow и компоненты архитектуры.

Понимать:

  • назначение Airflow;
  • принципы работы и назначение Data Catalog;
  • принципы работы observability-платформ.

Уметь:

  • создавать DAG для Airflow, добавлять их в кластер и выполнять операции над ними в интерфейсе (запуск, постановка на расписание, ручная загрузка и догрузка через upstream/downstream, работа со статусами DAG);
  • настраивать extract метаданных, работать с AI-разметкой и lineage;
  • работать с метриками в Monium, настраивать алерты, выгружать логи (например, для Trino).

Домен 4. Управление и безопасность

Знать:

  • стандарты ИБ при работе с чувствительными данными (маскирование, шифрование на уровне приложения).

Понимать:

  • принцип наименьших привилегий в контексте разработки ETL/ELT-процессов в Yandex Cloud;
  • устройство биллинга Yandex Cloud в контексте сервисов платформы данных.

Уметь:

  • настраивать сервисные аккаунты и IAM-роли для безопасного доступа задач Airflow/Spark к ресурсам (Object Storage, ClickHouse, Managed Kafka);
  • работать с изолированными подсетями: размещение вычислительных задач (Dataproc/Managed Spark) в нужных подсетях для доступа к внутренним ресурсам без прямого выхода в интернет;
  • хранить секреты с помощью Lockbox;
  • смотреть детализацию биллинга.

Основные сервисы

Ниже перечислены сервисы, вопросы по которым могут встретиться на экзамене. Порядок расположения элементов в списке не указывает на их относительный вес или важность.

  • Data Transfer
  • Yandex Managed Service for Trino
  • Managed Service for Apache Kafka®
  • Data Processing (Spark)
  • Data Processing
  • Yandex Managed Service for ClickHouse®
  • Managed Service for PostgreSQL
  • Object Storage
  • Yandex WebSQL
  • Yandex Managed Service for Apache Airflow
  • Yandex MetaData Hub (Data Catalog)
  • Monium
  • IAM
  • Yandex Lockbox
  • Yandex Cloud Billing

Итоги тестирования

Правила начисления баллов

Все вопросы оцениваются независимо друг от друга и имеют равный вес. За каждый правильно отвеченный вопрос начисляется один балл. Если вопрос содержит два или более правильных вариантов ответа, то один балл начисляется только при выборе всех правильных вариантов. За неверный ответ штрафные баллы не начисляются.

Результаты теста

По итогам тестирования подсчитывается сумма баллов, которая может находиться в диапазоне от 0 до 25. Чтобы успешно сдать экзамен, необходимо набрать не менее 17 баллов. Порог для оценки установлен на основе минимальных стандартов, разработанных экспертами Yandex Cloud.

В зависимости от числа набранных баллов участник получает отметку «сдано» или «не сдано». При получении отметки «сдано» и положительном заключении прокторинга участнику выдаётся сертификат.

Повторное прохождение

Если тест не сдан, его можно пройти повторно, но не ранее чем через 30 дней после неудачной попытки.