Разграничение зон контроля пользователей Yandex Data Processing и Yandex Cloud
При работе с сервисом Yandex Data Processing необходимо учитывать, что контролирует сервис Yandex Data Processing, а что — клиент Yandex Cloud. Понимание этих зон контроля помогает эффективно использовать облачные ресурсы и избегать возможных проблем при работе с кластерами.
Зона контроля Yandex Cloud
-
Слой аппаратного обеспечения и виртуализации. Обеспечение работоспособности физических серверов (процессор, диски, память, сеть), виртуальных машин, гипервизора, виртуальных дисков и связности виртуальных машин. Гарантия как функциональности, так и заявленных скоростных характеристик.
-
Восстановление при сбоях инфраструктуры. Восстановление при сбоях инфраструктуры уровня Yandex Cloud, замена отказавших ВМ как ресурса.
-
Актуальные версии гостевой ОС. Поддержание актуальных версий гостевой ОС и ядра.
-
Образы Yandex Data Processing. Поставка и поддержание образов Yandex Data Processing с протестированными версиями Hadoop, Spark и компонентов экосистемы. Исправление уязвимостей в новых образах и регулярный выпуск обновленных образов с исправлениями.
-
Кластерные операции. Обеспечение работоспособности кластерных операций, описанных в документации Yandex Data Processing и доступных через консоль управления, API, CLI или Terraform. За исключением случаев вмешательства клиента напрямую в объекты операций минуя интерфейсы Yandex Data Processing, например, удаление или изменение виртуальных машин, сетей, групп безопасности, используемых в операциях Yandex Data Processing.
-
Инструменты Yandex Cloud. Обеспечение работоспособности предоставляемых Yandex Cloud инструментов, таких как мониторинг, механизм оповещений, механизм отображения логов. Предоставление метрик и логов на уровне платформы, интеграция с Yandex Monitoring и Yandex Cloud Logging.
-
Доставка и оркестрация кластеров. Доставка и оркестрация кластеров Yandex Data Processing, предустановка Hadoop, Spark, Hive и других компонентов по выбранной версии образа.
-
Настройка новых кластеров. Применение в новых кластерах оптимальных настроек по умолчанию, повышающих стабильность работы кластера в Yandex Cloud и надежность данных, хранящихся в нем, в соответствии с универсальным профилем нагрузки.
-
Настройка кластеров при обновлении версии. Применение при обновлении версии Hadoop, Spark и компонентов экосистемы, управляемых вендором, оптимальных настроек, повышающих стабильность работы кластера в Yandex Cloud и надежность данных, хранящихся в нем, в соответствии с универсальным профилем нагрузки.
-
Пользовательская документация. Поддержание в актуальном виде документации по эксплуатации управляемых решений. Документация самого стека Hadoop, Spark и компонентов экосистемы используется напрямую от соответствующих сервисов Apache.
-
Доступность API. Гарантия доступности API Yandex Data Processing для запуска заданий и интеграции с облачными сервисами-оркестраторами.
Зона контроля клиентов Yandex Cloud
-
Работа с кластерами. Самостоятельное управление кластерами через доступные интерфейсы: консоль управления, API, CLI или Terraform и их эксплуатация. В том числе: выбор зон доступности, проектная изоляция, организация каталогов, выбор типов ВМ и дисков, объемов и топологии подкластеров, политики автоматического масштабирования, планирование емкости, производительности и стоимости.
-
Ресурсы кластера. Обеспечение соответствия ресурсов кластера (класса хостов, количества хостов, реплик и шардов в кластере) пользовательской нагрузке на кластер и служебной нагрузке управляемого решения (сбор и отправка метрик, логов и данных для диагностики производительности, операций обслуживания кластера, внутренних проверок работоспособности).
-
Настройка параметров компонентов. Самостоятельная настройка параметров Hadoop, Spark, Hive и других компонентов, доступных клиенту согласно документации соответствующих сервисов Apache, с пониманием того, что они могут повлиять на работоспособность, доступность, сохранность и скорость обработки данных.
-
Анализ нагрузки. Анализ и управление профилем нагрузки на кластер, реакция на события мониторинга из-за несоответствующей нагрузки.
-
Spark-задания. Написание, эксплуатация, отладка и оптимизация Spark-заданий, диагностика выполняющихся или не выполняющихся заданий, анализ результата и скорости выполнения заданий.
-
Управление доступом. Управление привилегиями и полномочиями учетных записей и их назначение на объекты кластера согласно ресурсной модели Yandex Cloud. Определение того, кто может создавать и удалять кластеры, запускать задания, читать логи и метрики.
-
Актуальность версии кластера. Поддержание версии кластера в актуальном состоянии, чтобы кластер работал на поддерживаемой версии в обозначенные Yandex Cloud сроки. Подготовка к предстоящему обновлению версии, анализ изменений и готовности клиентского ПО к этим изменениям. Планирование обновлений и пересоздания кластеров на новые образы, тестирование совместимости новых версий библиотек и пользовательских заданий.
-
Работа в неактуальном состоянии. Решение проблем с эксплуатацией кластера в неактуальном состоянии и игнорирование рисков, связанных с необновлением до актуальной версии.
-
Конфигурация служб кластера. Конфигурация служб кластера (HDFS, YARN, Spark, Hive), параметры NameNode и DataNode, очереди YARN, настройки Spark-драйвера и исполнителя заданий, репликация HDFS.
-
Код заданий. Код заданий (Spark, MapReduce, Hive), сборка артефактов, зависимости, контейнеры при необходимости.
-
Планирование и оркестрация заданий. Планирование и оркестрация заданий, SLA пайплайнов.
-
Отказоустойчивость. Проектирование кластеров высокой доступности и тестирование сценариев отказов.
-
Оркестрация пайплайнов. Оркестрация пайплайнов и управление зависимостями, политика секретов (Yandex Lockbox), кодовые ревью конфигураций.
Примечание
В случае если у клиента недостаточно экспертизы, чтобы самостоятельно выполнять действия из своей зоны контроля, он может обратиться к своему аккаунт-менеджеру.