
Стабильность облачной инфраструктуры — не галочка в чек-листе и не маркетинговое обещание. Это систематическая инженерная работа: патчи в опенсорсных движках, механизмы высокой доступности, валидация бэкапов, защита от атак, мониторинг каждого кластера.
На июньском митапе команда платформы данных Yandex Cloud подробно расскажет о внутренней организации этой работы, в том числе о возникающих проблемах и способах их решения.
Управляемые сервисы не ограничиваются просто развёртыванием открытых движков на виртуальных машинах. За каждым сервисом скрывается комплекс инженерных решений: доработки кода, собственные механизмы отказоустойчивости, процессы безопасности и диагностические инструменты.
Что вы унесёте с митапа:
Понимание того, как устроена высокая доступность в управляемых базах данных и где проходит граница ответственности между провайдером и клиентом.
Как мы считаем SLA изнутри, какие метрики реально отражают доступность и где ещё есть серые зоны.
Как устроены бэкапы: скорость, параллелизм, валидация и восстановление — с цифрами.
Как подключиться к кластеру через единый эндпоинт и что стоит за этим с точки зрения балансировки и отказоустойчивости.
Как мы аудируем опенсорсный код, закрываем уязвимости и защищаем кластеры от атак — включая механизмы изоляции между клиентами.
Разбор реального инцидента с ZooKeeper: что увидел клиент, что увидели мы, как чинили.
Практические антипаттерны — как реально устроены кластеры у части наших заказчиков и почему это приводит к проблемам.
Кому будет полезно:
DBA, SRE и платформенным инженерам, которые отвечают за надёжность и доступность.
Бэкенд-инженерам и тимлидам, которые проектируют системы с высокими требованиями к uptime.
Архитекторам и техническим руководителям, которые принимают решение о доверии к управляемым сервисам для критичных нагрузок.
Специалистам по информационной безопасности, которым важно понимать, как устроена защита на уровне платформы.








14:30 | Регистрация и сбор гостей |
15:00 | Открытие митапа Обсудим регламент и тему встречи: что значит «надёжный управляемый сервис» и зачем мы про это говорим. ![]() |
15:05 | Надёжность и доступность в управляемых базах данных: как это устроено и как мы это измеряем Высокая доступность в управляемом сервисе, её структура в разных движках, границы ответственности провайдера и клиента, инструменты и автоматизация. Как мы рассчитываем SLA, какие метрики отражают доступность кластеров и почему даже в серой зоне мы не оставляем клиента без внимания. ![]() ![]() |
15:45 | Единый эндпоинт для базы данных: балансировка нагрузки и отказоустойчивость Как максимально утилизировать несколько хостов кластера базы данных и не потерять единый эндпоинт для приложения. Расскажем, какие инструменты появились в Yandex Cloud, чтобы решать эти задачи. ![]() |
16:15 | Перерыв |
16:30 | Безопасность управляемых баз данных: как мы защищаем кластеры от атак Изоляция клиентов в managed-сервисе: как работает и от каких атак защищает. Опенсорсный код: аудит, патчи, ответственное раскрытие уязвимостей. AppArmor и Red team. ![]() |
17:00 | Бэкапы в управляемых базах данных: как устроено, как восстанавливается и почему это важно проверять Бэкапы: скорость, параллельность, инкрементальность. Восстановление на реальных примерах. Валидация бэкапов: не доверяйте факту их создания. Работа с повреждёнными WAL-сегментами. Советы для долгосрочного хранения данных. ![]() |
17:30 | Перерыв |
17:45 | Вы развернули высокодоступный кластер управляемой СУБД в трёх зонах доступности. Что может пойти не так? На примере реальных проблем в продакшене расскажем, с чем нам пришлось столкнуться при частичном отказе зоны доступности. ![]() |
18:15 | Как не надо: антипаттерны эксплуатации баз данных на реальных примерах Разбор реальных конфигураций у заказчиков, приводящие к инцидентам. Чем опасны все ноды в одном дата-центре, каскадные реплики и отключённый автоскейлинг. Категория «немыслимое»: что люди делают во время инцидента. ![]() |
18:45 | Закрытие митапа ![]() |
19:00 | Afterparty |