Временное отключение зон доступности для групп ВМ Yandex Compute Cloud
В Compute Cloud вы можете временно отключать одну или несколько зон доступности для групп виртуальных машин. Это может быть полезно для сохранения работоспособности ваших сервисов, когда в зоне доступности проводится тестирование, обслуживание, наблюдаются неполадки или инцидент.
Например, с помощью отключения зоны для группы ВМ вы можете решить проблему «серых отказов» вашего сервиса в этой зоне — когда проверки состояния и средства мониторинга не фиксируют отказы, но при реальной рабочей нагрузке часть запросов не доходит до ВМ.
Также полезно временно отключить зону для группы ВМ при зональном инциденте. Таким образом вы сможете контролируемо ввести ВМ из пораженной зоны в эксплуатацию при выходе из инцидента. Подробнее см. Поведение группы ВМ при временном отключении зоны и инциденте в этой же зоне.
Важно
Временное отключение зон доступности не работает для групп ВМ, созданных кластером Managed Service for Kubernetes в качестве групп узлов.
Обратно включить зону доступности для группы ВМ можно в любой момент либо задать таймаут для автоматического включения.
Подробнее см. на странице Отключить и включить зоны доступности для группы ВМ Yandex Compute Cloud.
При временном отключении зоны доступности группа ВМ работает в следующем режиме:
- ВМ из отключенной зоны не будут обновляться при обновлении группы.
- ВМ из отключенной зоны не будут автоматически восстанавливаться.
- При ручном или автоматическом увеличении размера группы новые ВМ будут создаваться только во включенных зонах.
- ВМ из отключенной зоны можно остановить или удалить вручную.
- Операции, которые приводят к созданию, запуску или обновлению ВМ в отключенной зоне, будут завершены только после ее обратного включения.
Обновление ВМ в группе
В отключенной зоне не будет происходить обновление ВМ до момента обратного включения зоны. В остальных зонах ВМ будут обновляться как обычно. Целевое состояние ВМ в отключенной зоне будет достигнуто после возврата зоны доступности в нормальное состояние.
Важно
Чтобы обезопасить группу от полной потери всех ВМ при обновлении, ВМ из отключаемой зоны учитываются в квоте max_unavailable политики развертывания. Поэтому для обновления ВМ в группе при отключенной зоне следует увеличивать значение параметра max_expansion.
Автоматическое восстановление ВМ в группе
В отключенной зоне перестает работать механизм автоматического восстановления ВМ, для остальных зон механизм автоматического восстановления продолжает функционировать как обычно:
- ВМ, считающиеся неработоспособными по статусу в Compute Cloud, по-прежнему будут восстанавливаться вне какой-либо квоты.
- ВМ, считающиеся неработоспособными по состоянию приложения, будут восстанавливаться в рамках квоты
max_unavailable, отвечающей в политике развертывания за максимальное количество ВМ, которые могут быть недоступны при обновлении группы. ВМ из отключенной зоны не учитываются в квотеmax_unavailableпри работе механизма автоматического восстановления, поэтому процесс восстановления в оставшихся зонах функционирует штатно.
Увеличение размера группы ВМ
Группы ВМ с автоматическим масштабированием
Вне зависимости от типа автоматического масштабирования количество ВМ в отключенной зоне перестает изменяться. При отключенной зоне ВМ создаются только в оставшихся включенных зонах до исчерпания квоты max_size политики масштабирования.
Зональный тип автоматического масштабирования не предполагает равномерного распределения ВМ по зонам. В оставшихся включенных зонах ВМ создаются в зависимости от нагрузки.
Региональный тип автоматического масштабирования предполагает равномерное распределение ВМ по зонам. Во время отключения зоны может возникнуть дисбаланс в этом распределении.
После обратного включения зоны ВМ автоматически перераспределяются по всем зонам в зависимости от выбранного типа автоматического масштабирования.
Важно
Если вы используете сетевой или L7-балансировщик в связке с группой ВМ с автоматическим масштабированием, перед выключением зоны в балансировщике сначала выключите эту зону для группы ВМ. Если этого не сделать, группа ВМ продолжит создавать ВМ в зоне, в которую не будет поступать трафик.
Перед включением зоны в балансировщике сначала включите зону в группе ВМ, чтобы количество ВМ предварительно распределилось по зонам.
Группы ВМ фиксированного размера
В группах фиксированного размера ВМ распределяются по зонам доступности строго равномерно. Это поведение сохраняется и во время отключения зоны.
Новые ВМ в работающих зонах будут созданы сразу, новые ВМ в отключенной зоне будут созданы после ее включения.
Ручное удаление и остановка ВМ
Чтобы сохранить работоспособность сервиса, вы можете удалять ВМ в отключенной зоне с помощью метода REST API DeleteInstances для ресурса InstanceGroup или вызова gRPC API InstanceGroupService/DeleteInstances.
Также вы можете останавливать ВМ в отключенной зоне с помощью метода REST API StopInstances для ресурса InstanceGroup или вызова gRPC API InstanceGroupService/StopInstances.
Когда зона снова будет включена, группа ВМ запустит остановленные ВМ и создаст недостающие. При этом, если в методе DeleteInstances был выставлен параметр createAnother, создание ВМ не будет выполнено до включения зоны.
Завершение операций в группе ВМ
Операции, которые приводят к созданию, запуску или обновлению ВМ в отключенной зоне, будут выполнены только после включения зоны. К таким операциям относятся создание, обновление и запуск группы ВМ, а также поэтапное пересоздание и перезапуск ВМ в группе.
Операции, которые приводят к остановке или удалению ВМ в отключенной зоне, будут выполнены как обычно. К таким операциям относятся остановка и удаление группы ВМ, а также остановка и удаление ВМ в группе.
Поведение группы ВМ при временном отключении зоны и инциденте в этой же зоне
При зональном инциденте поведение группы ВМ автоматически изменяется. Ограничения на действия группы над ВМ в зоне инцидента более строгие, чем ограничения при самостоятельном отключении зоны, поэтому отключение зоны никак не повлияет на работу группы ВМ.
Совет
Во время инцидента вы можете отключить для группы ВМ зону, в которой он произошел. Это позволит продлить ограничения на создание, запуск и обновление ВМ в группе после завершения инцидента. Таким образом вы сможете контролируемо ввести ВМ из пораженной зоны в эксплуатацию при выходе из инцидента.