Хосты группы узлов Managed Service for Kubernetes долго находятся в статусе RECONCILING
Статья создана
Обновлена 16 августа 2024 г.
Описание проблемы
Некоторые или все виртуальные машины группы узлов Managed Service for Kubernetes находятся в статусе RECONCILING
более 20 минут.
Диагностика и воспроизведение
- Проверьте уровень потребления квот по Managed Service for Kubernetes. Если уровень потребления близок к текущему значению квот, сформируйте запрос на увеличение квот
. У вас должна быть рольquota-manager.requestOperator
или выше:editor
илиadmin
; - Если квоты не превышены, проверьте состояние виртуальных машин, принадлежащих группе узлов, командой:
yc managed-kubernetes node-group list-nodes <node_group_id> --format yaml
Наличие в выводе этой команды сообщения Kubelet stopped posting node status
означает, что внутри виртуальной машины, принадлежащей группе узлов, произошел сбой операционной системы или прикладных сервисов, отвечающих за работоспособность этого хоста в составе группы.
Решение
Для решение проблемы выполните следующие действия:
- Подключитесь по SSH к проблемной виртуальной машине. Как подключиться к узлу по SSH, пишем в документации Managed Service for Kubernetes.
- Выполните следующие команды в интерактивном сеансе проблемной виртуальной машины:
sudo service containerd restart
sudo service kubelet restart
Примечание
Для проверки состояния сервисов рекомендуем использовать следующие команды:
service containerd status
service kubelet status
Сервисы должны быть в статусе ACTIVE
, и в логах не должно быть ошибок.
Вы также можете перезагрузить виртуальную машину средствами Консоли управления