Графические ускорители GPU
Статья создана
Обновлена 28 апреля 2026 г.
Как проверить физическое состояние кластера GPU?
- Проверьте порты InfiniBand.
- Проверьте сеть.
Подробнее читайте в разделе Проверить физическое состояние кластера GPU.
Как запустить параллельные задачи в кластере GPU?
Чтобы запустить параллельные задачи в кластере GPU:
- Подключитесь к каждой ВМ по SSH и установите Open MPI
и NCCL . - На основной ВМ соберите тесты NVIDIA и настройте SSH-ключи без пароля.
- На каждой ВМ добавьте публичный ключ в
authorized_keys. - На основной ВМ выполните команду
mpirunс IP-адресами ВМ и количеством GPU.
Подробнее читайте в разделе Запустить параллельные задачи в кластере GPU.
Как проверить пропускную способность InfiniBand?
Чтобы проверить пропускную способность InfiniBand создайте и запустите скрипт для запуска тестов perftest с использованием numactl.
Подробнее читайте в разделе Проверить пропускную способность InfiniBand.
Что делать, если на ВМ перестал работать GPU?
В таком случае необходимо остановить и снова запустить виртуальную машину. В большинстве случаев требуются именно остановка и повторный запуск, а не перезагрузка, поскольку при перезагрузке ВМ остается на том же хосте, где возникла проблема с GPU.