Проверить физическое состояние кластера GPU
Статья создана
Обновлена 26 марта 2025 г.
Проверьте состояния портов InfiniBand
-
Подключитесь к ВМ по SSH.
-
Установите пакет
infiniband-diags:sudo apt update sudo apt install infiniband-diags -
Выполните команду
ibstatus.Результат:
state: 4: ACTIVE phys state: 5: LinkUp -
Убедитесь, что для всех портов в параметре
phys stateуказаноLinkUp.
Проверьте производительность сети
Для проверки скорости передачи данных между GPU на разных ВМ:
-
На каждой из тестовых ВМ установите пакет
perftest:sudo apt install perftest -
Подключитесь к первой ВМ по SSH.
-
Выполните команду:
ib_send_bw --report_gbits -
Подключитесь ко второй ВМ по SSH.
-
Выполните команду:
ib_send_bw <внутренний_IP_первой_ВМ> --report_gbitsРезультат:
#bytes #iterations BW peak[Gb/sec] BW average[Gb/sec] MsgRate[Mpps] 65536 1000 245.54 244.08 0.465536 -
Убедитесь, что в выводе ненулевые значения параметров:
BW average[Gb/sec]— средняя скорость передачи;MsgRate[Mpps]— частота сообщений.