Проверить физическое состояние кластера GPU
Статья создана
Обновлена 26 марта 2025 г.
Проверьте состояния портов InfiniBand
-
Подключитесь к ВМ по SSH.
-
Установите пакет
infiniband-diags
:sudo apt update sudo apt install infiniband-diags
-
Выполните команду
ibstatus
.Результат:
state: 4: ACTIVE phys state: 5: LinkUp
-
Убедитесь, что для всех портов в параметре
phys state
указаноLinkUp
.
Проверьте производительность сети
Для проверки скорости передачи данных между GPU на разных ВМ:
-
На каждой из тестовых ВМ установите пакет
perftest
:sudo apt install perftest
-
Подключитесь к первой ВМ по SSH.
-
Выполните команду:
ib_send_bw --report_gbits
-
Подключитесь ко второй ВМ по SSH.
-
Выполните команду:
ib_send_bw <внутренний_IP_первой_ВМ> --report_gbits
Результат:
#bytes #iterations BW peak[Gb/sec] BW average[Gb/sec] MsgRate[Mpps] 65536 1000 245.54 244.08 0.465536
-
Убедитесь, что в выводе ненулевые значения параметров:
BW average[Gb/sec]
— средняя скорость передачи;MsgRate[Mpps]
— частота сообщений.