Erfahrung mit NDR Infiniband und ConnectX7

Skysnake

Commander
Registriert
Feb. 2012
Beiträge
3.057
Hi Leute,

Mich würde mal interessieren wir es bei euch bezüglich NDR Infiniband aussieht. Hat das einer von euch schon im Einsatz und wenn ja wie läuft es so um Vergleich zu HDR.

Bei mir sieht es eher düster aus. Es gibt immer mal wieder kleinere Probleme trotz klassischem FatTree. Bei HDR habe ich solche Probleme nur mit nicht FatTree Topologien erlebt.

Danke schon mal für euren Input. Im Zweifel gerne auch per PM.
 
Wohl doch zu exotisch für das Forum. Dabei haben wir hier doch eigentlich einige Leute die mit IT ihren Lebensunterhalt verdienen.
 
Schau doch bitte mal im Forum von servethehome.com/ nach

Mit Infiband arbeiten glaube ich die wenigsten Firmen in den Backends.
 
Naja, so exotisch ist das jetzt eigentlich nicht. Außer Ethernet gibt es ja nicht wirklich etwas.

Slingshot, Tofu BXI oder OmniPath sind exotisch
 
Unsere DGX-Farmen sind damit verbunden und wir sind damit auch Produktiv.
 
Läuft. Die Probleme haben wir eher auf Software-Ebene. Heute erst wieder slurm gestresst.
 
Du meinst SchedMD oder?

Ich schlage mich aktuell mit Jobhängern bei ISV Codes nach 5h+ rum.

Tut bei dir der UCX shared Memory communication Path sauber?
 
Ja, meine Ich. Im Moment müssen die Orchestrierungsnodes, die nicht von nVidia sind, alle 10-20 Tage neugestartet werden, weil slum nicht mehr richtig verteilt.
Ob auf Hardware oder in VM, selbst in anderen Cluster, macht keinen Unterschied. Hersteller ist aber dran.

Hardwareseitig ist alles wie bestellt und installiert.
 
Dann nutzt ihr wahrscheinlich Ubuntu als Unterbau oder? Nvidia steht ja drauf.

Es wundert mich aber, dass da etwas rebooted werden muss bei den Slurm nodes.

Das hat eigentlich nichts damit zu tun was slurm macht. Aber wenn ihr Support von SchedMD habt, dann werden die euch schon helfen. Die haben meiner Erfahrung nach einen kompetenten Support.
 
Unsere DGX Farmen haben 8 Login-Nodes für die User. Dort meldet man sich an und hat seine Toolkits samt X-forwarding, bei Bedarf.
Im Hintergund gibt es unter anderen zwei Nodes, die die Workloades verteilen, die hängen alle paar Tage. Der Reboot ist in zwei Minuten durch und löst vorerst das Problem. Daher booten wir zur Zeit jeden Freitag früh durch, da ist Wartungsfenster und die Services eh eingeschränkt.
 
Hmm ok, das hört sich seltsam und eher nicht nach einem Slurm Problem an. Aber gut.

Wir haben unter RedHat8 das Problem das immer wieder MPI Jobs mit dem UCX SHM communicatoe hängen bleiben. Alles sehr unbefriedigend, da es erst bei hunderten von Prozessen nach vielen Stunden auftritt.
 
Wir müssen erstmal glauben was der Support erzählt. Da wir ein Produkt samt Service gekauft haben, machen wir auch in dieser Angelegenheit nicht viel.
Es ist ein Update angekündigt dass dann in der DEV-Umgebung sich bewähren kann und wenn es funktioniert, dann geht es sehr schnell in die Produktion.
Wir müssen 164 Stunden pro Woche online sein mit den DGXen. Im Wartungsfenster ist dann keine Muße zum spielen.
Auf Grund der Kosten gibt es auch vorläufig kein physiches Test-System.
Aber hey, die Erfolge sind sehr groß. Der neue Code führt die Berechnungen in Minuten bis Stunden aus und nicht mehr tagelang. Und da ist noch extremes Potential, wir gehen von einer Vervielfachung aus.
 
4h downtime pro Woche ist aber ganz schön viel.

Lohnt es sich da nicht eher nen rolling Mainzenance zu machen und dann alle 1-3 Monate ne 12-24h Maintenance?
 
Das kann man sicherlich sehr unterschiedlich sehen. Wartungsfenster heißt ja ja erstmal nur, dass da keine Workloads platziert werden sollen. Und das ist immer Freitag 7 bis 11 Uhr.
 
Zurück
Oben