Notiz Exascale-Supercomputer: Kinderkrankheiten verzögern angeblich AMD/HPs Frontier

[wege]mini schrieb:
Ich kann das noch steigern :D

Frau Su in komplett ledernem Outfit. Dann würde sie Madam oder Herrin Su genannt und immer brüllen: "Schneller, länger, härter".

Ein bisschen Spaß muss sein. :evillol:

mfg

Früher hätte man sie gesnu-snu't:-)

Anyway. Solange der Auftrag im Zeitplan liegt und es keine grundlegenden Probleme gibt, sehe ich keinen Grund zur Sorge
 
Mr.Powers schrieb:
AMD und Intel sind doch nur Lieferanten der CPUs, für die Verkabelung ist wohl ehr Cray zuständig, und denen kann es eigentlich egal sein ob die Nodes mit Intel oder AMD CPUs bestückt sind.
Naja, ganz egal ist das nicht wirklich. Also gerade für nen Hersteller wie Cray/HPE. Die müssen ja auch die Boards, Biose, Firmware und Treiber selbst pflegen. Und d das Zeug mit maximaler Performance laufen soll ist es eben nicht mehr egal ob Intel oder AMD.

Und dann kommt eben noch dazu, das man die Abnahmetests vorbereiten muss und die sind halt an sich schon immer ne Herausforderung. Was das wirklich bedeutet versteht aber wohl nur jemand, der man ein System in die Top500 geprügelt hat.
 
Ein Supercomputer ist ein Zusammenschluss aus sehr vielen einzelnen Computern bzw. Nodes.
Die CPUs von Node 1 können nicht auf den RAM von Node 2 zugreifen und umgekehrt. Das liegt daran, dass die CPUs auf verschiedenen Mainboards sitzen. Für parallelisierte Anwendungen müssen aber typischerweise Ergebnisse zwischen den Prozessen ausgetauscht werden.

Zur Kommunikation zwischen den Nodes wird also eine Verbindung benötigt. Diese Verbindung muss natürlich möglichst schnell sein, da sie sonst das System unnötig ausbremsen würde. Zur Veranschaulichung dient folgendes Szenario: Ein Prozess auf Node 1 kann erst weiter rechnen, sobald Daten von einem Prozess auf Node 2 übertragen wurden. Je langsamer die Verbindung, desto länger muss der Prozess auf Node 1 warten und kann nicht weiter rechnen.

Deswegen gibt man sich bei dem Netzwerk natürlich sehr viel Mühe. In meinem naiven Verständnis liegt die Verzögerung also nicht an der Wahl der CPUs (oder gar AMD wie in #3 impliziert), sondern an fehlender Erfahrung so vielen Nodes möglichst geschickt mit einander zu verbinden.
 
Mr.Powers schrieb:
Die CPUs von Node 1 können nicht auf den RAM von Node 2 zugreifen und umgekehrt. Das liegt daran, dass die CPUs auf verschiedenen Mainboards sitzen. Für parallelisierte Anwendungen müssen aber typischerweise Ergebnisse zwischen den Prozessen ausgetauscht werden
Das ist so nicht richtig. Es gibt in MPI one sided communication mittels put&get und auf der anderen Seite gibt es auch PartionedGlobalAddressSpace Sprachen die einem genau das liefern, einen globalen Adressraum liefern.

Mr.Powers schrieb:
Deswegen gibt man sich bei dem Netzwerk natürlich sehr viel Mühe. In meinem naiven Verständnis liegt die Verzögerung also nicht an der Wahl der CPUs (oder gar AMD wie in #3 impliziert), sondern an fehlender Erfahrung so vielen Nodes möglichst geschickt mit einander zu verbinden.
Jaein.

Man hat mit derart großen Netzwerken durchaus seit Jahrzehnten Erfahrung. Aber es ist jetzt halt erstmals so ein großes Netzwerk mit Slingshot und da macht man ja schon einige Tricks. Ob das am Ende dann halt alles so funktioniert wie gedacht muss man schauen.

Die Performance vom Netzwerk ist wegen der Treiber aber nicht unabhängig von der CPU. Kann also auch durchaus daran liegen.

Ist halt alles nicht so einfach und man muss von den Treibern/Firmware über OS und Kommunikationslibs bis hin zu irgendwelchen Useranwendungen optimieren. Man hat also meist so 4-10 Abstraktionsschichten durch die man sich wühlen muss...

Und da spreche ich aus eigener Erfahrung.
 
Zurück
Oben