Notiz Exascale-Supercomputer: Kinderkrankheiten verzögern angeblich AMD/HPs Frontier

Volker

Ost 1
Teammitglied
Registriert
Juni 2001
Beiträge
18.286
  • Gefällt mir
Reaktionen: Col. Jessep, Mcr-King, iron-man und 7 andere
dem neuen Cray-Slingshot-Interconnect

Inwiefern neu? Sind das neue Versionen? Cray-Slingshot-Interconnect wurden die letzten Jahre ja schon verbaut, z.B. bei Perlmutter.
 
  • Gefällt mir
Reaktionen: CableGuy82 und Makso
Hatte mich doch auch schon gewundert, wie schnell und einfach es für AMD schien mit ein paar top CPUs und GPUs solche Projekte um zu setzten. Denn rings rum braucht es eben doch noch etwas zusätzliches Knowhow und Erfahrung. Da hat Intel sicher noch einiges mehr zu bieten. Dann bin ich ja gespannt, wie schnell Intel Aurora am Ende am Laufen hat wenn bei denen die Hardware endlich fertig ist. Und vor allem wie viel Zeit zwischen den beiden System liegen wird und was für ein Leistungsunterschied:.
.......................🐌---AMD---->
🐌-----------------Intel-----(>?)
 
Interessant, dass so etwas in der Öffentlichkeit breit getreten wird.

"Die Hardware ist da, doch alles kombiniert klappt noch nicht so wie erhofft. Die Einsatzbereitschaft von Frontier, der nach der starken Verspätung von Intels Exascale-Systeme Aurora der erste Exascale-Supercomputer der USA werden sollte, soll sich deshalb verspäten."

Danach kommt aber:

"die Errichtung sei ein „massiver und komplexer Vorgang“, das System liege jedoch „im Plan, im kommenden Jahr zur Verfügung zu stehen“."

Schneller wäre besser. Da hat man wohl Erwartungen geweckt, die man danach nicht erfüllen konnte, liegt aber immer noch komplett im Plan.

Zur Not, müssen halt Nachtschichten und Sonntagsarbeit eingelegt werden. Jeder, der sein Geld nicht vom Staat bekommt, kennt so etwas. (Abgesehen, von Soldaten) :evillol:

mfg

p.s.

SRY, die Polizei und die Feuerwehr natürlich auch. :heilig:
 
markox schrieb:
Hatte mich doch auch schon gewundert, wie schnell und einfach es für AMD schien mit ein paar top CPUs und GPUs solche Projekte um zu setzten.
AMD und Intel sind doch nur Lieferanten der CPUs, für die Verkabelung ist wohl ehr Cray zuständig, und denen kann es eigentlich egal sein ob die Nodes mit Intel oder AMD CPUs bestückt sind.
 
  • Gefällt mir
Reaktionen: Balikon, Cruentatus, Lamaan und 2 andere
Mr.Powers schrieb:
AMD und Intel sind doch nur Lieferanten der CPUs, für die Verkabelung ist wohl ehr Cray zuständig, und denen kann es eigentlich egal sein ob die Nodes mit Intel oder AMD CPUs bestückt sind.
Sie werden vermutlich schon sehr stark auf die verbauten CPUs optimieren, um die maximale Leistung rauszuholen. Gut möglich, dass genau hier noch Luft nach oben ist.

Die geweckten Erwartungen kommen vielleicht auch daher, dass AMD relativ offensichtlich berichtet hat, die Hardware fleißig auszuliefern, es aber quasi keine News von Cray bzw dem späteren Betreiber zu dem Thema gab und daher auch keine Informationen zum sonstigen Arbeitsfortschritt in diesem Projekt bekannt wurden.
 
dhew schrieb:
Inwiefern neu? Sind das neue Versionen? Cray-Slingshot-Interconnect wurden die letzten Jahre ja schon verbaut, z.B. bei Perlmutter.

Das sagt erstmal hier nicht so viel aus - Perlmutter ist eine weitaus kleinere Konfiguration, als auch die bisherig installierten Slingshot-Systeme. Diese Probleme scheinen wohl nur ab einer gewissen Groesse der Netzwerkkonfiguration ueberhaupt aufzutreten, weswegen sie jetzt erst bei Frontier wohl auftreten.

Fuer Anekdoten zum Slingshot-Interconnect in HPC ist dieser Twitter-Thread sehr aufschlussreich:
https://twitter.com/HPC_Guru/status/1473441200107507714?s=20
 
  • Gefällt mir
Reaktionen: dhew und Volker
[wege]mini schrieb:
Interessant, dass so etwas in der Öffentlichkeit breit getreten wird.
Öffentlicher Auftraggeber - wahrscheinlich müssen die das machen
 
  • Gefällt mir
Reaktionen: [wege]mini und Volker
Falls es wen interessiert, hier mal die deepl Übersetzung der Quelle.
Da nehmen die Gerüchte halt deutlich weniger Raum ein.
Man muss aber auch mal festhalten, das sie immer noch im geplantem Zeitrahmen sind.
Rom haben sie ja auch nicht in einem halben Jahr gebaut.

Inzwischen haben Sie vielleicht eine triumphale Ankündigung des US-Energieministeriums erwartet, dass der Supercomputer Frontier, der bis Ende 2021 als erstes US-System der Exascale-Klasse installiert werden soll, mit allen Systemen in Betrieb genommen wurde. Das DOE (dessen Oak Ridge National Laboratory Frontier beherbergen wird) verzichtet jedoch ab sofort auf eine "Mission accomplished"-Ankündigung und hat stattdessen eine eher formelle Erklärung zum Status von Frontier abgegeben. Die Gerüchte, die in der HPC-Gemeinschaft kursieren und die von Schwierigkeiten in den letzten Phasen der Frontier-Systemintegration und Feinabstimmung berichten, bleiben unbehandelt.

Hier die offizielle Erklärung zum Stand von Frontier, herausgegeben von Mike Bernhardt, Kommunikationsleiter für das Exascale Computing Project des DOE: "Die Partner des ORNL im Exascale-Projekt, HPE und AMD, haben das neue Frontier-System vor dem für diesen Herbst geplanten Termin an das ORNL geliefert. Die Installation und Integration von Frontier, ein massiver, komplexer Aufwand, ist jetzt im Gange, und der derzeitige Fortschritt deutet darauf hin, dass alles auf dem richtigen Weg ist, um Frontier den Nutzern für die offene Wissenschaft im nächsten Jahr zur Verfügung zu stellen - wie erwartet."

Allerdings kursieren in der HPC-Gemeinde auch Gerüchte, dass Frontier noch nicht so weit ist, wie man gehofft hatte. Es heißt zwar, dass Frontier bei einigen Codes beeindruckende Leistungen zeigt, aber es heißt auch, dass die Slingshot-Verbindung, die den riesigen HPE-Cluster zusammenhalten soll, Probleme bereitet. Wo genau die Probleme liegen, ist unklar, aber es gibt Spekulationen, dass sie mit der Integration des HPE Cray-basierten Slingshot mit den AMD EPYC CPUs und Radeon Instinct GPUs zusammenhängen, die Frontier antreiben werden. Es ist möglich, dass das DOE beschlossen hat, die Bekanntgabe der Inbetriebnahme des ersten Exascale-Systems des Landes zu verschieben, bis die gemunkelten Probleme mit den Verbindungen gelöst sind.

insideHPC hat HPE und AMD um eine Stellungnahme zu den Slingshot-Gerüchten gebeten, aber noch keine Antwort erhalten. Wir werden diese Geschichte bei Bedarf aktualisieren.

Hier könnten semantische Probleme im Spiel sein: Es ist leicht, Begriffe wie "geliefert", "eingesetzt", "installiert", "aufgestellt" und andere Begriffe, die den Status eines neuen Systems beschreiben, zu verwechseln. Das DOE hat immer wieder erklärt, dass Frontier bis zum Jahresende in Oak Ridge installiert sein und den Benutzern im nächsten Jahr zur Verfügung stehen würde. Und das DOE und die Oak Ridge Leadership Computing Facility haben ihre Erfolge bei der Vorbereitung der OLCF-Anlage auf Frontier hervorgehoben, z. B. durch die Auszeichnung der Leiter der Installationsteams mit dem ORNL Director's Award (siehe Frontier Exascale Install Teams Win ORNL Director's Award, 10. Dezember 2021) und Berichte über die immense Infrastruktur, die für die Unterbringung von Frontier erforderlich ist (siehe A Look Inside the US's 1st Exascale Supercomputer Facility, 30. September 2021).

Nach all dem ist es wichtig und fair festzustellen, dass Frontier das Supercomputing in unbekannte Gewässer vorantreibt und dass diejenigen, die mit der Bereitstellung eines Systems beauftragt sind, das eine Milliarde Milliarden Berechnungen pro Sekunde ausführen kann, sich mit der Komplexität der Systemintegration auseinandersetzen müssen (siehe Getting to Exascale: Nothing Is Easy, 18. Oktober 2020), und zwar in einem noch nie dagewesenen Umfang.
 
  • Gefällt mir
Reaktionen: Col. Jessep, Lamaan, joe65 und 3 andere
Summerbreeze schrieb:
Rom haben sie ja auch nicht in einem halben Jahr gebaut.

Da ist ihnen ja aber das Getränk aus der Dose ausgegangen, was mit einem Stier wirbt, wie wir aus der Werbung gelernt haben.

Spaß bei Seite. :)

Gerade in Ländern, in denen die Bevölkerung bis an die Zähne bewaffnet ist und mehr Feuerkraft zu Hause rum lungert als in einigen Kasernen von kleineren europäischen Ländern, würde ich als Politiker natürlich ebenfalls mit ständigen Wasserstandsmeldungen das Volk versorgen, da die natürlich wissen wollen, was mit ihren Steuergeldern passiert.

Gerade in den USA laufen sonst wieder Wahnsinnige zum/ in den Regierungssitz und verschrecken Politiker. Wenn die ihre Knarren auch noch mit nehmen, wird es unlustig.

Bei uns, kommen "nur" ein paar "Spinner" mit Fackeln zu den Politikern nach Hause.

Naja, das Ding, was wir immer als "Demokratie" begreifen ist historisch betrachtet auch noch neu und hat "Kinderkrankheiten".

btt:

Wenn es hart auf hart kommt, wird Frau Su persönlich mit Megafon und Peitsche hinter den Schrauberlingen stehen und sie "motivieren".

Das kostet natürlich ein wenig Extrageld. :evillol:

mfg
 
  • Gefällt mir
Reaktionen: CableGuy82, DevPandi und jemandanders
[wege]mini schrieb:
Wenn es hart auf hart kommt, wird Frau Su persönlich mit Megafon und Peitsche hinter den Schrauberlingen stehen und sie "motivieren".

Neinnnnnn………. Nimm die Bilder aus meinem Kopf. Sonst kann ich mir die AMD Präsentation im Januar nicht anschauen 😅😅😅
 
  • Gefällt mir
Reaktionen: dualcore_nooby, iron-man, knoxxi und 2 andere
Northstar2710 schrieb:
Nimm die Bilder aus meinem Kopf

Ich kann das noch steigern :D

Frau Su in komplett ledernem Outfit. Dann würde sie Madam oder Herrin Su genannt und immer brüllen: "Schneller, länger, härter".

Ein bisschen Spaß muss sein. :evillol:

mfg
 
  • Gefällt mir
Reaktionen: DevPandi
Was ein sehr lustiger Winkelzug bei der ganzen Geschichte wäre, wäre wenn HPE/Oak Ridge sich die Chinesischen Experten welche die Netzwerke der Chinesischen Systeme hochgefahren haben (die einzigen Systeme mit einer vergleichbaren Komplexität des Netzwerkes), einfliegen lassen würden zum debuggen und hochfahren des Netzwerkes…
 
Einfach mal abwarten und beobachten. Wird bestimmt irgendwann eine Lösung geben.
 
[wege]mini schrieb:
Frau Su in komplett ledernem Outfit.
Nein, das kannste wirklich nciht machen :D ich hatte sofort ein Bild von Jenson im Kopf, bitte nicht! Erbarmen!

Dann besser im Catsuit mit Peitsche.
 
  • Gefällt mir
Reaktionen: iron-man, bad_sign, knoxxi und eine weitere Person
[wege]mini schrieb:
wird Frau Su persönlich mit Megafon und Peitsche hinter den Schrauberlingen stehen und sie "motivieren".
[wege]mini schrieb:
Frau Su in komplett ledernem Outfit
Alexander2 schrieb:
Dann besser im Catsuit mit Peitsche.
Alexander2 schrieb:
Nein, das kannste wirklich nciht machen
Too bad, 'cause I'm doing it.

Not Safe For Work
thumb-1920-1056431.jpg


Jetzt ist nur die Frage, ob die Probleme überhaupt mit AMD zu tun haben. Aktuell sieht es ja eher nach der Dateninfrastruktur aus. Also Crays Problem.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: CableGuy82, konkretor, muh0rsen und 6 andere
[wege]mini schrieb:
Wenn es hart auf hart kommt, wird Frau Su persönlich mit Megafon und Peitsche hinter den Schrauberlingen stehen und sie "motivieren".

Das kostet natürlich ein wenig Extrageld. :evillol:

mfg

Nope! Ich versichere dir, Frau Su lässt peitschen.
 
  • Gefällt mir
Reaktionen: Balikon
ghecko schrieb:

Sehr schön.

Ich musste tatsächlich lachen. Das tut gut in harten Zeiten und gerade am 24.12. früh ist es schön, den Stress der Welt ein wenig wegzulachen.

Frohes Fest, an alle. @SV3N nenne ich noch stellvertretend, dann bin ich auch sicher, dass es bei der "CB-Gang" ebenfalls an kommt.

mfg
 
  • Gefällt mir
Reaktionen: CableGuy82, iron-man, knoxxi und 3 andere
Zurück
Oben