News Frontier-Supercomputer: HPE/AMD-System ist das erste westliche Exascale-System

Geiles Teil, hoffen wir mal, dass die Abwärme auch sinnvoll zum heizen eines Gebäudes genutzt wird. Das würde die Effizienz noch weiter erhöhen.
 
Dass es nicht für das erste Exascale-System gereicht hat, liegt an China. Hier werden seit einem oder gar zwei Jahren bereits zwei Systeme vermutet.

Naja, also wer keine offiziellen Benchmarks laufen lässt, der hat auch nicht das schnellste System. Jeder kann sagen mein Eigenbau-Auto fährt 500kmh, aber ich lasse es nicht testen :D
 
Max007 schrieb:
Was läuft auf solchen Supercomputern?
Alles mögliche läuft auf so Kisten. Das ist extrem diverse.
Max007 schrieb:
Gibt es Szenarien, die die gesamte Rechenleistung über einen längeren Zeitplan benötigen
Ja gibt es. Z.b. Simulationen zur Entstehung des Universums oder LargeEddy Simulationen belegen mal über längere Zeiträume auch komplette Maschinen. Wobei man bei den Exascale Maschinen schauen muss was da noch für ein Problem die ganze Maschine belegen wird. Aber einfach mal nach Gordon Bell Prize schauen. Da gibt es immer gute Kandidaten.

Heutzutage wird aber auch in den klassischen Feldern wie Wetter auf so großen Systemen eher 1000 mal das Wetter für morgen parallel berechnet um eben Statistik zu bekommen wie Stabil ein gewisses Wetter ist.

Auch ansonsten wird sehr viel Variationsrechnung gemacht. Sei es beim Falten von Molekülen oder sonstigen Optimierungsproblemen. Da geht dann schnell extrem viel Leistung drauf. Du hast da aber eher keine großen Probleme. Das würde einfach irgendwann zu teuer werden. Und genau da wird man sehen wie viele große Probleme da wirklich noch gerechnet werden. 1h das "ganze" System bekommen ist halt so langsam extrem teuer. Wobei das "ganze" System irgendwo zwischen 50 und 90% bedeutet. Mehr bekommt man eigentlich nie, weil auch immer irgendwas kaputt geht und eben die Maschine sonst auch leer läuft...

So was muss/will man dann doch auch planen.

Max007 schrieb:
oder ist es eher dazu gedacht, dass da parallel zig Kunden ihre Szenarien berechnen lassen können?
Das ist der Normalfall. Auf so nem 20PFLOP System laufen mal gerne 100+ Jobs parallel. Wobei auch schon auf nem 2 PFLOP System 100 Jobs parallel laufen können. Man geht da eher nach der Anzahl der Knoten. Du kannst bei großen Systemen wie hier davon ausgehen das 90% vom System nur in Tranchen von mindestens einem Knoten rausgegeben werden.

Beim Rest werden dann aber eventuell dann einzelne CPU Cores oder einzelne GPUs verteilt. Wobei das eher bei kleineren Systemen der Fall ist. Habe auch schon ein System mit paar hundert Knoten gesehen, da lief auf der Hälfte der Knoten Single Core Jobs.

Kommt halt extrem auf deine "Kunden" drauf an und wie DU als Betreiber die Maschine betreibst. Also den Job Sheduler. Trick the Sheduler ist bei manchen Forschungsbereichen wie Chemie gerade zu ein Sport wie mir scheint.... du wirst immer irgendwelche High throughput Leute haben die das Spiel spielen. Ich habe da schon alles gesehen. Leute die vermeintlich große Jobs machen um dann innerhalb des Jobs quasi nur einzelne Cores zu verteilen, also quasi nen eigenen Job Sheduler haben... genau wie Leute die alle paar Sekunden den Status des Clusters abfragen um dann "passende" Jobs für die Lücken zu kreieren bis hin zu Leuten die einfach tausende von kleinen Jobs erstellen und damit das System fluten...

Da gibt es quasi alles. Hängt halt immer davon ab was die Leute machen und wie stark das System überbucht ist. Sehr oft werden 10% mehr an Rechenzeit vergeben als vorhanden, damit es zu keinem Leerlauf kommt. Wenn aber alle schön ihre Zeit maximal ausnutzen, weil an sich eh schon zu wenig, dann ist ne Kiste halt immer voll. Das Gleiche passiert auch wenn es mit Beschaffungen Probleme gibt etc.

Bei Prace ist man ja in einem Verbund. Da wird dann auch mal verschoben wenn ein System nicht kommt, damit die Forscher nicht völlig im Regen stehen. Dann ist das System aber vielleicht sogar zu 15 oder 20% überbucht....

Ist nett wenn man vor Abschaltung einer Maschine schon genug Jobs in der Queue hat um das System für zwei Monate länger voll auszulasten...

Dann gibt es aber auch sites wie z.b. Jülich da war/ist es bekannt, dass die Auslastung eher gering ist weil viele große Jobs dort laufen und es damit mehr Lücken gibt. Früher gab es da dann wohl auch mit den BlueGene nicht so das Interesse von Leuten mit kleineren Jobs die Lücken zu füllen bzw kein Interesse so Leute auf die Kiste zu lassen...

Wie du siehst gibt es da fast nichts was es nicht gibt. ;)
 
  • Gefällt mir
Reaktionen: Draco Nobilis, Max007 und Quonux
Chris_S04 schrieb:
But can it run Crysis? :D
Hängt von der wine version ab
Ergänzung ()

Wattwanderer schrieb:
Bei über Mio sind wir ja bereits im Bereich von unfassbar viel. Daher greifen wir ja auf Fußballfelder zurück statt in mm^2.
Das verschiebt nur die Anzahl der Nullen. Der (Physische) Wert ist immernoch der gleiche, egal welche Einheit. Ein Lichtjahr ist immernoch so lang wie ein Lichtjahr in Meter.
Ergänzung ()

[wege]mini schrieb:
Aber ganz klar, die Min0r sind schuld an den Hardwarepreisen. :heilig:
Hör doch auf damit, am Ende kommen die Menschen noch drauf dass GPGPU auch für Ki workloads genutzt werden kann und wird.
 
Zuletzt bearbeitet:
Naja, schon nett aber wirkt von den Zahlen halt auch sehr auf Wow gepusht. Insbesondere der Satz "wenn x Mrd Menschen eine Operation". Ja klar, weil die Hardware daheim auch nur eine Op pro Sekunde macht.

Klingt halt nicht mehr ganz so beeindruckend wenn man es so umschreibt: 50-200k Personen die eine 3080 Ti / 6900XT und einen 5950x Vollgas rechnen lassen für eine Sekunde.

Da braucht es keine Jahre. :D
 
ThirdLife schrieb:
Ja klar, weil die Hardware daheim auch nur eine Op pro Sekunde macht.
Manuel war gemeint. Und ja, beim mentalen Operationen sind Menschen nicht so schnell.
Dafür können das KI's überhaupt noch nicht.
 
Quonux schrieb:
Manuel war gemeint. Und ja, beim mentalen Operationen sind Menschen nicht so schnell.
Dafür können das KI's überhaupt noch nicht.
Ja, ok. Given.

Aber selbst wenn, damit klingt auch ein iPhone krank spektakulär von den Specs her. Vermutlich sogar ein Toaster-Chip.
 
Artikel-Update: Am Stand von HPE auf der ISC 2022 in Hamburg konnte sich ComputerBase die einzelnen Blades des Frontiere-Supercomputers in einem Glaskasten genauer ansehen. Überaus imposant ist dabei, wie viel Technik auf dem dann vergleichsweise kleinen Raum unterkommt: In einem „Einschub“ stecken zwei Nodes („Knoten“) und damit quasi ein doppeltes System.

Ein Prozessor, mit dem RAM versteckt unter den grünen HPE Slingshot Mezzanine Cards, wird im vorderen Teil von vier wassergekühlten CDNA-2-GPUs flankiert - das ergibt einen „Node“ (Knoten). Und genau das gleiche gibt es im hinteren Teil des Blades noch einmal. In dem Blade stecken damit gleich zwei Epyc-CPUs und acht Grafikkarten (mit jeweils zwei Chiplets).

[Bilder: Zum Betrachten bitte den Artikel aufrufen.]
 
  • Gefällt mir
Reaktionen: Makso, Conqi, PietVanOwl und 4 andere
Ob solche "Supercomputer" eines Tages einem akturanischen Megaesel alle vier Beine wegdiskutieren können?
 
  • Gefällt mir
Reaktionen: Colindo
Staune. Das Kabelmanagement hätte ich professioneller erwartet.

Was außen schon etwas lieblos schien setzt sich also auch im Inneren fort?

Apropos, was sind das für Kabel außen? Der Dicke nach sieht es nach Kupfer aus und nicht nach Faser?
 
@Volker
Zwei Prozessoren, versteckt unter den grünen HPE Slingshot Mezzanine Cards, werden im vorderen Teil von vier wassergekühlten CDNA-2-GPUs flankiert. Und genau das gleiche gibt es im hinteren Teil des Blades noch einmal. In dem Blade stecken damit gleich vier Epyc-CPUs und acht Grafikkarten.
Also irgendwas passt da nicht... In der Bildunterschrift heißt es "Ein Frontier-Blade mit 8 GPUs und zwei CPUs" und ich kann auf dem Bild auch nur RAM-Slots für eine CPU pro vier GPUs finden. In einem Blade stecken also zwei Epyc-CPUs und acht Grafikkarten (aufgeteilt in eine CPU pro vier GPUs) und nicht vier Epyc-CPUs.

Edit: Wie ich sehe hast du es gerade schon korrigiert :D
 
  • Gefällt mir
Reaktionen: Makso
Nitschi66 schrieb:
Wasserleitungen. Deshab auch blau und rot.
Ah, danke.

Wunderte mich über Dicke, Biegeradius und Farbe.

Hoffen wir, dass man das Rechenzentrum nicht unter Wasser setzt wenn man ein Element rauszieht. :)

Da sind sicher Ventile? Halten sie zuverlässig die Nutzungdauer eines Supercomputers durch?
 
FrozenPie schrieb:
In einem Blade stecken also zwei Epyc-CPUs und acht Grafikkarten und nicht vier Epyc-CPUs.
Ist offensichtlich ein GPU-Blade

So wie in Bild 2 (Folie 16) gezeigt sieht das auch nicht aus, da ist als GPU-Blade ein anderes Layout gezeigt.
Das sind wohl nur die dedizierten CPU-Blades, die mit 4 CPUs daher kommen.

Wattwanderer schrieb:
Hoffen wir, dass man das Rechenzentrum nicht unter Wasser setzt wenn man ein Element rauszieht. :)

Da sind sicher Ventile? Halten sie zuverlässig die Nutzungdauer eines Supercomputers durch?
Da werden Schnellverschlüsse zum Einsatz kommen, keine Sorge. Das sieht alles nach Edelstahl oder verchromt/verzinkt aus (schwer zu sagen), die paar auf/zu, die es im Leben mitmachen wird, wird das wohl locker wegstecken.

Ich wäre sehr verwundert, wenn sich nicht ein Blade im laufenden Betrieb wechseln läst.
 
  • Gefällt mir
Reaktionen: Makso
Wattwanderer schrieb:
Hoffen wir, dass man das Rechenzentrum nicht unter Wasser setzt wenn man ein Element rauszieht. :)

Da sind sicher Ventile? Halten sie zuverlässig die Nutzungdauer eines Supercomputers durch?
Das dürften Schnellwechselventile sein, die beim lösen maximal ein paar Tropfen verlieren.
Die Lebensdauer sollte nahezu unbegrenzt sein bzw. die Lebensdauer des Rechners bei weitem übersteigen, wenn man sie nicht gerade im Minutentakt ab- und wieder ansteckt :D

Rickmer schrieb:
So wie in Bild 2 (Folie 16) gezeigt sieht das auch nicht aus, da ist als GPU-Blade ein anderes Layout gezeigt.
Das sind wohl nur die dedizierten CPU-Blades, die mit 4 CPUs daher kommen.
Wenn ich das richtig sehe, sind auf dem Bild pro CPU-Compute Blade sogar acht CPUs zu sehen. Jetzt von der Anzahl der kupfernen Kühlplatten (zwei werden durch die Slingshot-PCBs verdeckt) und der Positionierung der RAM-Bänke aus geschlossen.
 
Zuletzt bearbeitet:
FrozenPie schrieb:
Edit: Wie ich sehe hast du es gerade schon korrigiert :D
Wir waren bei so vielen GPUs, CPUs und der Tatsache, dass HP die CDNA-2-Chiplets teilweise separat zählt, kurzfristig orientierunglos. ;)
 
  • Gefällt mir
Reaktionen: LukS, Col. Jessep, FrozenPie und 2 andere
Geil😁
 
Zurück
Oben