Bericht Hunter & Herder am HLRS: Zu Besuch bei deutschen AMD-Supercomputern

fej1965 · 9. Juli 2025

Verstehs nicht ganz, wir haben bereits ein paar Bestands-Rechenzentren und Druckräume auf Schaltwartenböden gebaut und saniert. Die stammten aus den 70er Jahren, da wurde Rahmenkonstruktion verstärkt, die Punktlasten mit Schwerlaststützen abgefangen, Querstreben angebracht und faserverstärkte Kalziumsulfatplatten verwendet. So dass auch dynamische Lasten möglich sind. Und da gehen dann locker 3000kg je qm Flächenlast drauf. Und als Beispiel, so eine Digitaldruckmaschine wiegt um die 11.000kg, steht auch nur auf wenigen Punkten und bringt noch schwingende Lasten mit sich. Da sind die 4.000kg der hier genannten AMD-Teile eher weniger ein Problem, vermutlich wurde da an den Ertüchtigungsmaßnahmen gespart...
Man kann auch am Raum selbst erkennen, da wird noch von unten Kaltluft eingeblasen, oben abgesaugt, das ist nicht wirklich wirtschaftlich und effizient. Eigentlich baut man je nach System einen Kalt-Gang und Warm-Gang um die Racks...

luckysh0t · 9. Juli 2025

knoxxi schrieb:
Und ich musste zuerst an Triumph denken und war irritiert, was an der Berechnung an Schlüppern und BHs so rechenintensiv ist, ja bis der Groschen gefallen ist.

Wenn ich mir überlege, wie oft ich schon Hemden, Hosen etc. zurückschicken musste, nur weil durch das andere Muster/Farbe, mir es nicht mehr gepasst hat - obwohl Marke, Schnitt etc. alles gleich... kann der Textilbranche definitiv nie zu viel Rechenleistung zur Verfügung stehen..damit das mal endet xD

stefan92x · 9. Juli 2025

fej1965 schrieb:
Verstehs nicht ganz, wir haben bereits ein paar Bestands-Rechenzentren und Druckräume auf Schaltwartenböden gebaut und saniert.

Und am HLRS baut man jetzt halt neu statt zu sanieren. Da wird schon jemand durchkalkuliert haben, ob sich das lohnt.

fej1965 schrieb:
Eigentlich baut man je nach System einen Kalt-Gang und Warm-Gang um die Racks...

Auch Kalt/Warmgang sind hier schon wieder so ziemlich hinfällig, handelt es sich doch um ein wassergekühltes System (und folgende werden es auch).

Wenn man die Auslegung der alten Halle mit einer modernen Auslegung vergleicht, dann gibt es halt massive Unterschiede - jetzt kommt Wasser- statt Luftkühlung, deutlich mehr Stromverbrauch pro Rack, deutlich schwerere Racks. Da ändert sich so viel, dass sich eine Sanierung vielleicht gar nicht lohnt (insbesondere nicht, wenn man den laufenden Betrieb nicht stören will, und nebenan noch freie Fläche besteht.

luckysh0t · 9. Juli 2025

stefan92x schrieb:
Und am HLRS baut man jetzt halt neu statt zu sanieren. Da wird schon jemand durchkalkuliert haben, ob sich das lohnt.

Am Ende kann sowas auch eine Frage von (weitere) Förderung bekommen vs. keine Förderung bekommen sein.

Ergänzung (9. Juli 2025)

stefan92x schrieb:
Da ändert sich so viel, dass sich eine Sanierung vielleicht gar nicht lohnt (insbesondere nicht, wenn man den laufenden Betrieb nicht stören will, und nebenan noch freie Fläche besteht.

Würde mich nicht wundern, wenn diese Sanierung um ein x-Faches an Zeit/Geld kosten würde.. wenn man bedenkt, wie alt das Gebäude ist und welche Anforderungen es nun hätte.

MaverickM · 9. Juli 2025

Vielen Dank für den Artikel!
Ich finde die Einblicke in große und kleine Rechenzentren oder auch wie hier Supercomputer immer wieder spannend. Vor knapp 30 Jahren durfte ich mir das erste mal so etwas Live in der Firma meiner Mutter anschauen, die Faszination blieb.

Wen das Thema ähnlich fasziniert, dem kann ich bspw. das LTT Video einer Tour durch ein Equinix Data Center sehr empfehlen. Wirklich beeindruckend!

Simonte schrieb:
Mich befriedigt das Kabelmanagement enorm

Dito!

derlorenz · 9. Juli 2025

Schöner Einblick. Danke CB

=dantE= · 9. Juli 2025

Sehr geil.
Wenn man nur annähernd auflöst, was der Mensch im Stande ist zu leisten, frage ich mich des Öfteren warum man sich dann noch mit niederen Beweggründen aufhält und nicht zur Gänze einfach gemeinsam um noch effizientere und leistungsfähigere Systeme bemüht.
In Teilen ja, aber man Stelle sich mal vor man zweigt da noch von allen aktuellen gesamtgesellschaftlichen Irrwegen ab.

Aber ich schweife schon wieder ab.

Sehr beeindruckend das Ganze!

Vielen Dank @Volker für den Einblick!

BrollyLSSJ · 9. Juli 2025

Danke für den Einblick. 4 Tonnen pro Rack ist schon eine Hausnummer. Die Wasserkühlung finde ich interessant.

Boimler · 9. Juli 2025

Danke für den Bericht, sehr interessant!

Zudem rechnen CSPs eher mit 40 bis 50 Prozent Auslastung, das HLRS erreicht mindestens das Doppelte.

Mindestens das Doppelte ist bei 50% aber nicht mehr viel Luft

ueg · 9. Juli 2025

Nitschi66 schrieb:
Hört sich an als wären die 90% Auslastung geschönt

Ne das nicht, die freuen sich aber immer, wenn jemand mit coolen Forschungsprojekten ankommt.

Die haben einfach Spaß an der Arbeit hab ich den Eindruck.
Das HLRS macht generell coole Sachen, auch was AR/VR angeht.
Wir haben in unserer Halle eine Anlage, die bei denen virtuell nachgebaut ist mit allen Achsen und man kann den Zustand live übertragen. Da kann man dann irgendwo mit einer VR Brille neben oder auch in der Anlage stehen und die Prozesse monitoren.

Arboster · 9. Juli 2025

Es gibt keine Diesel-Generatoren und Notstromaggregate, da deren hohe Kosten von öffentlichen Stellen nicht finanziert werden – und sie in der Regel nicht benötigt werden. Kunden, die die garantierte Verfügbarkeit benötigen, müssen sich anderweitig umsehen – und diesen Service bei einem CSP auch bezahlen.

Aber eine USV zur Überbrückung bis die Systeme runtergefahren sind haben so doch, oder?

Mxhp361 · 9. Juli 2025

Geiler Stuff! - Danke für den Einblick.

Skysnake · 9. Juli 2025

Nitschi66 schrieb:
Hört sich an als wären die 90% Auslastung geschönt

Nein. Die sind dann schon bei 90%+ in der Regel. Aber du musst die Maschine halt auch dauerhaft füttern, damit das sind bleibt.

Zudem will man ha Forschungsgelder einwerben. Die ganzen Leute die da arbeiten müssen ja auch bezahlt werden...

In der Regel wird ich meine 10-20% mehr Rechenzeit vergeben als überhaupt vorhanden ist. Da ist also durchaus Andrang da. Bei einem ihrer letzten Systeme war wohl auch Wochen/Monate vor der Abschaltung die Queue auch schon voll bis zum Ende.

fej1965 schrieb:
Verstehs nicht ganz, wir haben bereits ein paar Bestands-Rechenzentren und Druckräume auf Schaltwartenböden gebaut und saniert. Die stammten aus den 70er Jahren, da wurde Rahmenkonstruktion verstärkt, die Punktlasten mit Schwerlaststützen abgefangen, Querstreben angebracht und faserverstärkte Kalziumsulfatplatten verwendet. So dass auch dynamische Lasten möglich sind. Und da gehen dann locker 3000kg je qm Flächenlast drauf. Und als Beispiel, so eine Digitaldruckmaschine wiegt um die 11.000kg, steht auch nur auf wenigen Punkten und bringt noch schwingende Lasten mit sich. Da sind die 4.000kg der hier genannten AMD-Teile eher weniger ein Problem, vermutlich wurde da an den Ertüchtigungsmaßnahmen gespart...

Ähm nein. Du stellst dir das etwa falsch vor. Das ist nicht einfach ein Doppelboden wie in euner Leit-/Schaltwarte der mit Pfosten direkt auf einer Bodenplatte bzw Decke steht. Unter dem Doppelboden gibt es noch ein Installationsstockwerk wo die Stromversorgung steht. Die Führungen gehe. Da normal nicht hin.
Wenn du ne Bodenplatte anhebt dann siehst du direkt bis nach ganz unten durch und meines Wissens nach ist dass das Problem. Die Zwischendecke wurde schon mehrfach verstärkt aber j
Man ist da inzwischen einfach am Ende.

fej1965 schrieb:
Man kann auch am Raum selbst erkennen, da wird noch von unten Kaltluft eingeblasen, oben abgesaugt, das ist nicht wirklich wirtschaftlich und effizient. Eigentlich baut man je nach System einen Kalt-Gang und Warm-Gang um die Racks...

Die Raumkühlung kannst du in der Pfeife rauchen. Das ist fast nichts mehr. Der alle größte Teil geht direkt ins Wasser. Einhausung macht bei den Systemen einfach keinen Sinn mehr.

Für den kleinen Standardcluster sieht man ja die Kaltgangeinhausung. Oder war es Warmgang??? Ne sollte Kaltgang gewesen sein...

Arboster schrieb:
Aber eine USV zur Überbrückung bis die Systeme runtergefahren sind haben so doch, oder?

Die haben ein Schwungrad für die Glättung/Entkopplung der Spannungsversorgung und dann sollte da noch normale Bleiakkus stehen. Und ja fürs Runterdahren reicht das eventuell noch. Wobei Sie eventuell auch nur noch Storage usw dran haben.

Der Punkt ist aber das z.b. bei Problemen mit der Kühlung das Ding eh in Minuten/Sekunden aus ist.

HEP80 · 10. Juli 2025

Nice. But can it run Crysis?

eastcoast_pete · 10. Juli 2025

Schon ein toller Supercomputer! Ein Gedanke, der mir bei der Erwähnung von Trumpf kam: tested das HLRS auch die photonischen KI Beschleuniger von Q.uant (gehört zu Trumpf) für eventuellen Einsatz aus? Finde es allgemein etwas schade, daß hierzu eher wenig bekannt ist, obwohl man die ja schon als PCI Karten kaufen kann (https://qant.com/photonic-computing/).

Und das bringt mich zu meinem großen Wermutstropfen bei dem Erfolg der deutschen Hochleistungsrechnern: wenig bis gar nichts der Hardware ist "Made in Germany" oder "Made in Europe". Japan hat wenigstens Fujitsus CPUs für ihren Supercomputer Fugaku (Mt Fuji) und dann Monaka in der Pipeline für 2026, während man von der Europäischen Server CPU auf ARM Basis - Rhea von SiPearl- leider wenig hört. Hier einer von mehreren Artikeln zum allgemeinen Thema https://www.nextplatform.com/2025/0...Us for,take the Rhea project up another level.

Aus irgendwelchen Gründen wird AMD in Deutschland immer noch als "unser" betrachtet, obwohl sich AMD schon vor weit über 10 Jahren auch von Fab 1 in Dresden getrennt hat (jetzt ja Teil von GloFo), und kein Teil von EPYCs oder Instincts wird in Deutschland oder Europa gefertigt. AMDs Chips sind eben genauso "Europäisch" wie Hoppers von Nvidia oder Xeons von Intel - gar nicht.

Volker · 10. Juli 2025

eastcoast_pete schrieb:
Und das bringt mich zu meinem großen Wermutstropfen bei dem Erfolg der deutschen Hochleistungsrechnern: wenig bis gar nichts der Hardware ist "Made in Germany" oder "Made in Europe". Japan hat wenigstens Fujitsus CPUs für ihren Supercomputer Fugaku (Mt Fuji) und dann Monaka in der Pipeline für 2026, während man von der Europäischen Server CPU auf ARM Basis - Rhea von SiPearl- leider wenig hört.

Kommt gleich was zu Rhea1! Der Chip ist halt 3 Jahre zu spät dran .. und damit unverändert quasi Toast^^
Jupiter musste aber darauf setzen, also die Anweisung gibt es hier und da schon, genau so wie in Japan. Unterm Strich wird aber massiv viel Geld versenkt für ein extremes Nischenprodukt was nirgendwo sonst genutzt wird. Da ist die Ware von der Stange mitunter doch die bessere Wahl - immerhin auch mit deutscher Technik dann simuliert und hergestellt - beispielsweise über Trumpf-Laser in den EUV-Systemen von ASML. Also ohne die ganze Technik gäbe es wiederum auch nix von AMD und Nvidia & Co.

Zum Thema allgemeine EU-Chips haben wir den HLRS-Chef auch gefragt. Leider sind die nicht konkurrenzfähig meinte er durch die Blume, er lies wenig gutes an den französischen Projekten vor allem, zu viel Nationalstolz ist da wohl involviert. Am Ende ist er froh, das er an keine Weisungen gebunden ist. Er darf kaufen, was das beste ist. Und das kommt nunmal in dem Bereich eben nicht aus Europa.

Skysnake · 10. Juli 2025

Ja, der Herr Resch ist da immer recht ehrlich

Aber so garantiert frei ist er auch nicht. Es muss ja ne Ausschreibung geben und der mit dem besten Angebot gewinnt.

Ist halt immer die Frage wie man sein Angebot genau formuliert.

stefan92x · 10. Juli 2025

Skysnake schrieb:
Es muss ja ne Ausschreibung geben und der mit dem besten Angebot gewinnt.

So wie das klingt darf er halt einfach genau das zum entscheiden Kriterium machen: wer liefert im Budget das beste?

Ohne Rücksicht auf Herkunft oder sonstiges in der Art

Volker · 10. Juli 2025

Ja komplett frei ist niemand, wenn es Geld von öffentlicher Hand ist.
Aber ich glaube er kann das schon genau so formulieren. Er war wirklich erfreulich ehrlich, ohne Marketing-BS den wir sonst ja so oft haben und bekommen - und den wir dann rausfiltern müssen um es ehrlich darzustellen. War schön da

Skysnake · 10. Juli 2025

Definieren aber "das Beste" das ist gar nicht so einfach!

Du hast bei so Projekten in der Regel gleich ein paar Benchmarker dasitzen die die Benchmarks optimieren und versuchen ein Loophole in der Ausschreibung zu finden.

Und dann hast du auch immer die Situation das du immer auf Versprechen setzen musst. In der Regel gibt es die Systeme nicht die du da kaufst. Das ist Manufactur quasi.

Sprich es kann sich auch herausstellen das sich der Hersteller verwoben hat und das kann dir bei jedem Hersteller passieren und du willst am Ende nicht wie Argone über viele Jahre ohne System dastehen bzw am Ende mit halbem Kernschrott....

Deswegen unterschätzt den Aufwand und die Risiken für so ne Beschaffung nicht. Man muss SEHR genau wissen was man da tut und welche Tricks die Hersteller im Ärmel haben. Sonst gehst du unter.

Bericht Hunter & Herder am HLRS: Zu Besuch bei deutschen AMD-Supercomputern

Lt. Junior Grade

Commander

Commodore

Commander

20k Fleet Admiral Pro

Captain Pro

Lt. Commander Pro

Admiral Pro

Captain Pro

Lieutenant

Commodore

Lt. Commander

Captain

Cadet 4th Year

Commander

Ost 1

Captain

Commodore

Ost 1

Captain

Ähnliche Themen

Passend zum Thema