Bericht Hunter & Herder am HLRS: Zu Besuch bei deutschen AMD-Supercomputern

Simonte schrieb:
Mich befriedigt das Kabelmanagement enorm :cool_alt:
Meinst du die OM3 (türkis) welche mit Klettbändern befestigt von der Decke baumeln?
Ernsthaft, da ist nichts ordentlich. Ich war in noch keinem RZ, bei dem Kabel mit Klettbändern von der Decke baumelten oder einfach von Rack zu Rack geworfen wurden. Die liegen immer in Trasse. Entweder im Doppelboden oder unter der Decke, getrennt nach Kupfer und Glas. Ich sehe hier auch keine Wam-Kalt-Gänge, die sich positiv auf den Bedarf an Energie und Kühlung auswirken würden.
 
Skysnake schrieb:
Definieren aber "das Beste" das ist gar nicht so einfach!
Es wird aber einfacher, wenn man die Anschrift des Lieferanten nicht dafür berücksichtigen muss ;)
Skysnake schrieb:
Deswegen unterschätzt den Aufwand und die Risiken für so ne Beschaffung nicht. Man muss SEHR genau wissen was man da tut und welche Tricks die Hersteller im Ärmel haben. Sonst gehst du unter.
Absolut. Und manchmal auch Glück haben (oder zumindest kein Pech). Argonnes Aurora ist ja ein Musterbeispiel für ein Desaster in dem Bereich.
Ergänzung ()

Dr. MaRV schrieb:
Ernsthaft, da ist nichts ordentlich. Ich war in noch keinem RZ, bei dem Kabel mit Klettbändern von der Decke baumelten oder einfach von Rack zu Rack geworfen wurden.
Das ist halt auch kein richtiges RZ, das ist ein Unilabor. Da sind studentische Versuchsaufbauten der Vergleich, keine professionellen Anlagen (ja ich überspitze bewusst) ;)

Bei den Kommentaren frage ich mich wirklich, ob die Leute tatsächlich das Kabelmanagement meinen, oder die Kühlung. Denn die Wasserkühlung ist schick gemacht und sieht wirklich ordentlich aus.
Dr. MaRV schrieb:
Ich sehe hier auch keine Wam-Kalt-Gänge, die sich positiv auf den Bedarf an Energie und Kühlung auswirken würden.
Bei wassergekühlten Racks egal
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Dr. MaRV und Simonte
stefan92x schrieb:
Das ist halt auch kein richtiges RZ, das ist ein Unilabor. Da sind studentische Versuchsaufbauten der Vergleich, keine professionellen Anlagen (ja ich überspitze bewusst) ;)
Auch das kann man ordentlich aufbauen. Es erleichtert dann auch den Umbau/Rückbau.
Ich finde das furchtbar unordentlich.

stefan92x schrieb:
Bei wassergekühlten Racks egal
Es ist in diesem Fall ein der Teil der Geräte, welche mit Wasser gekühlt werden, nicht die Racks, die gibt es auch (mit kaltem Wasser durchfluteter Wärmetauscher mit Ventilatoren im Rack), ist hier aber nicht der Fall. Es sind auch nicht alle Geräte mit Wasserkühlung versehen, weshalb Warm-Kalt-Gänge trotzdem Sinn ergeben würden.

Ich glaube aber auch, die Anderen meinten die roten und blauen Schläuche der Wasserkühlung. Die ist Top! Die Racks kommen vermutlich fertig konfektioniert vom Hersteller im RZ an.

Aber gut, der Raum ist auch nahezu leer. Ein großer Bedarf an Kühlung wäre vermutlich nicht gegeben. Ich möchte nicht päpstlicher sein als der Papst.

IMG_2199.jpegIMG_2200.jpeg
So kenne ich das. Fotografieren ist im RZ nicht gern gesehen, meist sind das Hochsicherheitsumgebungen. Aber hier hatte ich mal zwei Bilder gemacht.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: stefan92x
Dr. MaRV schrieb:
Aber gut, der Raum ist auch nahezu leer. Ein großer Bedarf an Kühlung wäre vermutlich nicht gegeben. Ich möchte nicht päpstlicher sein als der Papst.
Meine Wahrnehmung ist auch, dass die Halle schon wesentlich "entkernt" wurde (also ältere Rechner entfernt wurden) und sowieso nicht mehr viel da passiert. Die ganze Anlage ist so alt, dass jetzt ja nebenan ein Neubau hochgezogen wird, den man dann sicher auch sinnvoll aufbauen wird.
 
Dr. MaRV schrieb:
Auch das kann man ordentlich aufbauen. Es erleichtert dann auch den Umbau/Rückbau.
Ich finde das furchtbar unordentlich.
Dir ist schon klar, das wir hier über HPC sprechen? Also HalfPriceComouuting? Den Spruch wir nehmen das Doppelte für den halben Preis kommt nicht von ungefähr.

Für den inneren Monk hat da keiner Zeit und erst recht kein Geld. Funktionalität geht da vor. Und jetzt nachdem ist das im Zweifel halt die schnellste und günstigste Lösung.

Und ich kann dir sagen, um großen und ganzen sieht das alles immer recht ordentlich aus. Du musst aber auch bedenken, das bei so großen Systemen immer was kaputt geht und deswegen gewartet werden muss.

Und z.b. inter Rack cablinh spart dir tausende von Euro in der Regel weil du einfach mit den kürzeren Kabeln noch hinkommst....

Und btw wenn du Bild 10 meinst mit den Glasfaser Kabeln, dann lagen die vorher auch in Kabeltrassen. Nur blöd das die Maschine inkl der Kabeltrassen abgebaut wurde für die nächste Maschine....

Aber hey wir verlegen für die Umbauphase einfach die Kabel neu und schmeißen die aktuellen Kabel in den Müll. Und nach dem Umbau machen wir das am Besten nochmals. Statt einfach eine pragmatische Lösung zu finden und das System ohne Unterbrechung laufen zu lassen mit voller Leistung. Die Kabel die man auf Bild 10 sieht gehen zum Storage.
 
Manchen fällt vielleicht auch auf, dass die Anlage in Bezug auf physische Dimension eben auch sehr kompakt ist. Da einen Vergleich zu anderen Rechenzentren, die Luftgekühlt sind, zu ziehen ist vielleicht nicht ganz fair. Wenn ich richtig gezählt habe, dann sind da 64 Stück in einem Schrank. Bei 188 Knoten kommt da nunmal nicht mehr so viel zusammen. Man bedenke, dass Stromverbrauch und Leistung, Kernzahl usw. pro Platine schnell mal drei oder vier ältere Systeme, rein von der Dimensionierung, ersetzen.
 
  • Gefällt mir
Reaktionen: Simonte
Skysnake schrieb:
Für den inneren Monk hat da keiner Zeit und erst recht kein Geld. Funktionalität geht da vor. Und jetzt nachdem ist das im Zweifel halt die schnellste und günstigste Lösung.
Ordnung ist funktional
Skysnake schrieb:
Und ich kann dir sagen, um großen und ganzen sieht das alles immer recht ordentlich aus. Du musst aber auch bedenken, das bei so großen Systemen immer was kaputt geht und deswegen gewartet werden muss.
Brauchst du nicht, ich arbeite mit und an größeren Systemen. Je ordentlicher diese aufgebaut und verkabelt sind, desto einfacher ist die Wartung und der Tausch defekter Komponenten.

Skysnake schrieb:
Und z.b. inter Rack cablinh spart dir tausende von Euro in der Regel weil du einfach mit den kürzeren Kabeln noch hinkommst....
Bei RJ45, LC & MPO sprechen wir von Centbeträgen. Die Kabel liegen den Geräten für gewöhnlich dutzendfach in sämtlichen Längen bei und werden in der Regel von mir weggeworfen, weil den RZ Betreibern die Farbe der Verpackung nicht gefällt. Die nehmen dann ihre eigenen Kabel, schon allein der einheitlichen Optik wegen. Weiter, bezahlt keiner der Kunden den Preis, der auf dem Gerät steht. Rabatte von 80 - 90 % sind die Regel, nicht die Ausnahme. Verdient wird am SLA und dem Service.
Ich könnte dir Quotes zeigen, darf ich aber nicht.

Skysnake schrieb:
Und btw wenn du Bild 10 meinst mit den Glasfaser Kabeln, dann lagen die vorher auch in Kabeltrassen. Nur blöd das die Maschine inkl der Kabeltrassen abgebaut wurde für die nächste Maschine....
Woher weißt du das? Man sieht auf den Fotos nicht eine Trasse, wurden die alle abgebaut, für eine Hand voll neuer Schränke? Warum baut man die Trasse überhaupt ab, wenn welche gab? Ein RZ ist als Raster aufgebaut, genau so werden auch die Trassen montiert und neue Schränke an Stelle der alten wieder hingestellt. Ein Rack hat eine genormte Breite, Tiefen und Höhen.

Skysnake schrieb:
Aber hey wir verlegen für die Umbauphase einfach die Kabel neu und schmeißen die aktuellen Kabel in den Müll. Und nach dem Umbau machen wir das am Besten nochmals. Statt einfach eine pragmatische Lösung zu finden und das System ohne Unterbrechung laufen zu lassen mit voller Leistung. Die Kabel die man auf Bild 10 sieht gehen zum Storage.
Würde man mit Trassen & Patchfeldern arbeiten, wäre das sogar noch einfacher. Schon hunderte Male gemacht. Da braucht auch mit Trasse überhaupt nichts neu verlegt werden. Man kann einzelne Racks und ganze Abschnitte miteinander verbinden und braucht später nur noch mit kurzen Kabeln auf das Patchfeld im Rack oder dem Switch/Director der Reihe.
Was Geld spart, wie du selbst sagst.
Ich bin mir ziemlich sicher, beim Neubau werden sie auch genau so verfahren und eine strukturierte Verkabelung mit Switch, SAN director und Patchfeld etablieren.
 
Dr. MaRV schrieb:
Man sieht auf den Fotos nicht eine Trasse, wurden die alle abgebaut, für eine Hand voll neuer Schränke?
Ältere Aufnahmen aus der Halle finden sich z.B. hier: https://de.wikipedia.org/wiki/Höchstleistungsrechenzentrum_Stuttgart

In der Tat fehlt es da schon immer an Kabeltrassen unter der Decke, aber man sieht schön die "Kabelbrücken" bei Hazel Hen z.B.
Dr. MaRV schrieb:
Ein RZ ist als Raster aufgebaut, genau so werden auch die Trassen montiert und neue Schränke an Stelle der alten wieder hingestellt. Ein Rack hat eine genormte Breite, Tiefen und Höhen.
Ein Standard-Rack ja. Diese Supercomputer-Systeme aber zum Teil nicht exakt. Ein richtiges Standard-Raster wie in einem Standard-RZ hat es im HLRS noch nie gegeben.
Dr. MaRV schrieb:
Ich bin mir ziemlich sicher, beim Neubau werden sie auch genau so verfahren und eine strukturierte Verkabelung mit Switch, SAN director und Patchfeld etablieren.
Strukturierte Verkabelung (innerhalb eines jeden Supercomputers) hat man schon jetzt im HLRS. Und dann führt man halt ein Kabelbündel zum Storage.
 
  • Gefällt mir
Reaktionen: Dr. MaRV und Simonte
Dr. MaRV schrieb:
Ordnung ist funktional
Wenn man es aber übertreibt sind das nur unnötiger Kosten und zudem musst du aufpassen, das es noch wirklich wartbar ist.

Ich sage nur schön kurze kabel und dann kannst du den Knoten nicht mehr im Betrieb ziehen.

oder man hat die Biegeradien der Kabel nicht bedacht und hat jetzt höhere Ausfallraten.

Typisch schneidest du Kabel einfach ab und verlegst neu dazu. Das Risiko das bei einem Tausch danach nichts geht ist viel zu groß.

Dr. MaRV schrieb:
Brauchst du nicht, ich arbeite mit und an größeren Systemen. Je ordentlicher diese aufgebaut und verkabelt sind, desto einfacher ist die Wartung und der Tausch defekter Komponenten.
Echt? wie groß ist es denn? Und ist es HPC oder Enterprise?

Dr. MaRV schrieb:
Bei RJ45, LC & MPO sprechen wir von Centbeträgen. Die Kabel liegen den Geräten für gewöhnlich dutzendfach in sämtlichen Längen bei und werden in der Regel von mir weggeworfen, weil den RZ Betreibern die Farbe der Verpackung nicht gefällt. Die nehmen dann ihre eigenen Kabel, schon allein der einheitlichen Optik wegen. Weiter, bezahlt keiner der Kunden den Preis, der auf dem Gerät steht. Rabatte von 80 - 90 % sind die Regel, nicht die Ausnahme. Verdient wird am SLA und dem Service.
Ich könnte dir Quotes zeigen, darf ich aber nicht
brauchst du nicht sehr ich oft genug. Aber wer redet über die HW? Die verlegt sich wohl von allein oder wie?

Dr. MaRV schrieb:
Woher weißt du das?
weil ich den Raum bzw die Installation kenne. Von dem System geht nur was in Richtung storage.

Dr. MaRV schrieb:
Man sieht auf den Fotos nicht eine Trasse, wurden die alle abgebaut, für eine Hand voll neuer Schränke?
ja, das waren Kabelkanäle zwischen den Racks. Ist Standard bei Cray seit vielen vielen Jahren. Hast aber wohl noch nie so ein System gehabt.

Dr. MaRV schrieb:
Warum baut man die Trasse überhaupt ab, wenn welche gab?
Das ist also Teil des alten Systems das ausgeräumt wurde. Du weißt nicht

Dr. MaRV schrieb:
Ein RZ ist als Raster aufgebaut, genau so werden auch die Trassen montiert und neue Schränke an Stelle der alten wieder hingestellt. Ein Rack hat eine genormte Breite, Tiefen und Höhen.
Vielleicht bei dir, HPC Systeme aber nicht zwingend. Da hast du 19 oder auch 21 oder auch mehr Zoll pro Rack. Und wie hier auch zwischen den Racks weitere kleine Racks. Bin mir jetzt nicht mehr sicher ob cooling oder Netzwork aber egal. Cluster haben heutzutage keine einheitlichen Raster mehr.

Dr. MaRV schrieb:
Würde man mit Trassen & Patchfeldern arbeiten, wäre das sogar noch einfacher.
Nö. Und vor allem hast du dann das Schwarzerpeter spielchen wer bei Problemen verantwortlich ist. Da hast du keinen Bock drauf.

Dr. MaRV schrieb:
Schon hunderte Male gemacht.
Auch in HPC Centern/Systemen?
Dr. MaRV schrieb:
Da braucht auch mit Trasse überhaupt nichts neu verlegt werden.
Blöd wenn die Trasse zu niedrig hängt oder zu hoch oder die Last nicht halten kann oder....
Dr. MaRV schrieb:
Man kann einzelne Racks und ganze Abschnitte miteinander verbinden und braucht später nur noch mit kurzen Kabeln auf das Patchfeld im Rack oder dem Switch/Director der Reihe.
Theorie.... Jedes System ist anders und jedes System kämpft mit den Limits der aktuellen Technik und Kosten. Wie gesagt HPC ist Half Price Computing...

Dr. MaRV schrieb:
Was Geld spart, wie du selbst
Nö, du kennst das Buisness nur nicht

Dr. MaRV schrieb:
Ich bin mir ziemlich sicher, beim Neubau werden sie auch genau so verfahren und eine strukturierte Verkabelung mit Switch, SAN director und Patchfeld etablieren.
Nein werden Sie nicht. Das kannst du dir aber einfach nicht vorstellen, weil du von der Branche einfach keine Ahnung hast. Sorry for that.
 
Volker schrieb:
Kommt gleich was zu Rhea1! Der Chip ist halt 3 Jahre zu spät dran .. und damit unverändert quasi Toast^^
Jupiter musste aber darauf setzen, also die Anweisung gibt es hier und da schon, genau so wie in Japan. Unterm Strich wird aber massiv viel Geld versenkt für ein extremes Nischenprodukt was nirgendwo sonst genutzt wird. Da ist die Ware von der Stange mitunter doch die bessere Wahl - immerhin auch mit deutscher Technik dann simuliert und hergestellt - beispielsweise über Trumpf-Laser in den EUV-Systemen von ASML. Also ohne die ganze Technik gäbe es wiederum auch nix von AMD und Nvidia & Co.

Zum Thema allgemeine EU-Chips haben wir den HLRS-Chef auch gefragt. Leider sind die nicht konkurrenzfähig meinte er durch die Blume, er lies wenig gutes an den französischen Projekten vor allem, zu viel Nationalstolz ist da wohl involviert. Am Ende ist er froh, das er an keine Weisungen gebunden ist. Er darf kaufen, was das beste ist. Und das kommt nunmal in dem Bereich eben nicht aus Europa.
Wobei zumindest diese Server-Klasse CPUs in EUV in Europa gefertigt werden: Xeon 6 in Intel 3 in Intels Fab 34 in Irland. Wo bist dato auch die einzigen EUV Scanner in der EU stehen, die in der Serienproduktion eingesetzt werden.
We need help....
 
Vielen Dank für den interessanten Bericht und den Einblick!

Mit welchen Kosten muss man denn da in etwa rechnen, wenn ich mit einer Firma den Super_Computer (bzw. vermutlich einen Teilbereich) nutze? Oder kann man das pauschal gar nicht sagen, weil es von zu vielen Variablen abhängig ist?
 
Ich kenne die aktuellen Zahlen nicht aber sicherlich weniger als bei nem Cloudanbieter
 
Cool! Hatte ich schon vergeblich auf deren Seite gesucht.

Woe man sieht sind die Preise nicht sonderlich hoch.

OnPrem kommt man da aber durchaus noch drunter wenn man ne gewisse größe erreicht hat und das System noch für die eigenen Ansprüche tunen kann. Viele werden da aber keine Chance haben günstiger zu sein. Vor allem nicht mit der Skalierbarkeit.
Ergänzung ()

Nut mal als Vergleich Genoa 96 core AWS Instanz 7.20$ HLRS 1.21€ + 30% macht 1.573€

Und jetzt sagt mal bitte nochmals wer Cloud wäre günstig bzw konkurenzfähig zu OnPrem ab ner gewissen Größe
 
Zuletzt bearbeitet:
Skysnake schrieb:
Und jetzt sagt mal bitte nochmals wer Cloud wäre günstig bzw konkurenzfähig zu OnPrem ab ner gewissen Größe
Ganz fair ist dein Vergleich aber nicht, da du die Miete eines Servers (den du also jederzeit zu deiner Verfügung hast) mit einem Batchbetrieb vergleichst (wo du keine Kontrolle hast, wann genau dein Job denn jetzt laufen wird). Diesen Unterschied in der Verfügbarkeit bezahlt man eben auch mit.

Aber trotzdem ist es natürlich so, dass AWS eine Gelddruckmaschine ist und das nicht den ganzen Preisunterschied rechtfertigt. Man sieht an deiner Kalkulation sehr schön, dass solche HPC-Systeme eben auch wirklich Industrieförderung sind, indem sie günstigen Zugriff auf Rechenleistung ermöglichen.
 
Zusätzlich kommt dazu, dass das HLRS lediglich kostendeckend arbeiten darf und AWS zum Geld verdienen genutzt wird. Was auch Einfluss auf die Kostenstruktur hat.
 
stefan92x schrieb:
Ganz fair ist dein Vergleich aber nicht, da du die Miete eines Servers (den du also jederzeit zu deiner Verfügung hast) mit einem Batchbetrieb vergleichst (wo du keine Kontrolle hast, wann genau dein Job denn jetzt laufen wird). Diesen Unterschied in der Verfügbarkeit bezahlt man eben auch mit.
Also da sagt meine Erfahrung aber ganz was anderes. Wenn ich 20 Maschinen haben will muss ich in der Regel auch warten.
stefan92x schrieb:
Aber trotzdem ist es natürlich so, dass AWS eine Gelddruckmaschine ist und das nicht den ganzen Preisunterschied rechtfertigt. Man sieht an deiner Kalkulation sehr schön, dass solche HPC-Systeme eben auch wirklich Industrieförderung sind, indem sie günstigen Zugriff auf Rechenleistung ermöglichen.
Ähm nein. Das ist keine Förderung. Die müssen ihre Kosten voll durchreichen und das Geld dann auch wieder investieren. Die Unternehmen zahlen also mindestens die vollen Kosten.
 
Skysnake schrieb:
Also da sagt meine Erfahrung aber ganz was anderes. Wenn ich 20 Maschinen haben will muss ich in der Regel auch warten.
Gut, das mag sein. Trotzdem ist Maschine mieten vs Rechenzeit im Batch bekommen ein anderes Modell.
Skysnake schrieb:
Ähm nein. Das ist keine Förderung. Die müssen ihre Kosten voll durchreichen und das Geld dann auch wieder investieren. Die Unternehmen zahlen also mindestens die vollen Kosten.
Richtig. Aber keine utopische Gewinnmarge oben drauf. Dass die wegfällt, meinte ich mit Förderung.
 
Zurück
Oben