News HPC-Beschleuniger: Intel Data Center GPU Max startet mit PCIe 5.0

Tzk schrieb:
Sieht erstmal nicht so gut aus, aber die Frage ist ob die TDP voll ausgeschöpft wurde. Und wenn man gegen den Xeon und seine TDP vergleicht, dann fehlt dort der RAM und die Spawa Verluste in der Rechnung. Bei den Beschleunigerkarten sollte das hoffentlich inkludiert sein.
Und die Frage ist auch, wie dieser Benchmark generell skaliert. Wenn ansonsten zum Beispiel ein OctaSocket-System und ein SingleSocketSystem fast gleich performen würden, wäre das schon ein Schritt. Oder anders ausgedrückt:
cb-leser schrieb:
Wenn ich Text, Bild und die unterhalb des Bildes verlinkte Quelle nicht falsch verstehe, sollte im Zuge des genutzten Benchmarks insbesondere die Speichergeschwindigkeit limitieren. Der Geschwindigkeitszuwachs müsste dementsprechend hauptsächlich auf den Speicher bzw. die Kommunikationsgeschwindigkeit zurückzuführen sein. Rohe Rechenleistung an sich wäre dann ein weiteres Paar Schuhe. Die Systeme besitzen neben den sechs GPUs wohl zwei (mit Sapphire Rapids) bestückte CPU-Sockel, da werden (in einer Molekulardynamiksimulation zumindest für mich gut vorstellbar) einige Komponenten erhöhten "Redebedarf" haben. :D
Prinzipiell halte ich die Sichtweise...
Phoenixxl schrieb:
6 Mal 600W und dann 13 Mal so schnell wie ein Xeon 8380 mit 270W?
3600/270=13,3.
...aber dennoch für sehr wichtig. Nach so viel Aufwand sollte auch ein ordentlicher Effizienzgewinn dabei sein.
Edit:
Seriousjonny007 schrieb:
Molecular Dynamics and Parallel Compute Benchmarks

Also bin ich mit einem Server mit 8 Epyc 9654 schon schneller unterwegs als mit einem Xeon Max mit HBM + 6x Max 1550 GPU´s.
Tatsächlich spricht die Quelle für ein recht klares nein. Denn schau dir mal an, wie wenig der 9654 gegenüber dem 9554 und dem 9374F zulegt. Entsprechend wird die OctaSocket-Performance ziemlich sicher auch nicht sonderlich toll ausfallen.
Ich könnte mir gut vorstellen, dass der noch nicht präsentierte Genoa-X (Genoa+3D-V-Cache) aber einen drastischen Sprung in genau diesem Bench hinlegen würde.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Tzk
Ich lasse mich gerne eines besseren belehren, aber auf den ersten Blick sieht das (nach einem weiteren) nicht konkurrenzfähigen Produkt für Intel aus.

1. Man bewirbt Simulationen im Bereich Naturwissenschaften und wählt das als Benchmark anstatt Datacenter, AI, ... => wenn man im Gegensatz zu AMD/NVIDIA mit exotischen Szenarien als Benchmark kommt, dann macht man das sicher bewusst, weil man in den wichtigen Benchmarks des Marktes nicht mithalten kann

2. Es wird überall auf die Speicherbandbreite verwiesen aber nicht mit einem Wort die eigentliche Rechenleistung, FLOPs, ... genannt => warum macht man das? Wahrscheinlich ja ebenfalls, weil man einzig in Applikationen, wo die Speicherbandbreite limitiert, gut abschneidet und bei der Rohleistung nicht mit AMD/NVIDIA mithalten kann

Falls sich das bewahrheitet, ist das der nächste Fail für Intel.
 
TenDance schrieb:
P.S.: wo wir bei der Auslegung sind: wofür kann man im HPC-Segment die Raytracing-Einheiten verwenden? Ja, man kann KI-Kerne und shader teilweise für Raytracing zweckentfremden, aber umgekehrt?
Oder sind Intels Raytracingkerne quasi deren KI-Einheiten?

Wenn man Teilchen-basierte Simulationen macht, wie zum Beispiel auf der Basis der Lattice Boltzmann Methode, dann kann man diese Kerne dazu nutzen die einzelnen Teilchen und ihre Trajektorien zu verfolgen. Generell sind diese Beschleuniger mehr für solche Simulationsansätze gemacht weil nur "embarrassingly parallel" auf Exascale skaliert werden kann.

(Außer ich partitioniere die Maschine gewaltig runter um effektiv eine gewaltige Monte-Carlo Simulation zu machen)
Ergänzung ()

ascer schrieb:
Ich lasse mich gerne eines besseren belehren, aber auf den ersten Blick sieht das (nach einem weiteren) nicht konkurrenzfähigen Produkt für Intel aus.

1. Man bewirbt Simulationen im Bereich Naturwissenschaften und wählt das als Benchmark anstatt Datacenter, AI, (...)

2. Es wird überall auf die Speicherbandbreite verwiesen aber nicht mit einem Wort die eigentliche Rechenleistung, FLOPs, ... genannt (...)

Die Benchmarks sind fuer die Nutzung in Supercomputern schon passend. Nur interessiert bei Supercomputern keinen die Performance pro Chip mehr so richtig, sondern bei zum Beispiel 16 dieser Server a 6 Beschleunigern und dann als Skalierungsbenchmark um die Nutzbarkeit wirklich einschätzen zu können.

Das Grundproblem ist aus meiner Sicht das Missverhältnis zwischen Leistung und Stromverbraucht. Aurora braucht 60000 dieser Beschleuniger um mit einem Powerbudget von 60MW knapp 2 Exaflops Maximalperformance zu erreichen (unterschiedlich zu Linpack, was die Top 500 Liste bestimmt). Frontier braucht fuer eine ähnliche Performance nur 30MW Strom und 37000 Beschleuniger.
 
Zuletzt bearbeitet:
Zurück
Oben