News AMD Instinct MI200: Multi-Chip-GPUs mit bis zu 47,9 TFLOPS, 128 GB und 560 W

stefan92x · 10. November 2021

Mracpad schrieb:
Wieviel Watt die einzelne Karte benötigt, spielt doch dafür überhaupt keine Rolle.

Spielt es doch, und mehr Leistung pro Karte ist besser, solange die Effizienz nicht wesentlich sinkt.

Wenn eine einzelne Karte mit 280W die Hälfte der Leistung der MI200 bei 560W bringen würde, müsste man doppelt so viele Server einbauen, also doppelt so viele CPUs etc, die auch alle Platz und Strom brauchen. Das Gesamtsystem wird umso effizienter, je mehr Leistung man pro Karte erzielen kann.

JesusLiftus · 10. November 2021

Weyoun schrieb:
Wenn ich die doppelte Performance pro Watt liefere und dennoch > 1.000 Watt verbrate, ist es also gut?
Nein!

Du scheinst echt absolut kein Plan zu haben. Das einzige was du machst ist pauschalisieren ohne Bezugsgröße.
Wenn man zB mit der alten Gen 2000Watt verbraucht bei der Durchführung einer Berechnung und mit der neuen Gen nur noch 1000Watt, ist das erstmal positiv zu bewerten -> sprich eine doppelt so hohe Effizienz. Oder weiter gedacht, ich kann mit einer GPU das erreichen, wofür ich früher zwei gebraucht habe.

Aber woran machst du jetzt fest ob 1000Watt etwas gutes ist oder schlecht? Sind 1000Watt einer Heizung um nicht frieren zu müssen besser als 1000Watt einer Kochplatte um nicht verhungern zu müssen?
Du sagst nämlich mit deiner Aussage, 1kW sind pauschal schlecht, ohne dem ein Nutzen gegenüber zu stellen.

Mracpad · 10. November 2021

stefan92x schrieb:
Spielt es doch

Nein spielt es nicht, sieht das einschränkende Wort „dafür“. Deine Anmerkung mag zwar korrekt sein, hat nichts mit dem zu tun was ich geschrieben habe.

ETI1120 · 10. November 2021

Weyoun schrieb:
Dass bei wachsender Weltbevölkerung global einfach nicht genügend Strom geliefert werden kann, wenn die Geräte des Alltags stetig mehr Energie benötigen.

Diese Grafikkarten sind nicht für Konsumenten bestimmt und somit auch keine Geräte des Alltags.

Es ist nun Mal die Aufgabe der nächsten Jahrzehnte die Energieversorgung so auszubauen, dass die Bevölkerung angemessen versorgt werden kann.

Volker · 10. November 2021

Locuza schrieb:
Was aber dann wirklich "eklig" ist, ist das Cache-Subsystem.
Es gibt nur 16KB L1D$ pro CU und 64KB programmierbaren Scratchpad Memory.
Nvidia bietet eine konfigurierbare 192KB Struktur pro SM, hat insgesamt also mehr Storage-Space als MI250X, welcher zwei Chips verwendet, und dank Konfiguration wird da auch eine größere Flexibilität geboten.
Der L2$ beim A100 ist mit 40MB deutlich größer, als bei Aldebaran, wo 2x8MB zum Einsatz kommen.
Von Intel braucht man da fast gar nicht zu sprechen, die schießen den Vogel komplett ab was die Cache-Kapazität angeht.
64MB L1/SLM (Bzw. 2x32MB) und 144MB L2$ pro Base-Die (288MB insgesamt), wie groß der Rambo Cache ist, wurde noch nicht geteilt.
Intel verwendet auch EMIB zwischen den Chips, dass sollte dann schon deutlich schneller und energetisch effizienter laufen, als 4x Package Links mit 400GB/s bei AMD.
Der Nachteil ist, dass es wohl ziemlich teuer in der Herstellung ist und während AMD Ende 2021 als Auslieferungstermin für Frontier geschafft hat, musste Intel mindestens ein halbes Jahr Verzug melden.

Schicke Analyse hier.
Ich hab auch die Kommentare auf Twitter verfolgt, der Chef des aktuell weltweit stärksten Supercomputers nennt die hohen FLOPs von MI200 deshalb ja "merly a stunt" und gerade FP64 sei für HPC weitgehend unwichtig, denn das Teil könnte hier und da echt verhungern wenn es echte Analysen machen soll.

Na warten wir mal ab, der erste Exascale-Rechner in den USA ist ja zweifelsfrei viel PR-Stunt, mal sehen was die Kiste dann wirklich leistet.

Weyoun · 10. November 2021

JesusLiftus schrieb:
Du scheinst echt absolut kein Plan zu haben. Das einzige was du machst ist pauschalisieren ohne Bezugsgröße.
Wenn man zB mit der alten Gen 2000Watt verbraucht bei der Durchführung einer Berechnung und mit der neuen Gen nur noch 1000Watt, ist das erstmal positiv zu bewerten -> sprich eine doppelt so hohe Effizienz. Oder weiter gedacht, ich kann mit einer GPU das erreichen, wofür ich früher zwei gebraucht habe.

Fakt ist, dass der Server der die Workstation trotz Mehrleistung jetzt mehr Strom benötigt, dessen Erzeugung wir aber nicht einfach nach oben skalieren können.

stefan92x · 10. November 2021

Weyoun schrieb:
Fakt ist, dass der Server der die Workstation trotz Mehrleistung jetzt mehr Strom benötigt, dessen Erzeugung wir aber nicht einfach nach oben skalieren können.

Fakt ist, dass ein neuer Server drei alte ersetzen kann und dabei weniger braucht als zwei alte.

catch 22 · 10. November 2021

Weyoun schrieb:
Fakt ist, dass der Server der die Workstation trotz Mehrleistung jetzt mehr Strom benötigt, dessen Erzeugung wir aber nicht einfach nach oben skalieren können.

Für Wirtschaft und Wissenschaft ist es aber egal, ob für mehr Leistung mehr Strom verbraucht wird, solange das mehr bei der Leistung nicht weniger als das mehr an Strom ist, sprich die Effizienz hoch geht.
Wenn eine GPU mit entsprechender Leistung 20KW braucht, dann ist das OK, da es bedeutet, dass man anstelle von mindestens 100 Grafikkarten zu je 200 Watt nur noch eine Grafikkarte benötigt.
Was du nämlich übersiehst ist, dass diese 100 Grafikkarten grob geschätzt 25 Server mit 25 Netzteilen, Mainboards, Prozessoren, Gehäusen, die entsprechenden Mengen an RAM, Datenträger, Lüfter und vor allem auch Platz in Racks benötigen.
Und nun glaub bloß nicht, dass die entsprechenden Stellen mit nur einem Server auskommen, es gibt Rechenzentren die auf 10000den von m² Rack an Rack gestellt haben, um so über eine Cloud Anbindung günstig und vor allem energieeffizient Rechenpower an jene, die das ganze mal langfristig und mal nur kurzfristig, weil Projektgebunden, zu vermieten. Würden diese sich jeweils die Server selber anschaffen, würde es erheblich mehr E-Waste geben, von vergleichsweise ineffizienten Serveranlagen, die in Summe erheblich mehr Energie verbrauchen, mal ganz zu schweigen.

Um das ganze mal bildlich umzuwandeln. Du würdest ein Containerschiff für 1000de Container (keine Ahnung was auf die derzeitigen Riesen drauf passt) verbieten, und nach kleinen für 100 Container schreien, obwohl die für die gleiche Menge an Container erheblich mehr Sprit verbrauchen und zusätzlich mehr Rohstoffe in der Herstellung kosten!

Edit: Schreibfehler und Formulierung

Weyoun · 10. November 2021

stefan92x schrieb:
Fakt ist, dass ein neuer Server drei alte ersetzen kann und dabei weniger braucht als zwei alte.

Leider zweifele ich das an, dass dann für einen neuen Server drei alte abgeschaltet werden. Die Realität sieht leider anders aus.

Ergänzung (10. November 2021)

catch 22 schrieb:
Für Wirtschaft und Wissenschaft ist es aber egal, ob für mehr Leistung mehr Strom verbraucht wird, solange das mehr bei der Leistung nicht weniger als das mehr an Strom ist, sprich die Effizienz hoch geht.

Es wird der Wirtschaft solange egal sein, solange noch Strom aus der Steckdose kommt. Wenn aber der Strombedarf weiter steigt, befürchte ich in Zukunft chinesische Verhältnisse (Zuteilung des Stromes von Woche zu Woche).

catch 22 · 10. November 2021

Weyoun schrieb:
Es wird der Wirtschaft solange egal sein, solange noch Strom aus der Steckdose kommt. Wenn aber der Strombedarf weiter steigt

Deswegen investieren gerade die großen, wie AWS und Alphabet, nicht nur massiv in Serverfarmen, sondern auch in Geothermieanlagen, Wind und Solarparks. Teilweise zur direkten Nutzung der erneuerbaren Energien in den eigenen Serverfarmen und teilweise zur Einspeisung in das öffentliche Stromnetz, um so an anderer Stelle (bei anderen Anbietern) Kapazitäten für den eigenen Bedarf frei zu halten.

Gerade US Firmen sind sich der Risiken in der Energiewirtschaft sehr bewusst und vor allem auch bereit entsprechend zur Vorsorge erhebliche Summen zu investieren (anders als europäische und vor allem deutsche Unternehmen, die da deutlich verhaltener agieren)

stefan92x · 10. November 2021

Weyoun schrieb:
Leider zweifele ich das an, dass dann für einen neuen Server drei alte abgeschaltet werden. Die Realität sieht leider anders aus.

Dann diskutieren wir den generellen Bedarf an Rechenleistung und ob die sinnvoll genutzt wird. Das kann man gerne machen, aber für diese Diskussion ist die Größe der einzelnen Systeme dann auch wieder egal.

Auch dann ist es aber immer noch sinnvoller ein RZ mit neuen Servern auszustatten und vielleicht ein zweites Kabel hinzulegen, als noch zwei RZ auf die grüne Wiese zu klatschen.

Hannibal Smith · 10. November 2021

@Weyoun also nach dieser Denkweise müsste man auch Busse aufgrund des höheren Spritverbrauchs verbieten, richtig?

Btt. fand ich die Präsentation richtig spannend und gerade der Multi Chip Ansatz im GPU Bereich extrem interessant. Mal schauen was die Nvidia A100 Nachfolge zu bieten hat

Weyoun · 10. November 2021

Hannibal Smith schrieb:
@Weyoun also nach dieser Denkweise müsste man auch Busse aufgrund des höheren Spritverbrauchs verbieten, richtig?

Wenn man künftig "Luxus-Busse" für Reiche anstelle von Luxus-Autos einsetzt (es fährt jeweils nur der Chauffeur mit dem Besitzer), dann definitiv ja.

Ergänzung (10. November 2021)

catch 22 schrieb:
Deswegen investieren gerade die großen, wie AWS und Alphabet, nicht nur massiv in Serverfarmen, sondern auch in Geothermieanlagen, Wind und Solarparks. Teilweise zur direkten Nutzung der erneuerbaren Energien in den eigenen Serverfarmen und teilweise zur Einspeisung in das öffentliche Stromnetz, um so an anderer Stelle (bei anderen Anbietern) Kapazitäten für den eigenen Bedarf frei zu halten.

Gerade US Firmen sind sich der Risiken in der Energiewirtschaft sehr bewusst und vor allem auch bereit entsprechend zur Vorsorge erhebliche Summen zu investieren (anders als europäische und vor allem deutsche Unternehmen, die da deutlich verhaltener agieren)

Solange es wirklich nachhaltig ist, ist ja alles gut.

catch 22 · 10. November 2021

@Weyoun
das dumme ist nur, dass du nicht siehst oder gar sehen möchtest, dass Server ein voll gepackter Bus ist bei dem die Fahrgäste dichtgedrängt wie die Sardinen in der Büchse hocken und ein Schuhlöffel benötigt wird, um einen Fahrgast raus zu holen.
Niemand stellt sich einen überdimensionierten Server in den Keller, erst recht nicht mehr Heute, wenn man bei Anbietern wie AWS Serverkapazitäten passgenau und extrem dynamisch angepasst, mieten kann. Und auch diese Anbieter haben nicht Kapazitäten im Überfluss frei, die kommen kaum mit dem Nachrüsten nach, vor allem da es nicht reicht einfach nur eine stärkere Komponente einzubauen, selbst wenn die 10 mal so viel Strom braucht, sondern weil die auch Gebäude, Infrastruktur, ... benötigen.

Im Gegenzug zu diesen steigenden Serverkapazitäten werden immer mehr kleine, alte und somit nicht mehr effiziente Server überflüssig und eingespart,

Weyoun schrieb:
Solange es wirklich nachhaltig ist, ist ja alles gut.

was selbst dann von Vorteil ist, wenn die AWS und Alphabet nicht massiv in erneuerbare Energien investieren würden.

Locuza · 10. November 2021

Colindo schrieb:
[...]
[1.)] Bei TF32 sagen sie ja sogar in den Folien, dass sie das mangels IEEE-Konformität einfach komplett ignorieren.

[2.)] Interessanterweise sieht der L1 auf den Blockschaltbildern der CU größer aus als bei CDNA 1. Im Text steht dazu aber nichts. Weißt du sicher, dass der gleich geblieben ist?
Laut Whitepaper wurden die Bandbreiten verdoppelt, das soll anscheinend für die Zielgruppe reichen. Ich denke mal größere Caches braucht man eher für AI als für Scientific, wo FP64 King ist, oder?

Ich finde die Tatsache, dass AMD für alle GPUs auf N6 setzt, zeigt deutlich, dass sie lieber 2 Fertigungslinien belasten wollen als wie zuletzt alles auf eine (N7).
[automerge]1636530577[/automerge]
[3.)][USER=523825]@Locuza Wusste gar nicht, dass du auch Videos machst. Hast ja ziemlich viel anhand der Treiber vorhersagen können.

1.) IIRC war es in den 90s und um die Jahrtausendwende noch ein wenig wie der wilde Westen.
Zwar gab es einen FP32-Standard von der IEEE, bevor aber jede HW konform war hat es gedauert.
Es gab auch viele Eigenwege was FP16 und FP24 anging.
Soweit ich weiß hat aber spätere FP16-HW (was noch nicht IEEE konform war), alle definierten Regeln von FP32 befolgt, aber eben nur 5 Bits für den Exponenten und 10 Bits für die Mantisse verwendet.
Irgendwann wurde es als Standard von der IEEE aufgenommen.
Dank Nvidias gewaltiger Marktmacht können die auch schon fast Quasi-Standards setzen, solange sich nicht die Konkurrenz und andere Akteure dagegen stellen.
Da Intel auch schon TF32 umsetzt, für Ponte Vecchio, kann man schon davon ausgehen, dass der Zug schon fährt und wenn man konkurrieren möchte, spielt man da lieber mit.

2.) Du hast das später im Edit erwähnt mit dem Video, laut Treiber sind es 16KiB für den L1D$ und 32 Bank-Groups werden für den Local Data Share genannt, wie bei allen anderen chips davor auch, also höchstwahrscheinlich 64KB.
AMD hätte sicherlich ein Upgrade hier erwähnt, hätten Sie eins vollzogen.
Größere Caches wären allgemein schon wichtig, selbst bei Spielen wäre es scheinbar sehr willkommen.
Bei RDNA3 würde ich auch stark davon ausgehen, dass AMD das ändert.

3.) Die offenen Treiber verraten schon sehr viele technische Details.
Über die Jahre konnte man Arcturus (CDNA1) und Aldebaran (CDNA2) schon relativ gut nachzeichnen.
Auch bei RDNA1 gab es viele juicy details vorab, wenn man das technische Verständnis besitzt und sich Zeit nimmt das durchzulesen.
Ich bin bei weitem kein Experte, entsprechend verstehe ich nicht alle Details und einige Sachen waren falsch interpretiert, dennoch selbst als Semi-Laie kann man schon weit kommen.
Wenn AMD die Compiler und Treiber-Patches für CDNA3 einreicht, geht das gleiche Spiel von vorne los.
Zu Beginn werden häufig nur vereinzelte Dinge beschrieben, was mit der Zeit aber immer mehr wird.
Wenn man Glück hat werden sogar relativ früh Konfigurationsdetails geteilt, bei Arcturus war früh klar das es 8 Shader Engines und 16 CUs gibt = 128 CUs.
Bei Aldebaran gab es eine Treiberstelle, die 16 CUs ausgewiesen hat, aber das hat sich nicht als richtig herausgestellt.
Ziemlich spät kam die Treiberinfo, dass eine SKU 110 CUs aufweist.

Volker schrieb:
Schicke Analyse hier.
Ich hab auch die Kommentare auf Twitter verfolgt, der Chef des aktuell weltweit stärksten Supercomputers nennt die hohen FLOPs von MI200 deshalb ja "merly a stunt" und gerade FP64 sei für HPC weitgehend unwichtig, denn das Teil könnte hier und da echt verhungern wenn es echte Analysen machen soll.

Na warten wir mal ab, der erste Exascale-Rechner in den USA ist ja zweifelsfrei viel PR-Stunt, mal sehen was die Kiste dann wirklich leistet.

Man kann wohl stark davon ausgehen, dass ohne optimierte Routinen die Leistungsabfälle sehr deutlich sein werden in mehreren Applikationen.
Aber soweit ich es vernommen habe, würde man nicht mit einem Exascale-System werben, wenn zumindest im LINPACK nicht konstant über 1 Exaflop mit FP64 erreicht wird.
Eine völlige Luftpumpe wird es dann gewiss auch nicht sein.
Ich denke aber allgemein wird es noch dauern, bis AMD für den breiten Markt attraktiv sein wird.
Frontier ist einer der ersten und wichtigen Schritte in der Richtung.
AMDs Softwarestack muss noch deutlich reifen und die HW kann noch einige Upgrades vertragen.
Das Unternehmen hat die letzten Jahre aber gute Schritte nach vorne gemacht, nach Hawaii im Jahr 2014 hatte man Jahrelang nichts, bis Vega20/MI50 nur minimale Erfolge verbuchen konnte und MI100 auch nur sehr selten anzutreffen war.
Jetzt hat baut man das erste westliche Exascale-System auf und hat auch einen weiteren Deal mit El Capitan gewonnen.

Weyoun · 10. November 2021

catch 22 schrieb:
@Weyoun
das dumme ist nur, dass du nicht siehst oder gar sehen möchtest, dass Server ein voll gepackter Bus ist bei dem die Fahrgäste dichtgedrängt wie die Sardinen in der Büchse hocken und ein Schuhlöffel benötigt wird, um einen Fahrgast raus zu holen.

Wir werden sehen, ob für die neuen Server wirklich alte ausgemustert werden, oder ob am Ende beide parallel Strom ziehen werden...

Northstar2710 · 10. November 2021

Weyoun schrieb:
Wir werden sehen, ob für die neuen Server wirklich alte ausgemustert werden, oder ob am Ende beide parallel Strom ziehen werden...

Das wirst du nicht sehen. Das einzige was du sehen kannst wie alte Server RAks auf eBay verkauft werden. Und das was du eigentlich bemängelst hat nix mit der Hardware an sich Zutun und wieviel Strom sie benötigt. Sondern wie der Mensch diese Hardware einsetzt. Und wieviel er davon braucht und wofür. Und für diese Themen sind andere Foren wohl besser geeignet.

C4rp3di3m · 10. November 2021

Naja @ETI1120, wenn HBM zu Teuer wäre hätte AMD nie solche Angeboten. Ich für meinen Teil hätte sehr gerne wieder eine neue HBM Karte, in dem Fall wäre ich auch bereit etwas mehr zu Zahlen. Für eine 08/15 GDDR6 im besseren Shared oder DDR3 Kaliber ala 65/66 oder 67XXer Zahl ich aber keine 1000+€ können se Knicken!!

mfg

[wege]mini · 11. November 2021

Weyoun schrieb:
In Summe graut mir davor...

Ich bin da grundsätzlich absolut bei dir.

Die Ansprüche und die Anzahl der Menschen mit Geld in der Tasche, steigen schneller, als die Entwicklung mithalten kann und daher wird die Gesamtmenge immer mehr, die man an Energie reinsteckt, welche man in absehbarer Zeit brauchbar produzieren kann.

So bin ich auch sehr zwiespältig eingestellt, wenn es um Weltraumtourismus geht.

Trotzdem ist es mMn falsch, die Entwicklung aus Angst vor den Wünschen der Menschen zu beschränken. Es hilft mehr, die Menschen zu bilden und sie aus ihrer Beschränkung zu holen.

Konsum macht kurzzeitig glücklich und leider auch süchtig. Die Nebenwirkungen (nicht nur auf den Planeten) sind nicht weg zu diskutieren.

Erst muss sich die Menschheit ändern, dann kann man darüber diskutieren, ob man die Entwicklung in Bahnen lenken will.

mfg

ETI1120 · 16. November 2021

Bei Blender tut sich was:
https://code.blender.org/2021/11/next-level-support-for-amd-gpus/

und auch beim Pro-Treiber für Linux
https://www.amd.com/en/support/kb/release-notes/rn-amdgpu-unified-linux-21-40-1

News AMD Instinct MI200: Multi-Chip-GPUs mit bis zu 47,9 TFLOPS, 128 GB und 560 W

Captain

Lt. Junior Grade

Rear Admiral

Captain

Ost 1

Admiral Pro

Captain

Rear Admiral

Admiral Pro

Rear Admiral

Captain

Jumbo Frame

Admiral Pro

Rear Admiral

Lieutenant

Admiral Pro

Admiral

Captain

Banned

Captain

Ähnliche Themen