News 2-ExaFLOPs-Supercomputer: In El Capitan steckt AMDs gesockelte APU Instinct MI300

Ob eine feste Zuordung von GCD und CCD sinnvoll ist kann ich nicht beurteilen. Wenn sich die Programmierer zu Fuß darum kümmern müssen, sicher nicht.
Colindo schrieb:
Und diese Zuteilung wird bei El Capitan ja anscheinend wieder aufgehoben, da mehr CPU-Chiplets und weniger GCDs da sein werden. Zumindest sieht es momentant so aus.
Darauf wollte ich mit den Grafiken hinaus.

Ich interpretiere diese hübsche Grafik mit der schweben CPU und GPU einem Interposer mit Infinity Cache in der Mitte und den HBMStacks nicht als exakte Darstellung der APU.
1655980004333.png


Auf dieses Package kommt IMO keine CPU sondern CCDs. Wo und wie die IO-Funktionen der APU umgesetzt werden wird man sehen. IMO ist der IOD in einer CPU, die als ganzes darauf gesetzt wird der falsche Ort.
Beim Bard Peaks Node sind die NICs an die GPUs angeschlossen, und nicht an die CPU. Ich gehe nicht davon aus, dass es sich bei El Capitan ändert. Neben dem enger zusammenrücken hat eine APU auch den Vorteil, dass man nur die Funktionen integriert die die APU benötigt.

Das 3D Chiplet Packaging bezieht sich IMO nicht nur auf den Infinity Cache.
 
Ja, die genaue Anordnung wird sicher anders sein als in der Grafik, das sehe ich so auch. Aber die Aufteilung 1:4 ist doch jetzt offiziell. Ich denke die Grafik zeigt die vier Stellen, wo GCDs hinkommen, gestapelt auf den Cache. Dass da noch mehr gestapelt wird bezweifel ich allerdings bei dieser Iteration. AMD macht keine großen Schritte, sondern schön eine Technik nach der anderen.

Wo die CPU hinkommt und wie das implementiert wird, wird spannend.
 
1:4 als Aufteilung CPU:GPU stimmt zwar, aber es ist eben bei Frontier schon so, dass es für jeden CCD ein GCD gibt. Da läuft der Datentransfet noch durch den IO die, aber warum sollten wir nicht genau dieses Setup auch bei MI300 sehen? Für jeden CCD das als Controller dient ein direkt angebundener GCD als Accelerator, das eventuell auf einem shared Cache.

Falls man der Grafik vertrauen kann, dass MI300 vier "Felder" Infinity Cache bekommt, könnte ich mir gut vorstellen, dass MI300 dann jeweils 4 Cache Dies, 4 CCD, 4 GCD, eine unbekannte Anzahl HBM Stacks (nur zwei wie abgebildet sind definitiv zu wenig) und eine unbekannte IO-Lösung bekommt.

Eventuell geht AMD ja auch einen ähnlichen Weg wir mit Naples, wo ja auch jedes Chiplet seinen eigenen IO hatte und per Fabric on Package verbunden wurde.

Dann könnte IO auch wie jetzt bei MI200 beim GCD integriert sein und der CCD einfach darüber gekoppelt laufen ohne extra einen IO Die zu benötigen, aber das ist jetzt ganz wilde Spekulation von mir.
 
  • Gefällt mir
Reaktionen: ETI1120
es gibt von CDNA(2) (ich kann nicht lesen, Ich dachte die W6x00 ist CDNA2) auch eine Version für die Pro Grafikkarten die dann sogar Raytracing kann. Von daher ist die frage in wie weit sich die verschieden CDNA Versionen für Rechenzentren und Pro User unterscheiden.
Außerdem wäre es durchaus möglich das AMD in den "GPU"-Teil auch En/Decoder einbaut, Macht NVidia ja auch bei der H/Ax0 Serie und dann wäre es schon eher eine GPU (bearbeit: im sinne von Bild berechungen). Eine APU im klassischen Sinn wird das Ding natürlich nicht auch wenn es bestimmt Bilder berechen kann und diese an eine GPU mit Framebuffer und Displayausgängen weiter geben kann. Aber APU steht laut Wikipedia für "Accelerated Processing Unit" oder "Advanced Processing Unit" und beides trift wortwörtlich zu.
 
Zuletzt bearbeitet: (Meine Inkompetenz; Danke @Colindo)
@LEDs CDNA hat tatsächlich En/Decoder, steht auch so in den Artikeln hier auf CB. Was genau du mit den Pro-Grafikkarten meinst, ist nicht klar, da die Workstation-Karten von AMD nicht auf CDNA basieren, sondern ausschließlich auf RDNA bzw. Vega.

Die Aussage, es wäre keine echte GPU, ist eh hinfällig, da die Rechenoperationen exakt denen einer klassischen GPU entsprechen. Die Bildausgabe fehlt eben, weil es eine Fokussierung auf GPGPU gibt. Das heißt dann am Ende Datacenter-GPU, ist aber immer noch eine GPU. Da braucht man nicht viel diskutieren.
 
stefan92x schrieb:
eine unbekannte Anzahl HBM Stacks (nur zwei wie abgebildet sind definitiv zu wenig) und eine unbekannte IO-Lösung bekommt.
Das passt auch von der Form und Größe nicht, es sind nur Platzhalter.

Colindo schrieb:
Ich denke die Grafik zeigt die vier Stellen, wo GCDs hinkommen, gestapelt auf den Cache. Dass da noch mehr gestapelt wird bezweifel ich allerdings bei dieser Iteration.
Das würde mich sehr überraschen.

Forrest Norrod hat am FAD folgendes zur MI300 APU geschrieben:
1656027634785.png


Aus dem Foliensatz

1656030160890.png


https://patents.google.com/patent/US20210312952A1/en
Colindo schrieb:
AMD macht keine großen Schritte, sondern schön eine Technik nach der anderen.
Es sind noch mehr als ein Jahr, nur den Cache zu stapeln wäre Stillstand.

Colindo schrieb:
Wo die CPU hinkommt und wie das implementiert wird, wird spannend.
Und wenn Du das Bild ernst nimmst gibt es zwei Optionen:
  • Die 4 Plätze in der Mitte sind für CPU und GPU
  • Es wird irgendwie gestapelt

PS: Zu RDNA3 von tom's HARDWARE
"Wir wollten die Definition eines "Chiplet-Ansatzes" für GPUs klären, nur um sicherzugehen, dass AMD nicht wieder über HBM spricht. Naffziger bestätigte, dass es in der Tat separate Chiplets (keine Speicherchips) geben wird, obwohl er nicht genau festlegte, wie AMD die Aufteilung vornehmen wird."

...

"Wir wollen auch klarstellen, dass wir zwar einige Vermutungen darüber angestellt haben, was AMD mit RDNA 3 machen könnte, aber Naffziger war definitiv ein wenig vorsichtig, was die Bekanntgabe spezifischer Details angeht. Wir fragten an einem Punkt, ob die Chiplets ähnlich wie Aldebaran sein würden (zwei große Chips mit einer schnellen Schnittstelle, die sie verbindet) oder eher wie die Ryzen-CPUs mit einem I/O-Chiplet und mehreren Compute-Chiplets. Das Beste, was wir aus ihm herausbekommen konnten, war die Aussage, dass der letztere Ansatz "eine vernünftige Schlussfolgerung" sei und dass AMD seine Chiplet-basierte GPU-Architektur auf "eine sehr grafikspezifische Art und Weise" umsetzen würde."


Zum CDNA vs RDNA und Infinity Cache gibt es auch noch was interessantes
"Neben der Chiplet-Architektur haben wir in unserem Gespräch mit Naffziger noch ein paar andere Details über RDNA 3 erfahren. Wir fragten, ob AMD eine Art Tensor- oder Matrix-Core in die Architektur einbauen würde, ähnlich wie es Nvidia und Intel mit ihren GPUs tun. Er antwortete, dass die Aufteilung zwischen RDNA und CDNA bedeutet, dass es für den Zielmarkt nicht notwendig ist, einen Haufen spezialisierter Matrixkerne in Consumer-Grafikprodukte zu packen, und dass die FP16-Unterstützung, die bereits in früheren RDNA-Architekturen vorhanden ist, sich als ausreichend für inferenzartige Arbeitslasten erweisen sollte. Wir werden sehen, ob sich das in Zukunft bewahrheitet, aber AMD scheint damit zufrieden zu sein, das maschinelle Lernen seinen CDNA-Chips zu überlassen.

Eine weitere Frage, die wir hatten, betraf die Infinity-Cache-Größen. RDNA 2 hatte Cache-Größen von 128 MB auf Navi 21 bis hinunter zu 16 MB auf Navi 24, und die daraus resultierenden Leistungssteigerungen waren selbst bei den kleineren Cache-Größen immer noch beeindruckend. Mit einem Standard-GPU-Chiplet könnte AMD den 16-MB-Cache aufgeben und stattdessen 32-MB-Schritte verwenden, oder vielleicht sogar noch größere Cache-Größen - oder Cache sowohl im E/A-Chiplet als auch im GPU-Chiplet. Was auch immer der Ansatz sein mag, Naffziger deutete Design-Entscheidungen an, bei denen AMD bessere Wege zur Optimierung der Cache-Nutzung gefunden hat, einschließlich des Ausschlusses bestimmter Dinge, die in der Regel nicht vom Caching profitieren (Naffziger erwähnte Display-Interface, Multimedia-Verarbeitung und Audio-Verarbeitung als Arbeitslasten, die vielleicht nicht im Infinity-Cache gespeichert werden müssen - einige von ihnen könnten den gesamten benötigten Cache vom L2-Cache erhalten)."


Übersetzt mit www.DeepL.com/Translator (kostenlose Version)
 
Zuletzt bearbeitet:
@ETI1120 Danke für den Hinweis auf das Interview. Wieder ein paar Bröckchen, die man da bekommt. Allerdings ist es frustrierend, dass die Journalisten es nie gebacken bekommen, mal direkt nach den Patenten zu fragen.

Was CDNA 3 angeht, werden wir ja in ein paar Monaten sehen, wieviel AMD da macht.
Ergänzung ()

Am interessantesten fand ich tatsächlich eine ganz andere Stelle:
By leveraging expertise from its CPU design teams, Naffziger said that AMD has been able to drive higher clocks with RDNA 3 while remaining efficient.
Ich habe immer gedacht, die gesteigerten Taktraten eine neue Sache von AMD wären. Aber die Aussage, dass sie von Zen kämen, verwirrt mich. Wann hatten die CPUs denn eine gesteigerte Taktrate? Damit kann nur Zen 1 gemeint sein, also prä-2017. Das wiederum bedeutet, dass AMD generell die Transistoren nur alle vier Generationen anpackt (bei Zen 1 und jetzt Zen 4) und das wiederum bedeutet, dass zukünftige GPUs eines Tages auch von den Zen 4 Taktraten profitieren werden. Meine bisherige Interpretation war umgekehrt, dass das Know-How von den GPUs zu Zen 4 ging.
 
Zuletzt bearbeitet:
Colindo schrieb:
Aber die Aussage, dass sie von Zen kämen, verwirrt mich. Wann hatten die CPUs denn eine gesteigerte Taktrate?
Ich glaube da denkst zu kompliziert. CPUs wurden ja schon sehr lange auf maximalen Takt optimiert, weil sie für schlecht parallelisierbare Aufgaben genutzt werden. Für GPUs war Takt lange nicht so relevant, wird es erst durch den Mangel an Strukturverkleinerungen, da man die im Lauf der Zeit vor allem breiter gebaut hat, was aber auch immer schwieriger wird.

Da dürfte einfach allgemeines Knowhow aus der CPU-Entwicklung berücksichtigt worden sein, was aber relativ unabhängig von der genauen CPU-Generation sein dürfte.
 
  • Gefällt mir
Reaktionen: Colindo
Colindo schrieb:
Danke für den Hinweis auf das Interview. Wieder ein paar Bröckchen, die man da bekommt.
Eigentlich war nach dem FAD klar dass es um GPU-Chiplets geht und nicht um eine GPU mit SRAM-Chips.

Was mich massiv stört dass man ein paar Antworten von Samuel Naffziger mit jeder Menge Spekulation vermischt hat. Was die sich zusammengereimt haben, hatte ich auch getippt. Bevor die Patente bekannt wurden.

Allerdings denke ich nicht dass das ein reguläres Interview war. Sie konnten ein paar Fragen stellen und das wars.
Colindo schrieb:
Allerdings ist es frustrierend, dass die Journalisten es nie gebacken bekommen, mal direkt nach den Patenten zu fragen.
  1. Möglichkeit: Fragen müssen eingereicht werden und AMD streicht diese.
  2. Möglichkeit:
    1. Frage wurde gestellt.
    2. Antwort von AMD: Nett lächeln. Dazu kann ich im Moment nichts sagen.
      AMD Standardantwort.
Aber eigentlich hat er eindeutig geantwortet. Es gibt Chiplets aber nicht so wie bei den CPUs. Sondern auf eine sehr GPPU-Spezifische Art und weise. Und das bedeutet, dass die hohe Bandbreite die für GDDR 6 erforderlich ist, nicht durch einen IO-Chip geleitet wird sondern direkt zu den GCD geht.
Colindo schrieb:
Was CDNA 3 angeht, werden wir ja in ein paar Monaten sehen, wieviel AMD da macht.
Die APU wird erst Ende nächstes Jahr kommen, das sind schon einige Monate.
Was nicht heißen muss dass es zuvor keine Grafikkarten mit den GPUs gibt
Colindo schrieb:
Ich habe immer gedacht, die gesteigerten Taktraten eine neue Sache von AMD wären. Aber die Aussage, dass sie von Zen kämen, verwirrt mich.
Dazu gab es im Zeitraum der Vorstellung von Renoir eine Aussage von AMD. Designer die fürs CPU Team gearbeitet haben sind zum GPU Team gewechselt.
Colindo schrieb:
Wann hatten die CPUs denn eine gesteigerte Taktrate?
Intel macht eigentlich immer HPC-Prozesse. Richtig gut HPC-Prozesse standen den AMD CPUs eigentlich nicht zur Verfügung. Das sollte man beim Vergleich beachten.
 
  • Gefällt mir
Reaktionen: Colindo
Zurück
Oben