Bericht GPU-Chiplets bei AMD: Das steckt im Patentantrag zur besseren Shader-Auslastung

Rockstar85 · 5. Juli 2022

Colindo schrieb:
@incurable Ich habe den Eindruck du berücksichtigst überhaupt nicht den beschriebenen Ansatz von AMD sondern schließt nur aus der Vegangenheit. Das empfinde ich als etwas oberflächlich. Du kannst gerne kritisieren, dass die Idee nicht originär sei.

Sehe ich wie du. Alleine dass AMD dank inifinity Cache die Bandbreite um den Faktor 30 erhöht hat, spricht eher für eine große Leistungsfähigkeit der AMD Lösung. Erinnert mich in großen Maße an EMIB und NV link.
Ich bin sehr gespannt wie Nvidia das Thema angehen wird, denn ich sehe bisher keine Optionen die Monolithen abzustellen. Aus wirtschaftlichen Gründen hat AMD ja schon bei Zen gezeigt, wie man die Margen aufbessert

Mal schauen, ob wir erste Schritte mit RDNA 3 schon sehen werden.

Chiplets und Stacks sind die Zukunft. Das ist so sicher wie das amen in der Kirche

n3xtrem · 5. Juli 2022

Das klingt doch schon einmal sehr viel versprechend. Vor allem weil man dann so theoretisch viel effizienter arbeiten kann. Anstelle eines GPU DIE am absolut thermischen und leistungsaufnahmetechnischen Limits, kann man so mehrere GPU DIE nahe am sweetspot betreiben.
Gerade Notebooks dürften davon profitieren.
Man nehme die RTX 3070m wo zwischen der 100 Watt und der 140 Watt Version in Cyberpunk teils nur 3 FPS liegen.
Was aber wenn man quasi 2x 3070m Leistung nahe am Sweetspot betreiben könnte?
Vor allem wäre sowas theoretisch einfacher zu kühlen weil die Abwärme auf einer größeren Fläche entsteht.
Seit AMD Ryzen Release war es schon lange nicht mehr so spannend.
Auch kann ich mir gut vorstellen das man so auch den GPU output erhöhen kann weil so auch Grafikkarten mit Teildeaktivierten DIEs und dennoch hoher Leistung möglich werden.
Das sollte jedenfalls dem Binning sehr entgegen kommen.

Erwartet uns da wohl möglicherweise eine neue AMD RX 7970 3Ghz Edition?
Quasi als Titan/4090er Gegenstück

RKCPU · 5. Juli 2022

der Unzensierte schrieb:
Erst einmal ist das ganze nur ein Patentantrag. Der passt dann aber wieder gut zusammen mit der Gerüchteküche über eine RDNA3-Lösung mit 16.384 FP32-Einheiten basierend auf 2x Navi 32. Ob das jemals in ein finales Produkt mündet werden wir sehen und weiß aktuell wohl noch nicht einmal AMD. Wenn der Ansatz dann taugt um die Multi-GPU-Systemen bisher anhängenden Schwächen auszumerzen soll mir das recht sein. Ich gehe da nicht mit einer vorgefertigten Meinung heran - wer bin ich denn.

Die monolytischen GPU-Chips sind kritisch bzgl. Yieldrate. Die Aufteilung auf zwei DIE's scheint ja gemäß Patentantrag machbar zu sein, mehr ist noch offen. Bisherige Gerüchte sprechen immer von nur 2 DIE's bei Navi 31 und Navi 32, monolytisch bei Navi 33.

MasterAK · 5. Juli 2022

Spannende Technik, die uns da AMD schmackhaft macht.

An alle, die zu meckern haben: ich zahle für ne Leistung X ein Geld Y. Mir als Konsument ist es im Endeffekt egal, wie die Leistung X erreicht wird - sprich als Chiplet oder als Monolith umgesetzt wird. Für mich zählt immer, was ich an X für mein Y bekomme. 😉

[wege]mini · 5. Juli 2022

Die Verteilung von Lasten, ist nun aber wirklich nichts besonderes mehr.

Wer benutzt heutzutage den 1 Zylinder Motor?
Wer arbeitet mit einem Prozessorkern?
Wer schickt einen großen Panzer in den Kampf?

Viele kleine Bauteile ergeben ein großes Ganzes und ermöglichen, ein einzelnes Kettenglied auszutauschen, wenn es zu schwach ist.

Der Verwaltungsaufwand nimmt leider immer mehr zu und wenn die Verwalter mehr Energie verbrauchen, als sie Verwalten, wird es gruselig.

Liebe Grüße an die ArGe oder an das Finanzamt.

Prinzipiell, ist eine Verteilung der Last auf mehrere Schultern, vernünftig.

Interessant, dass man für so einen "Lastverteiler" ein Patent bekommen kann, wenn man ihn in die digitale Welt verfrachtet.

Im Motor, nennt man es Kurbelwelle.

mfg

Lagerhaus_Jonny · 5. Juli 2022

Klasse Artikel. Genau für sowas bin ich damals nach CB gekommen. Nicht für den drölfzigsten Earbud Test.

ETI1120 · 5. Juli 2022

RKCPU schrieb:
Bisherige Gerüchte sprechen immer von nur 2 DIE's bei Navi 31 und Navi 32, monolytisch bei Navi 33.

Die "bisherigen Gerüchte" sind so eine Sache.

Es schien so als wüssten die Leaker die Shaderzahlen und weitere Specs von RDNA 3.
Was Du schreibst schien bis dieses Frühjahr klar und gesetzt. Rückblickend bertrachtet, hat das was da erzählt wurde, hinten und vorne nicht zusammen gepasst.

Dann wurden zuerst die Shaderzahlen nach unten gesetzt.
Und dann hieß es plötzlich dass AMD mit RDNA 3 nun doch keine GPU-Chiplets macht. Was nun noch weniger Sinn ergibt.

Dann hat noch jemand das Zeichenprogramm angeworfen und einen Silicon-Interposer gemalt, die GPU in die Mitte und außen herum die MCDs platziert. So wie bei einer GPU mit HBM. Und alle haben geklatscht. Als ergäbe es einen Sinn den L3-Cache seitlich aus der CPU herauszuziehen. Man muss nur die Die-Shots von RDNA 2 ansehen um zu erkennen das der Infinity Cache zwischen den L2 Cache und die GDDR6-Memory-PHY reingequetscht wurde,

Ich bin ziemlich sicher, dass die Leaker, was die RDNA 3 Hardware angeht, im Trüben fischen.
Ich habe für mich beschlossen mich von AMD überraschen zu lassen, ob ich richtig oder falsch liege.

blackraven · 5. Juli 2022

Colindo schrieb:
Nein, das basierte auf SLI/CF und das ist technisch in etwa so, als würde man auf einem Dual-Core-Prozessor zwei Programme parallel laufen lassen, um ihn auszulasten. Jetzt wird eine Aufgabe, also eine darzustellende Szene, komplett aufgeteilt.

An SLI/CF habe ich nicht gedacht, eher an Multi-GPU Karen wie Quantum3D AAlchemy 8164 oder für Privat dann die Voodoo5 6000.

DevPandi · 5. Juli 2022

Jan schrieb:
Abwarten. Nvidia hat zuletzt mit Ampere "bewiesen", dass das Auslastungsproblem auch auf monolitischen Dies existiert.

Wobei das Problem etwas anders gelagert ist.

NVIDIA braucht halt 2 * 64 Werte, kommen die nicht zusammen, liegt viel Leistung brach. Gute ist, das in der Ebene darunter NVIDIA dann auch Shader schlafen schicken kann hinter den Datenpfaden, also auch 1 * 36 und 1 * 18 gut ablaufen, da die Shader drunter als fein granulierte Vec-Alus liegen, aber sie können die nicht benötigten ALUs ummünzen für andere Threads.

Da ist die feine Granulierung von RDNA in Vorteil, weil weniger Gefahr besteht das ALUs nicht ausgelastet werden.

Beide Anbieter brauchen halt 2 Threads. NVIDIA dazu extra breite Vektoren.

Ich bin gespannt, was NVIDIA bei ADA macht, denn nur weitere 32 - 64 exklusive INT-Shader werden das Problem nicht lösen.

Elverado · 5. Juli 2022

@Colindo
Richtig schöner Artikel. Gerne mehr davon!
(also generell so tiefer gehende Deep Dives, die mehr als nur Pressematerial abdecken)

mibbio · 5. Juli 2022

blackraven schrieb:
eher an Multi-GPU Karen wie Quantum3D AAlchemy 8164 oder für Privat dann die Voodoo5 6000.

Das ist dann technisch aber immer noch SLI, also das Scan Line Interleave Verfahren von 3dfx, nur das die GPUs alle auf einer Karte statt auf mehreren ist. Die Kommunikation/Arbeitsaufteilung der GPUs untereinander wäre bei den genannten Karten aber weiterhin so, als wären es separate Karten. Jede GPU ist fest für eine Bildzeile zuständig, egal wie aufwändig die jeweilige Zeile zu rendern ist.

daknoll · 5. Juli 2022

RogueSix schrieb:
Zu CF kann ich nix sagen. Ich hatte noch nie eine ATI oder AMD Karte im PC.

Ich hatte 2 Generationen im Crossfire Verbund laufen. 2x3870 und 2x5870.
Es war wie von dir beschrieben meistens gut, nur manche Spiele hatten Probleme, was aber oft durch den Treiber gefixt wurde. Alles in allem war ich mit Crossfire aber immer zufrieden.

Draco Nobilis · 5. Juli 2022

Salamimander schrieb:
Es ist aber vermeintlich einfacher einen Lastverteiler zu optimieren und skalieren zu lassen (also Single Core) als die vollständige GPU. Mal sehen wohin das führt.

Das stimmt wohl, allerdings rennt man in das Intel Problem mit großen monolithischen DIEs.
Mit neueren Fertigungen und den Preisen die für immer kleinere DIEs verlangt werden (gegenüber Endanwendern) kann man mit mehreren kleinen DIEs im Yield ökonomisch vielleicht so Punkten das man Wettbewerbsvorteile erlangt. Zumindest hat das bei der CPU von AMD geklappt.
Mal sehen ob man es bei GPUs auch schafft. Da liegen die Hürden wohl deutlich höher.

D708 · 5. Juli 2022

CastorTransport schrieb:
Die Chiplets sind zu teuer, um sie "warten zu lassen", wenn man von "ineffizient" spricht. War ja ähnlich bei SLI/CF - war eine GPU früher fertig, durfte sie "ruhen".

+1. alter Wein in neuen Schläuchen. 3dfx hat das gleiche Prinzip angewandt. Klar weniger dynamisch und mehr statisch.
Das ist vom Ansatz klassische MultiGPU Design.

Ich kann es mir im Professionellen Bereich gut vorstellen als klassisch skalierendes System.
Aber bei Spielen, in denen die Sprungvorraussagungen so extrem schwierig sind, stell ich mir das schwierig vor. Allerdings sind die Bandbreiten deutlich gestiegen und Algorithmen sind inzwischen so effizient, dass es klappen könnte.

Der König ist tot, lang Lebe der König.

emxq · 5. Juli 2022

Das würde für AMD wohl eine günstigere Fertigung ermöglichen, da bei identischer Architektur rein die Anzahl an Chiplets die Leistungsklassen definiert. So wie bei Apple mit dem M1 Max zu M1 Ultra (2x Max) zu dem gerüchteweise bald erscheinenden M Extreme (4x Max bzw 2x Ultra).

piccolo85 · 6. Juli 2022

CastorTransport schrieb:
Wäre sonst nicht schon längst was passiert?

Es passiert immer erst nichts, bevor etwas passiert. Das liegt in der Natur der Sache.

Ist wie Leute die sagen "Warum ist das jetzt kaputt, gestern hat es doch noch funktioniert?" - Ja, das ist immer so.

pipip · 6. Juli 2022

incurable schrieb:
Ich kann es gar nicht abwarten, bis jemandem auffällt, dass die Lastverteilung ein inhärentes Problem ist und ein monolitischer Prozessor bei gleicher Fläche immer Vorteile haben wird.

Und ? Immer Vorteile bei der Performance, ja, aber wie hoch werden die sein. Das wird man dann sehen wie AMD ihren Bus einsetzt (infinty Cache ect). Wenn dann aber andere Vorteile, bsp Fertigung, Preis die Verluste überwiegen, ist deine Aussage beschränkt auf einen Blick hypotehtisch uninteressant.
Denn das haben wir damals bei Zen1 auch gelesen.

LamaMitHut · 6. Juli 2022

Könnte man mit dem Konzept nicht auch Aufgaben innerhalb einer APU zwischen den verschiedenen Bereichen aufteilen?

Colindo · 6. Juli 2022

@LamaMitHut Was genau meinst du? Die Idee, bei einer APU verschiedene Rechenaufgaben zwischen CPU- und GPU-Teil aufzuteilen hatte AMD ja schon 2010. Es ist halt für normale Software selten von Vorteil, weil so wenige Leute eine APU für fordernde Anwendungen nutzen.

LamaMitHut · 6. Juli 2022

@Colindo
Das z.B Teile der CPU dem GPU Teil bei dem Bild helfen, bzw bei Teilaufgaben wie RT / FSR.

Bericht GPU-Chiplets bei AMD: Das steckt im Patentantrag zur besseren Shader-Auslastung

Admiral

n3xtrem

Gast

Lt. Junior Grade

Lieutenant

Banned

Lieutenant

Commander

Commander

Redakteur

Lieutenant

Rear Admiral

Lieutenant

Commander

Commander

Ensign

Lieutenant

Fleet Admiral

Commander

Anhänge

Redakteur

Commander

Ähnliche Themen