News GPUs im Chiplet-Design: AMD-Patente bringen den Cache ins Spiel

ETI1120 · 6. April 2021

flappes schrieb:
Hätte noch einen weiteren Vorteil: man kann schneller reagieren und Erweiterungen als gesonderten Chip umsetzen.

Beispiel: nvidias Tensor Cores, statt das komplett eigene Design abzuändern, um ähnliche Rechenwerke zu implementieren, könnte man einen eigenen Chip mit den entsprechenden Funktionseinheiten erstellen.

Es gibt da noch Patent US20210026686:

CHIPLET-INTEGRATED MACHINE LEARNING ACCELERATORS
Techniques for performing machine learning operations are provided. The techniques include configuring a first portion of a first chiplet as a cache; performing caching operations via the first...

So richtig schlau bin ich nicht daraus geworden. Ich bin aber ziemlich sicher, dass es nicht um Gaming GPUs geht.

flappes schrieb:
Die haben zwar evtl. dann nicht die gleiche Leistung, aber das kann man mit einer höheren Anzahl leicht kompensieren und die Chips werden auch relativ günstig, da weniger komplex, weniger Fehleranfällig und weniger Ausschuss.

Grundsätzlich ist aber die Frage:

ob und wann AMD Produkte ausgeliefert, die auf diesen Patenten basieren
für welche GPUs es angewendendet wird, CDNA oder RDNA

Die beiden Fertigungsprozesse die beschrieben werden sind schon aufwändig. Wobei die schmutzigen Details, wie das exakte Positionieren beim Zusammenfügen nicht beschrieben werden. Aber da denke hat TSMC einiges in petto.

flappes schrieb:
Oder auch die relativ einfachen Caches, diese kann man so auslagern von den komplexen Bauteilen. Caches brauchen viel Platz und kleine Fehler können schnell zum Ausschuss des gesamten DIE führen.

Aber die Vebindungen müssen so schnell sein, dass das ganze nicht durch Latenzen ausgebremst wird.
Und das will AMD schaffen.

flappes schrieb:
AMD scheint die clevere Lösung der ZEN-CPUs nun endlich auf GPUs zu übertragen. Mal gespannt wie gut es funktionieren wird.

Aber einige Aspekte gehen weit über das hinaus was AMD bei Zen 2 und Zen 3 umgesetzt hat.

Ergänzung (6. April 2021)

Colindo schrieb:
Außerdem wird AMD durch diese Patente, in denen Claims sehr weitreichend abgesteckt sind, auf Jahre einen Vorteil gegenüber Nvidia haben. Falls Nvidia keine Lücke im Patentschutz findet, hat AMD bis 2039 das alleinige Recht, GPU-Chiplets über HBX oder Active Bridge zu verbinden. Dazu sind beide Fertigungsmethoden patentiert! Es sieht echt düster für Nvidia aus.

Patente sind eine verzwickte Einrichtung.

Ohne Patente haben kleine Erfinder und kleine Unternehmen das Nachsehen denn die großen Unternehmen sparen sich das Entwickeln und kopieren einfach.
Eine restriktive Anwendung von Patenten würde den technischen Fortschritt blockieren

Wenn die Patente stichhaltig sind und Nvidia sie nicht umgehen kann, kann Nvidia sie immer noch von AMD lizenzieren. AMD darf die Lizenzierung nicht ohne weiteres Verweigern.

cunhell · 6. April 2021

SAM wird weiterhin in den VRAM schreiben. Für 128MB/256MB Cache hätte man rBAR nicht gebraucht. 256MB kann auch schon "Above 4g Decoding". Der Gag bei SAM/rBAR ist ja, dass der gesammte VRAM adressierbar und direkt ansprechbar ist. Also auch alles was größer 256MB ist.
Die Karte hätte auch einen gemeinsamen VRAM was bei SLI/Xfire nicht der Fall ist. Hier müssen beide Karten den Speicherinhalt vorhalten.
Ausserdem gibt ja nur eine Karte die Bilder aus, wärend bei Xfire beide Karten abwechselnd die Bilder geliefert haben, woraus die Microruckler entstanden sind, weil beide nie genau gleich schnell waren. Auch die Doppelkarten waren ja nichts anderes als Xfire auf einer Platine mit den gleichen Problemen wie die Lösung mit zwei einzelnen Karten.
Wenn sie die Latenzen und den ggf. vorhandenen Verwaltungsoverhead in den Griff bekommen, könnte das ne interessante Lösung werden, die man gut skalieren kann (Cache, VRAM, Chiplets).
Hängt auch viel vom Treiber ab.

@Colindo
Natürlich kann Nvidia was ähnliches bauen. Sie müssen sich halt nur weit genug von der AMD-Lösung unterscheiden um keine Patente zu verletzen. Je nach dem wie eng die Patente gefaßt sind, reichen schon ein paar Änderungen im Design aus, um aus dem Schneider zu sein. Vermutlich werden sie auch sowas planen, denn irgendwann werden die monolitischen GPUs einfach zu groß und teuer.

Und ob es wirklich die Grafikkarten sind, für die das Design ist oder doch eher die GPGPU-Lösung muss man wohl auch erst mal abwarten. Wenn ich den Artikel richtig verstanden habe, ist das ja auch noch nicht 100% klar.

Bei Intel muss man sehen wohin die Reise geht. Für mich sieht es so aus als wären die GPUs eher ein Nebenprodukt der GPGPUs. Mit Beschleunigerkarten wie z.B. Knights Landing hat Intel ja schon Erfahrung.
Allerdings war der Versuch auf dieser Basis GPUs zu bauen wieder verworfen worden. Jetzt haben sie eben ein ähnliches Design wie AMD und Nvidia. Nicht umsonst haben sie ja Koduri von AMD abgeworben. Im Compute-Bereich sind dessen Vegas ja nicht so schlecht dabei.

Ein dritter Player in dem Bereich wäre sicher nicht verkehrt um was zu bewegen.

Cunhell

TenDance · 6. April 2021

Gaugaumera schrieb:
Hab ich das richtig verstanden..
Man baut Chiplets. Man verbindet diese mit einem Aktiven Interposer der den L3 Cache besitzt und noch ein bisschen Logik hat.
Auf diesem Interposer müssen alle Chiplets platziert werden.

Das heißt ja ich brauche für die Chips eine High End Fertigung die kleine bis mittelgroße Chips ausspuckt.
Zusätzlich braucht man noch einen Interposer der je nach Anzahl der Chiplets riesig wird und nicht in irgendeiner Bummelfertigung gemacht werden kann, weil sonst der L3 Verbrauch und der Interconnect-Verbrauch explodiert.

Das kann ich mir eigentlich nur im Enthusiasten Bereich vorstellen. Oder eben im Professionellen Bereich.

Nach Gaming klingt das definitiv nicht, auch wenns ein super interessanter Ansatz ist.

Das ist dasselbe was AMD derzeit bei allen ZEN-CPUs macht. Nur eben für GPUs aufgebohrt.
Ähnliches hat Intel mit Foveon vorgehabt, die Technologie ist schon lange da.
Vorteil hier ist die infinite Skalierbarkeit, sieht man bei Epyc.
Und: deckt sich mit den Gerüchten zu Ryzen 7000. Da könnte AMD alle Chiplets über eien brdige anbinden und dann je nach Nutzen "GPU-Chiplets" anbauen.

Klar kann man sich sagen, wer braucht eine GPU auf nem HEDT-Prozessor... aber es sind seit Jahren eben nicht nur Graphics Processing Units, sondern dienen quasi als stark parallelisierter Co-Prozessor, und sei es für "KI".
AMD könnte so CAD-Power direkt einbauen, Super-Computing vereinfachen über maßgeschneiderte packages...

Bei mobile SoCs sieht man ähnliches, dass GPU, AI etc alles am Prozessor hängt und man nur noch einen Speicher benötigt. AMD nutzt den Platz abseits mobiler Anwendungen um das ganze modular, leichter kühlbar und potentiell mit vergleichsweise absurd guten yields auszustatten.
Vorbei die Zeiten als GPUs ob ihrer Größe nur mit der letzten oder vorletzten node vom Band liefen.

Außerdem spart man so massiv wafer-Kapazität, da langsamere Karten nicht nur über teildefekte/deaktivierte GPUs realisiert werden, sondern quasi ab Werk mit den passenden Kapazitäten ausgeliefert werden.

florian. · 6. April 2021

Gaugaumera schrieb:
Das heißt ja ich brauche für die Chips eine High End Fertigung die kleine bis mittelgroße Chips ausspuckt.
Zusätzlich braucht man noch einen Interposer der je nach Anzahl der Chiplets riesig wird und nicht in irgendeiner Bummelfertigung gemacht werden kann, weil sonst der L3 Verbrauch und der Interconnect-Verbrauch explodiert.

Aktuell brauchst du für Highend einen 600mm² Chip in der teuersten Fertigungsstufe (7nm)
wovon gut 25% nur für den L3 Cache drauf gehen.
Tendenz ehr steigend.

oder alternativ:
4x 100mm² in der teuersten Fertigung (dann evtl. 3nm)
+ 600mm² in einer billigen Fertigung (dann evtl. 7nm)

Ich kann mir gut vorstellen, dass das eine sehr große Kostenersparnis ist.

Colindo · 6. April 2021

Summerbreeze schrieb:
Ich lese das Patent unter Anspruch Punkt 8 -9 so, das die Chiplets auch noch (den bisherigen) Cache Speicher besitzen und das aktive Brückenchiplet halt noch zusätzlichen Speicher bereitstellt. Der Cache wandert also nicht komplett nach oben, sondern wird ergänzt.

Dann gehst du der Übersetzung auf den Leim. Der englische Text ist hier klar: Die Chiplets beinhalten First-Level Cache, das wird im Fließtext mit L2 beschrieben, und die Bridge beinhaltet L3-Cache. Die Chiplets selbst sind Cache-Cohärent im L2-Cache und die Bridge beinhaltet den kohärenten L3-Cache, der aber für alle Chiplets kohärent ist, nicht nur für eins.

ETI1120 schrieb:
So richtig schlau bin ich nicht daraus geworden. Ich bin aber ziemlich sicher, dass es nicht um Gaming GPUs geht.

Das Patent ist ja mal knackig. Versteh ich auch nicht sicher, soviel kann ich sagen.

ETI1120 schrieb:
Wenn die Patente stichhaltig sind und Nvidia sie nicht umgehen kann, kann Nvidia sie immer noch von AMD lizenzieren. AMD darf die Lizenzierung nicht ohne weiteres Verweigern.

Das ist völlig richtig, aber dann gibt es halt "nur" Geld in AMDs Kassen. Für die nächsten 18 Jahre...

Außerdem habe ich den Vorsprung zu Nvidia ja berechtigterweise als "Spekulatius" gekennzeichnet. Ob es wirklich so ist, weiß ich auch nicht.

florian. schrieb:
oder alternativ:
4x 100mm² in der teuersten Fertigung (dann evtl. 3nm)
+ 600mm² in einer billigen Fertigung (dann evtl. 7nm)

Geschwindigkeit und Platzverbrauch skalieren beim L3 aber sehr gut. Dementsprechend könnte ich mir vorstellen, dass der weiterhin in der neusten Node gefertigt wird, anders als beim I/O-Die der CPUs.

Rockstar85 · 6. April 2021

Minime9191 schrieb:
Ob Nvidia dann auch sagt „ das ist zusammen geklebt“ ?

könnte der infinity cache das mikroruckler Problem lösen ?

ein echtes SLI wie damals bei 3DFX? Naja eigentlich müsste Nvidia noch die Technik haben, aber ja das wäre Hammer. Dann würden Karten wie damals eine 7990 auch nicht nur bessere Briefbeschwerer sein.

pipip · 6. April 2021

Gaugaumera schrieb:
Hab ich das richtig verstanden..
Man baut Chiplets. Man verbindet diese mit einem Aktiven Interposer der den L3 Cache besitzt und noch ein bisschen Logik hat.

Die sollen dann auch gleich Video-Decoder und Co da reinpflanzen. Den braucht dann man dann nicht x-mal deaktiviert

Benji18 · 6. April 2021

DavidG schrieb:
Das ist eine Momentaufnahme. Ende des Jahres dürfte Intel gut dabei sein und es dürfte dann auch für Nvidia eng werden.

Bin schon sehr gespannt.

gute HW nutzt halt nix wenn Intel es nicht schafft ordentliche Treiber zu releasen und Treiber waren in der vergangenheit nicht gerade ihre stärke.

minimii · 6. April 2021

@Benji18
Naja so übel sind die Treiber tatsächlich nicht.
Das Problem bei den DG karten sehe ich eher in der Leistung bei älteren Titeln (DX10, oder sogar 9, ältere DX 11 Titel)

Die werden aber zumindest im derzeitigen Treiber auch teilweise optimiert (für die iGPUS)
Da gibts bei Intel doch recht umfangreiche Release Notes zu

Colindo · 6. April 2021

pipip schrieb:
Die sollen dann auch gleich Video-Decoder und Co da reinpflanzen. Den braucht dann man dann nicht x-mal deaktiviert

Dafür gibt's doch ein Primary Chiplet

pipip · 6. April 2021

@Colindo
Was dann bedeutet, dass man drei statt zwei Chips bräuchte.

Colindo · 6. April 2021

Den ersten Artikel zum Patent von Dezember gelesen? Es gibt für alle die Technologien, die AMD zurzeit patentiert, den Ansatz eines Primary Chiplets, dass sowohl GPU-Cores enthält als auch die Kommunikation mit der CPU übernimmt. Alle weiteren Chiplets sind Secondary Chiplets, die nur GPU-Cores enthalten.

ETI1120 · 6. April 2021

Minime9191 schrieb:
könnte der infinity cache das mikroruckler Problem lösen ?

Der von allen GPU chiplets gemeinsam genutze L3-Chache (infinity cache) ist ein wichtiger Teil der Lösung.
Sehr wichtig ist aber auch, dass die moderne Verbindungstechnik erheblich schneller ist als die Leiterbahnen auf der Dual-GPU-Grafikkarte oder gar die Verbindung zweier Karten.

pipip schrieb:
Die sollen dann auch gleich Video-Decoder und Co da reinpflanzen. Den braucht dann man dann nicht x-mal deaktiviert

Sehe ich ähnlich.

Es steht in den Patenten, dass in den GPU-Chiplets auch diese Funktionen enthalten sind.
Was mich auch noch stört ist, dass die Kommunikation mit der CPU über das primäre GPU-Chiplet abläuft.
Aber diese Patente gehen darum, wie man GPU-Chiplets über bridge chips verbindet, passiv bzw. activ.

Patente sollen claims begründen und nicht zeigen wie man die GPU aufbauen will. Das Patent US20210098419A1 (Fabricating Active-Bridge-Coupled GPU Chiplets) beschreibt beide Variante:

GPU-Chiplet außen, Activ-Bridge-Chiplet innen
Activ-Bridge-Chiplet außen, GPU-Chiplet innen

Ich kann mir vorstellen, dass die active bridge einige dieser Funktionen enthält oder dass es wie bei den CPUs auch noch ein I/O-Chiplet gibt. Vielleicht gibt es bald weitere Patente, wer weiß.

Colindo · 6. April 2021

ETI1120 schrieb:
Was mich auch noch stört ist, dass die Kommunikation mit der CPU über das primäre GPU-Chiplet abläuft.

Aber gerade das ist doch das geniale an AMDs Ansatz. Alles andere ist schon da gewesen. Die Aufgabe der HBX bzw. der Active Bridge ist es, den Aufbau mit dem primären GPU-Chiplet zu ermöglichen.

pipip · 6. April 2021

Colindo

Nur weil der Primary heißt, muss das nicht gleich bedeuten, dass dieser mehr kann. Oder steht das wo direkt im Patent ?

Wenn ich in einem Raum von 10 Leuten einen als Ansprechpartner wähle, muss das nicht gleich daran liegen, weil er drei Arme und fünf Beine hat.

Im Endeffekt heißt das dann, dass ich drei Fertigungsstraßen brauche, eigentlich sogar vier. Drei für die Fertigung der Chips (Primary GPU Die, Compute-Dies, I/O Chip mit L3 Cache ) und die Straße zum zusammenkleben der Chips um dann einen nativen GPU Die zu ersetzen.
Dann wäre es mir schon fast lieber, sie deaktivieren x mal einen Bereich eines GPU-Chips ^^ der vllt paar mm^2 ausmacht, den man so aber schön am I/O Chip integrieren könnte. Der Primary wäre dann jener Chip der direkt über der Logik sitzt. z.B.
Aber gut. Vllt sind meine Vorstellungen einfach viel zu naiv und ich sehe die Vorteile nicht, des Master-Slave Prinzips.

Colindo · 6. April 2021

@pipip Ah, du hast Recht. Sie können natürlich alle Chiplets gleich designen, dass die alles können, und das nur bei einem der Chiplets nutzen. Ist dann verschwendete Fläche, aber eine Maske weniger.

Hier sieht es auch so aus, also wären alle Chiplets gleich. Sorry, dass ich das anders gesagt habe

Ergänzung (6. April 2021)

Das wäre aber immer noch ein Gegenargument dazu, die Einheiten auf die Active Bridge zu packen

TenDance · 6. April 2021

pipip schrieb:
Colindo
Nur weil der Primary heißt, muss das nicht gleich bedeuten, dass dieser mehr kann. Oder steht das wo direkt im Patent ?

Wenn ich in einem Raum von 10 Leuten einen als Ansprechpartner wähle, muss das nicht gleich daran liegen, weil er drei Arme und fünf Beine hat.

Im Endeffekt heißt das dann, dass ich drei Fertigungsstraßen brauche, eigentlich sogar vier. Drei für die Fertigung der Chips (Primary GPU Die, Compute-Dies, I/O Chip mit L3 Cache ) und die Straße zum zusammenkleben der Chips um dann einen nativen GPU Die zu ersetzen.
Dann wäre es mir schon fast lieber, sie deaktivieren x mal einen Bereich eines GPU-Chips ^^ der vllt paar mm^2 ausmacht, den man so aber schön am I/O Chip integrieren könnte. Der Primary wäre dann jener Chip der direkt über der Logik sitzt. z.B.
Aber gut. Vllt sind meine Vorstellungen einfach viel zu naiv und ich sehe die Vorteile nicht, des Master-Slave Prinzips.

AMD hat für den X570 Chipsatz (470) auch einfach ein ZEN-Chiplet zweckentfremdet wie man sie für Ryzen und Epyc modular zusammen aufbaut.
Das ist ja das tolle an x86-CPUs, sie können eigentlich fast alles mit der passenden Software - im Gegensatz zu spezialisierteren Produkten.
Und ja, das frontend einer GPU kann in x86 ausgeführt werden. nVidia macht das seit Kepler so dass Teile des frontends in den Treiber gewandert sind, wo AMD noch das komplette frontend in teures Silizium goss.

Ob das optimal ist, kann ich nicht sagen, aber es ist definitiv machbar das frontend als x86 auszuführen und darauf über eine Kombination aus BIOS und Treiber die Ansteuerung der GPU-Chiplets zu regeln.

Ach ja, treiberseitiger Freischaltung von features oder Kompatibilitäten per Mikrotransaktion stünde dann auch wenig im Wege

ETI1120 · 7. April 2021

Colindo schrieb:
Aber gerade das ist doch das geniale an AMDs Ansatz. Alles andere ist schon da gewesen. Die Aufgabe der HBX bzw. der Active Bridge ist es, den Aufbau mit dem primären GPU-Chiplet zu ermöglichen.

Aber das bedeutet, dass man

entweder 2 Typen von GPU-Chiplets hat,
oder falls alle GPU-Chiplets identisch sind bei den anderen Chiplets einige der vorhandene Einheiten nicht nutzt

Aber auf alle Fälle wäre es ein unsymetrisches System. So etwas mag ich nicht. Bei den CPUs wird die Unsymmetrie in den IOD gepackt.

Aber ob ich es mag spielt keine Rolle.

Colindo schrieb:
Das wäre aber immer noch ein Gegenargument dazu, die Einheiten auf die Active Bridge zu packen

Was im Patent nicht beschrieben ist, wie das Active-Bridge-Chiplet aufgebaut ist. Also was tatsächlich außer L3-Cache und Verbindungen enthalten ist. Aber das "Beiwerk" darf die Kernfunktion der Bridge-Chiplets eine schnelle Verbindung der GPU-Chiplets bereitzustellen, nicht beeinträchtigen.

Außerdem verstehe ich nicht wie der direkten Zugang der GPU-Chiplets zum Grafikspeicher umgesetzt wird. (Nr. 212 System im mit active Bridge chiplet und Nr. 312, System mit passive bridge chiplet).

Colindo · 7. April 2021

ETI1120 schrieb:
Außerdem verstehe ich nicht wie der direkten Zugang der GPU-Chiplets zum Grafikspeicher umgesetzt wird. (Nr. 212 System im mit active Bridge chiplet und Nr. 312, System mit passive bridge chiplet).

Kann ich auch nicht wirklich einordnen. In jedem der Patente ist sichtbar, dass der VRAM-Zugriff über die Chiplets geht, wie du gesagt hast. Aber vielleicht sind einfach nur die Memory-Controller auf den Chiplets, so dass man die Speicherbandbreite gut mitskalieren könnte. Aber auch da ist es merkwürdig, dass der Ansatz so das Gegenteil des I/O-Dies bei den CPUs zu sein scheint.

Wie ich das verstehe soll die Active Bridge zwar Leitungen, sonst aber kein I/O enhalten. Vielleicht damit sie besser mit modernen Fertigungen skaliert?

McLovin14 · 7. April 2021

Sehr interessante Technik für die Zukunft. Ich hoffe, AMD schafft es diese Patente in Serienprodukten anzuwenden. Das könnte große GPUs wieder günstiger machen.

News GPUs im Chiplet-Design: AMD-Patente bringen den Cache ins Spiel

Commodore

Lt. Commander

Commodore

Fleet Admiral

Redakteur

Admiral Pro

Fleet Admiral

Rear Admiral

Vice Admiral

Redakteur

Fleet Admiral

Redakteur

Commodore

Redakteur

Fleet Admiral

Colindo​

Redakteur

Commodore

Colindo​

Commodore

Redakteur

Lt. Commander

Ähnliche Themen

Colindo

Colindo