News AMD Navi 31 (RDNA 3): Ein Blick auf das mutmaßliche PCB der Radeon RX 7900 XT

Serandi schrieb:
Was mir auch oft aufgefallen ist, wenn man z.B. mal alle Bauteile einer RTX 3090 mit einer RX 6900 XT vergleicht, dass die RTX Karten rein technisch gesehen VIEL MEHR Leistung haben sollten als die RX Karten 🤔 mehr Shader Units, mehr Compute Units, besserer Grafikspeicher und viel mehr Bandbreite, nur um ein paar davon zu nennen.
Die nackten Zahlen, also Shader, TMU, TAU, ROP, RT-Kerne, Tensore/Matrix-Kerne usw. geben erst mal eine grobe Richtung vor, man kann aber nicht direkt daraus schließen, welche Architektur am Ende wirklich mehr Leistung bringt.

Deswegen kann man auch von der theoretischen Rechenleistung, die man oft findet, nicht auf die Leistung schließen. Es kommt nicht nur auf die Anzahl der ganzen Einheiten an, sondern auch, wie diese organisiert werden.
Serandi schrieb:
Fast in allen technischen Aspekten sind die Nvidia Karten den AMD Karten doch bei weitem überlegen und dann sind die Karten bei der Gaming Performance pi x 👍 gleich auf oder hier etwas besser, da etwas schlechter (mal Raytracing außen vor gelassen). Wie kommt das überhaupt zustande?
Man sollte sich hier von dem Wort "überlegen" trennen, denn das weckt einen falschen Eindruck. NVIDIA verbaut von fast allem einfach mehr Einheiten, das bedeutet aber nicht, dass sie damit überlegen wären.
Serandi schrieb:
Ist es dem Unterschied des Fertigungsverfahrens von 7nm vs 8nm geschuldet oder vielleicht rein softwarebedingt bzw treiberseitig zu betrachten?
Die Probleme haben nicht viel mit mit 7nm vs. 8nm zutun. In wieweit 7nm dem 8nm von Samsung wirklich überlegen ist, ist eher eine akademische Frage. Es gibt keine Navi21 in 8nm und 7nm und es gibt auch keine GA102, GA104 in 7nm und damit kann man Spekulationen äußern. AMD wird einen Fertigungsvorteil haben, wie groß der am Ende wirklich ist, keine Ahnung.

Die "Probleme" von Ampere kommen - und das erkennst du richtig - vom Treiber und Software, dazu gleich mehr.
Colindo schrieb:
Das liegt daran dass in der letzten Generation zwei Effekte stattfanden: Nvidia hat die Zahl der Shader bei gleichem Grundaufbau verdoppelt. Das heißt es ist für Nvidia viel schwieriger, die Shader zu füttern als zuvor.
Ich mach es mal etwas genauer. :)

NVIDIA hat bei Turing in der SM einen 64 + 64 Aufbau bei den Shadern, nominell 128, aber NVIDIA gab nur 64 Shader an, da die für die FP-Berechnung vorgesehen waren, die anderen 64 Shader waren für INT reserviert. Diese 64 Shader arbeiten nach dem SIMD-Prinzip, Single Instruction Multiple Data und das ist der "Knackpunkt". Diese 64 Shader müssen zur gleichen Zeit den gleichen Befehl ausführen, nur eben auf unterschiedliche Daten. Man spricht dann von Vektoren.

Bei Ampere ist es ähnlich, auch Ampere hat einen 64 + 64 Aufbau, nur das es jetzt eben einen 64er Cluster für FP und einen 64er Cluster für FP oder INT gibt. Erneut gilt dass 64 Shader immer die selbe Anweisung ausführen müssen und dass auch mit 64 Werten. Kurz um, man braucht bei Ampere nun zwei Vektoren á 64 Werte, damit Ampere ausgelastet wird und das ist der Knackpunkt bei Ampere und das wird auch der Knackpunkt bei Hopper sein, nur das Hopper wieder etwas umbaut. Ich verwende ab jetzt Threads, vereinfacht gilt hier: Vektor = Thread.

NVIDIA braucht pro SM 2 Threads - bei neueren Gerüchten zu Ada sind es dann 3 Threads - und jeder Thread benötigt 64 Werte, damit die Rechenleistung auch auf die Straße kommt. Und hier liegt jetzt der Vorteil von AMD und dem Umbau von RDNA:

GCN hatte pro CU 64 Shader, aber organisiert in 4 * 16, also brauchte GCN immer 4 Threads pro CU, damit diese optimal ausgelastet wird, was dazu führte, dass GCN zu Teilen nicht genutzt wurde und nicht ausgelastet wurde. AMD hat bei RDNA den Aufbau pro CU auf 2 * 32 geändert, so dass man nur noch 2 Threads braucht und diese müssen für die optimale Auslastung auch nur 32 Werte haben.

Bei der Grafikberechnung heute hast du heute zwei Herausforderungen bei der Hardware: 1. Du musst genug Threads zusammen bekommen um die Hardware auszulasten. 2. Du musst pro Thread auch genug Daten zusammen bekommen. AMD hatte bei GCN das Problem 1. NVIDIA hat bei Ampere das Problem 2.

Diese Probleme hängen auch mit der Auflösung zusammen, die berechnet wird, je höher die Auflösung, dessomehr Daten kommen zusammen. Deswegen haben AMD Karten während der GCN Ära je höher die Auflösung wurde, immer mehr zur GeForce aufgeholt und jetzt hat NVIDIA das ähnliche verhalten: Je höher die Auflösung wird, dessoeher kann sich NVIDIA von AMD absetzen.

Und jetzt etwas Zukunftsmusik: AMD und NVIDIA stehen bei neuen Grafikkarten allgemein vor einem Problem, was die Auslastung angeht und NVIDIA und AMD bewegen sich aktuell sowohl mit Ada als auch mit Navi3x auf die gleiche Wand zu. Die 4090 wird vermutlich 90 % schneller - synthetischer Benchmark - als die 3090. NVIDIA erhöht dazu den Shader-Count von 10752 auf 16384 - also um 50 % und beim Takt geht es von 1700 MHz auf 2500 MHz hinauf, also um knapp 47 %. Aus beidem holt NVIDIA 90 % mehr Leistung. Bei der 3090 stehen 350 TDB/TBP, bei der 4090 450 TDB/TBP, also ca. 28 %. NVIDIA legt also bei der Effizienz also um ca. 50 % zu - auch das was AMD für RDNA3 angibt.

Bei AMD wird von RDNA2 zu RDNA3 angenommen, dass statt 2 * 32 pro CU nun 4 * 32 Shader verbaut werden, was am Ende bei 48 WGP (2*CU) zu den 12288 Shadern führt. Der Schritt ist - wenn man genau darüber nachdenkt, aber nicht verwunderlich, sondern logisch, denn AMD hat bei GCN 4 TMU/TAU auf 4 Threads und dahin geht es jetzt zurück bei AMD. Es scheint also, dass aktuell die TMU/TAU nicht ausgelastet sind und man ggf. so noch mehr Threads laufen lassen kann.

AMD wird bei RDNA nun ca. 384 Threads für die optimale Auslastung benötigen. NVIDIA ist bei Ada bei 256 Threads angelagt.

Nur sind die 16384 Shader bei Ada noch nicht in Stein gemeißelt, es gibt Gerüchte, die besagen, dass ein 3 Pfad für 32 INT-Werte dazu kommt, also sind es vielleicht 64 + 64 + 32, was dann in 160 Shadern endet (NVIDIA wird aber nur 128 angeben) und am Ende bräuchte man dann hier auch 384 Threads um wirklich alles auszulasten.

AMD hat dann weiterhin den Vorteil, das es einfacher ist 32 Werte pro Thread zusammen zu bekommen, als 64 wie NVIDIA. Das Duell wird also auch dieses mal spannend.

Und ich glaube AMD hält sich aktuell auch - wie bei RDNA2 - bedeckt, weil sie nicht zu viel auf einmal raus lassen wollen.
Ergänzung ()

MasterAK schrieb:
Stimmt nicht. AMD nutzt N5 für den GCD und N6 für die Cache Chips. Nvidia nutzt N4. Also hat Nvidia sogar nen Fertigungsvorteil.
Nein, nicht unbedingt. N4 ist ein angepasster N5. Der Vorteil hier für NVIDIA gegenüber AMD ist überschaubar und kann man weglassen.
 
  • Gefällt mir
Reaktionen: Serandi, Colindo und SaschaHa
Metallsonic schrieb:
Anscheinend kennst Du so etwas nicht, bei Miningrigs wird so etwas auch benutzt!
Doch, sowas kenne ich, rate aber auch von der Nutzung ab.
Trotz geteilter Masse kann man sich damit Instabilität ins System holen.
Wusste nur nicht, dass du sowas kennst, da ich ja deinen Background nicht kenne.
Hab schon von Leuten gehört, die sich da selbst Massekabel rein löten und was weiß ich, darum mein Hinweis zur Vorsicht.
 
@DevPandi
Vielen Dank für diese ausführlichen technischen Details, ist echt spannend zu lesen!

Bei Wccftech gibt es hier auch nochmal recht übersichtlich und verständlich die technischen Daten zusammengefasst, was ich auch jetzt als Grundlage für diesen Kommentar nehmen wollte.

Was wird halt sehen, sind letztendlich 20% mehr WGPs mit jeweils doppelt so vielen CUs, womit wir insgesamt eben bei 2,4 mal so vielen Cores landen und die (theoretische) FP32-Leistung äquivalent dazu ansteigen soll.

Was wir jedoch noch nicht wissen, ist, welche Rolle die CUs auf die Gesamtleistung der Karte haben, da andere "Bausteine" innerhalb der WGPs ja vermutlich nicht verdoppelt werden. Neben der zunehmenden Schwierigkeit, die CUs mit Daten zu füttern, könnte es also durchaus noch andere "Bremsen" geben, wobei ich mal davon ausgehe, dass AMD die Anzahl der entsprechenden Bausteine schon relativ sinnvoll gewählt haben wird.

Dennoch würde ich nun mal davon ausgehen, dass die Leistung der Karte bei gleichem Takt sich in etwa mittig zwischen dem Zuwachs der Anzahl der WGPs (+20%) und der CUs (+140%) einordnen wird, also etwa 80-90% Mehrleistung bei gleichem Takt. Mit Hilfe des (angeblich) angestiegenen Takts sollte die doppelte Leistung gegenüber der 6900 XT also durchaus realistisch sein.

Und mit etwas Optimierung bezüglich der "Fütterung" der CUs wäre ja sogar noch etwas mehr möglich, sodass es ggf. tatsächlich Titel geben wird, bei der die neue Generation (deutlich) mehr als doppelt so schnell wie der Vorgänger ist. All das ist natürlich reine Spekulation. Ich kann es gar nicht abwarten, bis die Karten endlich vorgestellt werden :D
 
@SaschaHa Bedenke dass bei der Steigerung der Transistoren nicht unbedingt noch eine Taktsteigerung möglich ist. Ich bin sehr gespannt, wie AMD die Vorteile von N5 nutzt, aber Verdopplung der Shader bei gleichem Takt würde bereits das gesamte Potenzial auffressen. N5 bietet +25% Takt bei gleicher Leistungsaufnahme oder -50% Leistungsaufnahme (und dadurch +100% mehr Shader möglich) bei gleichem Takt.
 
  • Gefällt mir
Reaktionen: SaschaHa
SaschaHa schrieb:
Was wir jedoch noch nicht wissen, ist, welche Rolle die CUs auf die Gesamtleistung der Karte haben, da andere "Bausteine" innerhalb der WGPs ja vermutlich nicht verdoppelt werden.
Ja und Nein, es kommt jetzt sehr genau darauf an, was AMD macht. Es gibt aktuell zwei mögliche Szenarien und WCCFTECH spricht von einer Möglichkeit und sollte es wirklich darauf hinaus laufen, dann verändert AMD nicht den Aufbau der CU, sondern der WGP als obere Organisationseinheit und dann wird das ganze richtig interessant und könnte für NVIDIA sogar zu einer richtig harten Nuss werden.

1. Szenario ist, dass AMD die CU minimal anpasst und den CU Aufbau an GCN angleicht. GCN CU: 4 * Vec16 + 4 TMU. RDNA3 CU: 4 * Vec32 + 4 TMU.

In diesem Szenario würde sich für RDNA 3 also bei 48 WGP folgender Aufbau ergeben: 48 WGP = 96 WGP = 384 Vec32, 384 TMU, 96 RT-Core. Das wäre durchaus machbar und auch die Auslastung wäre nicht "so" problematisch. Die Ratio Vec* zu TMU wäre dann wie bei GCN und durchaus angebracht. Jede Vec hätte eine TMU und man würde die TMUs, die schon da sind, besser auslasten.

Problem wäre aber, dass in diesem Fall, dass es passieren kann, dass in speziellen Fällen zu wenig TMUs vorhanden sind und ebenso, dass die RT-Kerne zu wenig wären für die Masse an Threads.

2. Szenario - was jetzt WCCFTECH aufmacht: AMD verändert nicht die CU, aber den Aufbau der WGP, eine WGP besteht dann nicht mehr aus 2 CU sondern aus 4 - auch eine Möglichkeit. Wir haben dann 48 WGP bei 192 CU, was dann in dem Fall bei 192 RT-Kernen und 768 TMU Enden würde.

Beides ist durchaus möglich und beides hat seine Vor- und Nachteile. Bei Szenario 1 würde die Auslastung andere Bestandteile des Chips besser werden, aber mit der Gefehr das Engpässe entstehen. Szenario 2 würde an der Auslastun der CU nicht viel ändern, man könnte aber an bestimmten Stellen unnötiges Silizium haben.
SaschaHa schrieb:
Neben der zunehmenden Schwierigkeit, die CUs mit Daten zu füttern, könnte es also durchaus noch andere "Bremsen" geben, wobei ich mal davon ausgehe, dass AMD die Anzahl der entsprechenden Bausteine schon relativ sinnvoll gewählt haben wird.
Kommt halt auf das Szenario an. Aktuell (Navi1x und Navi2x) gibt es breite Reserven an bestimmten Stellen durch den Aufbau aus GCN, an anderen Stellen würde es arg Knapp werden.

Es ist halt die Frage, wird die CU überarbeitet oder die WGP. Wird die CU überarbeitet kann es bei TMU und den RT-Kernen knapp werden. Wird die WGP überarbeitet und die CU nicht angefasst, dann wird Navi3x fies werden.
 
  • Gefällt mir
Reaktionen: Colindo und SaschaHa
Diablokiller999 schrieb:
Doch, sowas kenne ich, rate aber auch von der Nutzung ab.
Trotz geteilter Masse kann man sich damit Instabilität ins System holen.
Wusste nur nicht, dass du sowas kennst, da ich ja deinen Background nicht kenne.
Hab schon von Leuten gehört, die sich da selbst Massekabel rein löten und was weiß ich, darum mein Hinweis zur Vorsicht.
Mir wurde jetzt von einem Youtuber empholen, wo es um genau so etwas geht, das Netzteil Nr.1 direkt am Mainboard an zu schließen.

Und Netzteil Nr.2, direkt in die Grafikkarte an zu schließen!
Beide Netzteile sind aber mit dem Dual PSU Kabel verbunden.

Beide Netzteile müssen nur an der gleichen Steckdose angeschlossen sein.
Und das es ohne Probleme funktioniert!
 
  • Gefällt mir
Reaktionen: Serandi
Abwarten. Das klingt sehr unglaubwürdig :D
 
@DevPandi
Danke sehr für deine ausführliche Aufklärung!
Kann zwar nicht bestätigen, ob alles 100% so ist wie du es sagst, da ich mich damit absolut nicht auskenne aber es klingt zumindest so, als würdest du dich sehr gut damit auskennen. Bin jedenfalls auch extrem gespannt auf Navi 31 & 32!
 
Ist eigentlich bei NVIDIA und AMD alles recht ähnlich, wenn man die korrekten Begriffe wählt, deswegen auch viel Copy Paste im Folgenden ;)

DevPandi schrieb:
NVIDIA hat bei Turing in der SM einen 64 + 64 Aufbau bei den Shadern, nominell 128, aber NVIDIA gab nur 64 Shader an, da die für die FP-Berechnung vorgesehen waren, die anderen 64 Shader waren für INT reserviert. Diese 64 Shader arbeiten nach dem SIMD-Prinzip, Single Instruction Multiple Data und das ist der "Knackpunkt". Diese 64 Shader müssen zur gleichen Zeit den gleichen Befehl ausführen, nur eben auf unterschiedliche Daten. Man spricht dann von Vektoren.

Bei Ampere ist es ähnlich, auch Ampere hat einen 64 + 64 Aufbau, nur das es jetzt eben einen 64er Cluster für FP und einen 64er Cluster für FP oder INT gibt. Erneut gilt dass 64 Shader immer die selbe Anweisung ausführen müssen und dass auch mit 64 Werten. Kurz um, man braucht bei Ampere nun zwei Vektoren á 64 Werte, damit Ampere ausgelastet wird und das ist der Knackpunkt bei Ampere und das wird auch der Knackpunkt bei Hopper sein, nur das Hopper wieder etwas umbaut. Ich verwende ab jetzt Threads, vereinfacht gilt hier: Vektor = Thread.
Ein GPU-Kern bei Ampere (von NVIDIA SM genannt) besteht aus 4 weitgehend eigenständigen Partitionen. Jede dieser Partitionen besitzt bei Ampere eine SIMD-ALU+FPU und eine SIMD-FPU, einen eigenen Registersatz und ihre eigenen Threads. Die physikalische Vektorbreite dieser beiden Rechenwerke ist je 16 Komponenten, d.h. sie können 16 Operationen pro Takt ausführen. Eine SP/DP/INT-Vektorinstruktionen bezieht sich bei NVIDIA auf 32 Komponenten (logische Vektorbreite), und jede Partition eines Kernes gibt pro Takt eine einzige Instruktion an einen ihrer Threads heraus. Dadurch benötigt ein Ampere-Kern mindestens 4 aktive Threads um seine Rechenleistung komplett auszunutzen. Jede Partition eines Ampere-Kernes kann um Latenzen zu Überbrücken per Multithreading bis zu 12 parallele Threads ausführen, wodurch sich pro Ampere-Kern bis zu 48 parallel Threads ergeben.

DevPandi schrieb:
GCN hatte pro CU 64 Shader, aber organisiert in 4 * 16, also brauchte GCN immer 4 Threads pro CU, damit diese optimal ausgelastet wird, was dazu führte, dass GCN zu Teilen nicht genutzt wurde und nicht ausgelastet wurde. AMD hat bei RDNA den Aufbau pro CU auf 2 * 32 geändert, so dass man nur noch 2 Threads braucht und diese müssen für die optimale Auslastung auch nur 32 Werte haben.
Bei GCN war ein GPU-Kern das, was AMD als eine Compute-Unit bezeichnete. Ein solcher GPU-Kern besteht bei GCN wieder aus 4 weitgehend eigenständigen Partitionen, wobei jede Partition eine eigene SIMD-ALU+FPU, ihren eigenen Registersatz und ihre eigenen Threads besitzt. Die physikalische Vektorbreite jeder dieser SIMD-ALUs beträgt 16 Komponenten, während die logische Vektorbreite 64 Komponenten beträgt. Jede Partition gibt alle vier Takte eine Vektorinstruktion an einen ihrer Threads heraus. Dadurch benötigt ein GCN-Kern mindestens 4 aktive Threads um seine Rechenleistung komplett auszunutzen. Jede Partition eines GCN-Kernes kann um Latenzen zu Überbrücken per Multithreading bis zu 10 parallele Threads ausführen, wodurch sich pro GCN-Kern bis zu 40 parallele Threads ergeben.

Bei RDNA ist ein GPU-Kern nun das, was AMD nun als eine Dual-Compute-Unit bezeichnet. Ein solcher GPU-Kern besteht bei RDNA wieder aus 4 Partitionen, wobei jede Partition eine eigene SIMD-ALU+FPU, ihren eigenen Registersatz und ihre eigenen Threads besitzt. Die physikalische Vektorbreite jeder dieser SIMD-ALUs beträgt 32 Komponenten, während es Instruktionen mit einer logischen Vektorbreite von 32 Komponenten und Instruktionen mit einer logischen Vektorbreite von 64 Komponenten gibt. Jede Partition gibt jeden Takt eine Vektorinstruktion mit einer Breite von 32 Komponenten oder alle zwei Takte eine Instruktion mit einer Breite von 64 Komponenten an einen ihrer Threads heraus. Dadurch benötigt ein RDNA-Kern ebenso mindestens 4 aktive Threads um seine Rechenleistung komplett auszunutzen. Jede Partition eines RDNA-Kernes kann um Latenzen zu Überbrücken per Multithreading bis zu 16 parallele Threads ausführen, wodurch sich pro RDNA-Kern bis zu 64 parallele Threads ergeben.

Anmerkung: Der Begriff Dual-Compute-Unit wurde nur auf Grund von Marketing eingeführt, damit RDNA nicht auf einmal nur halb so viele Compute-Units wie GCN hatte. Eine RDNA-Compute-Unit unterscheidet sich deshalb auch stark von einer GCN-Compute-Unit.
 
Zuletzt bearbeitet:
Haldi schrieb:
Aber das sie 120% mehr Performance bieten halte ich für sehr unwahrscheinlich.

Haldi schrieb:
Ich würde nach Release und den ersten eigenen Benchmarks sehr gerne wider hierauf zurück kommen. Aber ich fürchte ich werde mich dann nicht mehr hierran erinnern. Ist aber auch nicht so wichtig.
@SaschaHa

Von der 3090Ti zur 4090 sind es rund 65%
Screenshot_20221012_020812_Firefox.jpg

Von der 6900xt ausgehend tatsächlich 83%

Nvidia wird nicht wegen nichts einfach so die Karte auf 450W TDP erhöht haben und Custom Modelle bis 600W zulassen.

Die nächste AMD Karte dürfte wohl immernoch in diesem Bereich rum wildern.
Da sie aber 1950$ dafür verlangen, was 500$ mehr ist als letzte Generation und der PC Markt in Rezession ist mit steigender Inflation weltweit gehe ich mal davon aus das die AMD Karte also knapp darunter landen wird.

Obwohl ich es Nvidia auch total zutrauen würde die Karten für 2000.- zu verkaufen wenn die AMD Karte 4 Wochen später für die Hälfte des preises, oder 1300.- rum sogar 20% mehr Performance bringen würde -.-
DLSS 3.0 ist ja wichtig genug das sich das lohnt....
 
  • Gefällt mir
Reaktionen: Metallsonic und SaschaHa
Auch AMD muss Geld verdienen und wirtschaftlich operieren. So einige haben sich wohl die Augen gerieben bei den Zen4 Preisen sowie den dazugehörigen Mainboards.

Ich rechne mit 1699€ für das High-End Modell.
 
Für das Referenzmodell wäre das echt zu teuer, dann würde ich länger warten und nächstes Jahr zuschlagen und dann aber die RX 7950 XT und diese auf Wasserblock umbauen
 
@2k9

Auch AMD muss Geld verdienen! Ich rechne mit 1699€ für das High-End Modell.​


Nein ich sage, die AMD RX 7900XT wird 1300€ kosten!
Die ist dann so etwas von gelauft! 😍🤑
 
  • Gefällt mir
Reaktionen: Serandi
Zurück
Oben