RX9070 vs RX9070XT - kriegt AMD die PS (CUs) nicht auf die Straße?

Dr. Chaos · 10. April 2025

Powl_0 schrieb:
Nö, genau das ist ja der Witz. Bei Iso-Verbrauch leistet eine 4090 klar mehr als eine 4080. Das müssen wir nichtmal mutmaßen, darüber gibt's genug Tests im Netz.

Dann raus mit den Beweisen!

Wo sind die Tests in welchen beide Karten stark im Powerlimit getestet werden und Dinge wie der erhöhte Verbrauch durch RAM und Speicherbandbreite etc. rausgerechnet wurden?

Ergänzung (10. April 2025)

Powl_0 schrieb:
.

Der Pro-Kern Taktverlust durch gedeckelte elektrische Leistung ist dabei geringer als der Gesamtzuwachs an Recheneinheiten. Dadurch kann der Chip mit mehr Einheiten bei gleichem Verbrauch mehr Leistung liefern.

Was ein Unsinn...
Zeig mir ein Beispiel dafür...

Powl_0 schrieb:
Angenommen man packt 50% mehr Kerne in einen Chip und verliert dabei aber "nur" 25% Takt, da man diese niedriger auf der V/F Kurve betreibt, dann hat man Netto ca 25% mehr MT-Leistung, bei unverändertem Verbrauch.

Das passt doch hinten und vorne nicht was du da gerade errechnest.

Powl_0 schrieb:
Genau dieses Verhalten nutzen alle Chiphersteller aus, wenn sie dicke Chips mit vielen Kernen umsetzen.

Wo zb?

Pro_Bro · 10. April 2025

Brauchst du CB garnicht verlassen, siehst du in den GPU Tests zum Beispiel der 4090/5090. Die wurden auch mit gesenktem PL getestet.

SFFox · 10. April 2025

@Dr. Chaos Bist du ein Bot? Say Potato!
Die "Beweise" sind der jetzt schon 10 mal angesprochene Test der Radeon 6800XT/6900XT... klick auf den Link, ein Blick in die Tabelle reicht. PCB identisch, Chip identisch (bis auf den CU Unterschied), Speicherbus identisch, Speichertakt identisch, TDP identisch... ~10% Leistungsunterschied bei 300 Watt auf beiden GPUs.

Und auch noch mal gerne direkt hier in Bildern, falls du nicht auf Links klicken kannst:

Und das selbe Prinzip mehr Kerne, gleiche TDP bei CPUs einer beliebigen Generation (hier Zen3):

Was bedeutet das? Das bedeutet mehr Cores arbeiten bei jeweils einzeln geringerem Power Budget zusammen stärker als weniger Cores mit individuell höherem Power Budget.

Hardy_1916 · 10. April 2025

Und welche CPU und Ram ist eingebaut?

Powl_0 · 10. April 2025

Dr. Chaos schrieb:
Das passt doch hinten und vorne nicht was du da gerade errechnest.

Kann es sein, dass du grundlegend nicht verstanden hast, was die Effizienzkurve von Microchips ist?

Du scheinst davon auszugehen, dass bei diesen Vergleichen jeder Kern immer mit exakt identischer Spannung und Takt läuft und sich daran nie etwas ändert.

Aber genau das ist eine Kurve, die nicht-linear verläuft und auf der sich die Betriebsparameter jedes Kerns verschieben lassen.

Dr. Chaos · 10. April 2025

Irgendwie wird hier nur viel geschrieben, aber irgendwelche Sachlichen Beweise liefert niemand.

SFFox schrieb:
@Dr. Chaos Bist du ein Bot? Say Potato!
Die "Beweise" sind der jetzt schon 10 mal angesprochene Test der Radeon 6800XT/6900XT...

Das ist doch kein Beweis, da eben nicht beide Karten identisch laufen, sondern die Spannung und der Takt sich unterscheiden also unterscheidet sich auch Watt Pro FPS

Was ein wirrer und unnötiger Thread...

Powl_0 · 10. April 2025

Dr. Chaos schrieb:
sondern die Spannung und der Takt sich unterscheiden

That's the f***ing point

Mehr Kerne kann man weiter unten auf der V/F Kurve fahren und bekommt so trotzdem mehr Perf/W in MT raus.

Das ist genau das, was jeder Chiphersteller bei den großen Modellen macht. Seien es high end GPUs, HEDT, Server CPUs wie Epyc und Xeon, oder gar nur die Spitze der Consumer CPUs.

Dr. Chaos schrieb:
aber irgendwelche Sachlichen Beweise liefert niemand

Die Links und Screenshots ignorierst du also alle.
Wenn du alle Belege ignorierst, dann gibts natürlich keine. Solider Ansatz.

Dr. Chaos · 10. April 2025

Powl_0 schrieb:
That's the f***ing point

Mehr Kerne kann man weiter unten auf der V/F Kurve fahren und bekommt so trotzdem mehr Perf/W in MT raus.

Aber darum ging es dem TE gar nicht.
Am besten liest du noch mal ausgiebig die ersten paar Threads des TE...
Viel Spaß!

SFFox · 10. April 2025

Dr. Chaos schrieb:
Aber darum ging es dem TE gar nicht.

Doch, das ist genau der Punkt, um den es hier geht 👍

Die Beobachtung ist:
RDNA4 skaliert auf den RX9070(XT) Modellen eben nicht wie erwartet merklich effizienter mit steigender Anzahl von Compute Units.

Gründe kann es mehrere geben, die habe ich aufgezählt. Schlüssig welcher genau hier zutrifft bin ich nicht, da ich keine komplette Datenlage habe, weil ich die Karten weder bei 100Watt noch bei 400Watt testen kann, um sicher zu stellen, dass der Effizienz-Sweetspot außerhalb des gemeinsamen TBP Spektrums liegt, wo sich die CUs bemerkbar machen.

Mit den begrenzten Informationen halte ich am wahrscheinlichsten, dass die Rechenleistung mit steigender CU Anzahl bei gleich bleibender TBP nicht annähernd linear verläuft (wie noch bei RX6000 und ja richtig linear ist es nicht, aber deutlich weniger kurvig im getesteten Bereich) und somit wie im Titel beschrieben AMD die PS nicht auf die Straße kriegt. Wie ein anderer User auch geschrieben hat, können wir vielleicht auf ein wenig "Fine Wine" hoffen.

Atasheri · 12. April 2025

Hi,
deine Werte klingen plausibel und passen gut zum typischen Verhalten effizienter GPUs unter Power-Limit: sublineares Scaling.

Warum?

Du hältst die Leistungsaufnahme konstant und variierst die Anzahl der Compute Units (CUs). Dadurch ändern sich Taktfrequenz und Spannung dynamisch.
Solange du nicht ins Frequenzlimit läufst, bestimmen Takt und CU-Anzahl deine FPS.

Aber: Bei GPUs steigt der Energieverbrauch pro Takt (also P vs. f) viel flacher als bei z.B.: CPUs – vor allem bei moderaten Spannungsänderungen.

Beispiel: In HPC-GPUs (siehe Tabelle IV in diesem Paper) ist der Zusammenhang fast linear:
https://userweb.cs.txstate.edu/~mb92/papers/pasa13.pdf

Den Energieverbrauch pro Takt kann man nähern mittels:

P(f) = C * f^a mit a ca. zwischen 1 (linear) und 3

Nun kann man als ober Schranke das Verhalten vereinfacht mit idealer Skalierbarkeit modellieren.
Wenn du nun mehr CUs (N) verwendest, aber die Gesamtleistung P konstant hältst, bekommst du:

Rechenleistung:
R = N * f
Stromverbrauch:
P = N * C * f^a → f ∝ N^(-1/a)

Daraus folgt für die Rechenleistung:
R = N * f =C* N * N^(-1/a) ∝ N^((a-1)/a)

Relativer Speedup bei z.B. 64 statt 56 CUs ergibt dann:

S = (64 / 56)^((a-1)/a)

Das sieht dann für verschiedene a so aus:

Das ist eine obere Schranke, denn reale Workloads skalieren nie perfekt.

Da die 9070/9070XT offenbar eher auf Effizienz getrimmt sind, liegt der Exponent a vermutlich eher niedrig.
Das heißt: Weniger Spannung nötig für mehr Takt → flacherer Anstieg → kleineres a → kleinerer Speedup.

Deine gemessenen c.a.: 3–5 % Speedup passen da meiner Meinung nach sehr gut rein.

Aber hey – was weiß ich schon 😄

SFFox · 12. April 2025

@Atasheri der Volksmund würde sagen: Bester Mann!

Atasheri schrieb:
Da die 9070/9070XT offenbar eher auf Effizienz getrimmt sind, liegt der Exponent a vermutlich eher niedrig.
Das heißt: Weniger Spannung nötig für mehr Takt → flacherer Anstieg → kleineres a → kleinerer Speedup.

Die Vermutung finde ich plausibel. Das untermauert ja auch der Zusammenhang wie stark UV diese Architektur in Takt und Performance beflügelt 👍 Dennoch schade, dass der Skalierungspunkt nicht wie bei RDNA2 in knapp 8-10% Mehrleistung übersetzt wird.

Die Crux an der Sache ist, dass die 9070XT in Perf/Watt einfach weit weg vom Sweetspot betrieben wird, wenn man vergleich wie viel sie immer noch mit beschränktem Powertarget leisten kann und der Abstand zu einer non-XT eben nicht der selbe ist, wie noch zwischen einer RX6800 und RX6800XT (also bzgl. des Names, der CU count war ja schon sehr unterschiedlich an der Stelle).

Am Ende bleibt RDNA4 an sich eine schöne (und wenn man denn will effiziente) Architektur. 👍

Atasheri schrieb:
Aber hey – was weiß ich schon 😄

War schon schön anschaulich hergeleitet, dein Gedankengang und deine Recherche. Dickes "gefällt mir"

Atasheri · 13. April 2025

Hey,
nur weil meine Vermutung aus einem bestimmten Blickwinkel plausibel klingt, heißt das natürlich nicht, dass sie richtig ist. Letztlich rate ich auch einfach nur ins Blaue.

Es kann genauso gut sein, dass man eher 8–10 % Speedup sehen sollte, die Spannungskurve doch steiler verläuft, oder es an etwas ganz anderem liegt 🤷‍♂️

Der Gedanke kam mir nur, weil meine Freundin sich neulich gewundert hat, warum die Effizienz so unterschiedlich ist, wenn sie Testmodelle auf ihrer Workstation (1-2× Ada Gen @300W) vs einem Servernode (1–8× H100 @700W) laufen lässt.

SFFox · 13. April 2025

@Atasheri: Ich sagte ja auch "klingt plausibel". Das Prinzip ist schön erklärt, dafür das dicke "gefällt mir". Dass die Kurve nur eine Vermutung ist, ist klar

Wie die Kurve symptomatisch aussieht könnten wir nur testen, wenn wir freien Zugang von 1-500 Watt hätten und damit die "breakpoints" der unteren und oberen Grenze ausloten, wo die Kurven der non-XT und XT stark divergieren. Und ob dann Treiber-/Design-seitig die zusätzlichen CUs ab einer bestimmten Zahl intern unterbeschäftigt sind, bleibt dann trotzdem noch offen.

syfsyn · 13. April 2025

Sind wieder die Ingenieure wieder da
Nun das ist bei gleicher tbp die xt vs non die perf. identisch ist ist Ergebnis von uv und sollte bei gleicher Architektur nicht wundern.
wenn muss man beide sku anhand pro cu an Strombedarf vergleichen sprich 64cu 260w vs 56cu 230w
gebe ich je chip mehr tbp dazu steigt diese linear an das geht bis zum node maximum von 3,4ghz da aber amd ne tbp grenze eingebaut hat von 360w/300w kommt man da schnell in ein PL
Das sagt auch das amd nix an rdna4 bei der packdichte getan hat es wurde nur der sram auf normale Größe gepatch.
Das Uv so gut funktioniert sagt auch das amd die chipgüte anhand des schlechtesten chip auf dem wafer ausrichtet und dessen spannung übernimmt.
Und somit wird das zum lotto man kann glück haben und die 3,4ghz was der node kann bei 300w erreichen oder auch Pech mit 3,1ghz bei 300w
Alles darunter wird zu Bildfehlern führen. Daher würde ich das Risiko des instabilen betrieb gar nicht machen und die tbp nur begrenzen und an der taktkurve nix ändern.
Amd hat da Funktionen im Treiber für, mit afterburner einfach die tbp nach links.
Wenn das nicht geht würde ich radeon chill nutzen manuell an der taktkurve basteln bringt nix als Ärger.

Die arch ist gut also das was rdna3 hätte sein müssen.

SFFox · 13. April 2025

@syfsyn deine Herangehensweise zu dem Thema ist einfach nur der andere Blickwinkel auf den gleichen Sachverhalt, der wie ich zugeben muss, direkter und damit besser zur Fragestellung passt.

Rein die Arbeit der CUs zu bewerten, indem man pro CU das selbe Power Budget bereit stellt, führt natürlich genau zur Antwort der Fragestellung. Je nach Verlauf der Arch kommen wir da aber sehr wahrscheinlich auf ähnliche prozentuale Effizienz-Ergebnisse, wie wenn wir bei gleicher TBP messen, vermute ich.

UV sollte hier keinen oder einen vernachlässigbaren Unterschied machen, da XT und non-XT die selbe Spannungs-/Taktkurve fahren und beide für den Test um genau -65mV gesenkt wurden.

Ich habe mich für die Perspektive in der selben TBP zu messen entschieden, weil die Vergleichbarkeit zur RX6800/6900 durch den CB Test besser gegeben war.

Danke jedenfalls für deinen Beitrag, war auch viel interessantes dabei

EDIT: Ich habe die Messergebnisse um eine neue Tabelle mit angepassten TBP Limits für die XT ergänzt, so dass sie vergleichbar sind zu den non-XT Werten. Im allgemein ineffizient hohen Bereich geht die Rechenleistung zu Gunsten der XT nach oben in den zwei gemessenen Punkten. Dabei operiert man "leider" im allgemein ineffizienten Bereich, denn 27% mehr Verbrauch resultieren in nur rund 9% Mehrleistung (was ja seit den ersten 9070 Tests bekannt ist).

EDIT2: Nachdem ich jetzt noch mal eine Nacht drüber geschlafen habe, geht das natürlich auch nicht ganz auf, weil ja nicht nur die CUs Strom verbrauchen. Man müsste genau wissen, was Speicher und restliche Komponenten verbrauchen und diese vom Power Budget abziehen. Der Rest, der übrig bleibt ist der Wert, den man prozentual an der TBP erhöhen müsste um das Mehr an CUs. TBP + 12,5% gibt der einzelnen CU der XT dann deutlich mehr Saft als eine einzelne CU der non XT zur Verfügung hat.

Atasheri · 15. April 2025

SFFox schrieb:
... Und ob dann Treiber-/Design-seitig die zusätzlichen CUs ab einer bestimmten Zahl intern unterbeschäftigt sind, bleibt dann trotzdem noch offen.

Umgekehrt könnte aber auch ein gewisser Treiber-Overhead oder etwas Vergleichbares bei RDNA2 zur besseren Skalierung geführt haben.

Letztlich profitiert man nur dann von zusätzlichen CUs (bei gleichem Energiebudget), wenn die Nachteile der Taktanhebung – wie nicht-linearer Energieanstieg, Pipeline- oder Frontend-Bottlenecks, Instruction-Issue-Limits, Bandbreitenbegrenzungen oder auch Treiber-Overhead – schwerer wiegen als die Nachteile verteilter Rechenarbeit.

Eher unwahrscheinlich, dass es jetzt wirklich am Treiber-Overhead liegt, aber ohne eine tiefgehende Analyse, wie sie z. B. Agner Fog im CPU-Bereich durchführt, bleibt das Spekulation.

Aber warum nicht einfach erstmal von einem Vorteil ausgehen, also dass RDNA4 einfach besser ist als RDNA2, statt von einem Nachteil? Es ändert nichts an den Tatsachen und macht glücklicher.

Und wer weiß – vielleicht wirst du ja von einem Treiber-Update positiv überrascht!

Die GPU bleibt dadurch gut!

SFFox · 15. April 2025

@Atasheri ich bin auch mehr als zufrieden mit meiner XT und freue mich auf den Core Wasserkühler, der bald von Alphacool kommt

Ich war nur fasziniert davon bei Release und den ganzen TBP Tests verschiedene Portale, wie wahnsinnig nahe Anzahl CU / Power Budget / Rechenleistung im Verhältnis zueinander skalieren. Das hat es (prove me wrong) so close noch nicht gegeben und ich find's weiterhin faszinierend, dass das scheinbar erst im hohen TBP Bereich stärker auseinander geht. (was mich gerade auf die Idee gebracht hat den Vega56/64/Fury Test bei gleichem Takt auf CB noch mal raus zu kramen... und ja das könnte ich mir auch noch anschauen und das ist vielleicht sogar die beste Perspektive: was passiert, wenn ich die TBP so wähle, dass der Takt gleich ist?

)

Es geht mir auch nicht um ein bewertendes gut/schlecht bzgl. der Skalierung im Vergleich mit RDNA2, was nur als anschauliches Beispiel diente. Unterm Strich kann man sich selbst eine sehr effiziente 9070XT konfigurieren mit UV und begrenztem Power Budget und das ist doch schon mal richtig gut.

Auch die Fortschritte in Ray Tracing, jetzt wo einige Spiele langsam gar nicht mehr darauf verzichten, sind total super für AMD und zu dem Preis auch für die User.

Das einzige, was meine Messungen in mir ausgelöst haben ist, dass ich bei einem großen Aufpreis potentiellen Käufern eher zur non-XT rate, weil ich finde, dass die XT mit einem Aufpreis von 150€ nicht schnell genug ist diesen Aufpreis zurecht zu tragen.

EDIT: Siehe da, es passen sogar zwei bereits aufgenommene Werte bzgl. Takt schon mal super zueinander:

Witcher 3 Vizima Szene	RX9070	RX9070 XT
CUs	56 (87,5%)	64 (100%)
UV	-65mV	-65mV
TBP	253W (~97%)	261W (100%)
GPU Takt +-10MHz (%)	~2703 MHz (100%)	~2703 MHz (100%)
GPU Spannung	865mV (~102%)	851mV
GPU Auslastung	99-100%	99-100%
FPS (%)	63fps (~94%)	67 fps (100%)

Wenn wir also die Gesamtleistung ausklammern und rein auf den Takt gucken verhält es sich ähnlich wie bei der Vega56 und Vega64, so dass wir auf einen Rechenleistungs-Unterschied von ~6% kommen.

Bzgl. Agner Fog 🤯 es gibt so krasse Leute! Danke für die Info

ErnstHaft99 · 18. April 2025

SFFox schrieb:
Falls dem so ist, heißt das aber auch, dass man sich den Griff zur RX9070XT und dessen Aufpreis eigentlich sparen kann.
Die 10% Leistungsunterschied, die hier mit 38% mehr TBP (220W vs. 304W) erkauft werden, machen nicht den Unterschied, ob ein Game spielbar ist oder nicht. Was man mit einer RX9070XT gut spielen kann, kann man auch mit einer RX9070 spielen.

Das habe ich auch schon immer geschrieben. Viele setzen bei der XT das Powerlimit runter und erreichen dann etwa 230 Watt bei 10% weniger Performance. Dann kann man sich im Prinzip direkt die normale 9070 kaufen.

Pro_Bro · 18. April 2025

Muss man halt per UV dann ausgleichen, dann hat man kaum Verlust. Aber genauso kann man natürlich die 9070 per UV und höherem PL betreiben..

RX9070 vs RX9070XT - kriegt AMD die PS (CUs) nicht auf die Straße?

Lieutenant

Commodore Pro

Commander Pro

Lt. Commander Pro

Commodore

Lieutenant

Commodore

Lieutenant

Commander Pro

Newbie

Commander Pro

Newbie

Commander Pro

Admiral

Commander Pro

Newbie

Commander Pro

Banned

Commodore Pro

Anhänge