RX9070 vs RX9070XT - kriegt AMD die PS (CUs) nicht auf die Straße?

SFFox · 10. April 2025

Hey zusammen,

ich darf eine RX9070XT Hellhound von PowerColor mit leichtem Aufpreis mein Eigen nennen und bin sehr happy mit der Karte.
Da ich sie zwecks Vermessung für GPU Kühler zu Alphacool gesendet hatte, war ich happy zur UVP auch eine Asus RX9070 Prime bekommen zu haben, die ich dann 2-3 Wochen nutzen konnte, bis ich die XT zurück hatte.
(Die Prime ist ohne Aufpreis bei einem Freund gelandet, der keine erwischt hat #noScalping)

Da ich jetzt beide Karten ausgiebig bespielen und testen konnte, muss ich sagen, dass der Unterschied noch nie so klein war zwischen einer XT und non XT Karte, wenn man sie auf die gleiche TBP normiert. Bei der Recherche bin ich über die 5700 und 5700XT gestoßen, hab aber keine TBP normierten Tests gefunden, da könnte es vllt. ähnlich sein.

Ich habe jetzt keine große Wissenschaft daraus gemacht mit mehreren Tests, weil ich nicht beide Karten Tage-lang testen wollte und auch keine Zeit dazu habe. Einen sauberen Einzelvergleich mit einer Witcher 3 Next Gen Szene (das selbe Savegame, keine Mausbewegung, keine Perspektivverschiebung) habe ich im Thronsaal von Vizima gemacht, während in WQHD bis auf Hairworks alles an Features inkl. Ray Tracing hoch gedreht war auf Ultra+.

Beide GPUs sind in dem Szenario zu 100% ausgelastet.

Die RX9070 hat eine leicht höhere Güteklasse, da sie einen UV von -100mV stable mit macht, die XT "nur" -65mV.
Für die Vergleichbarkeit wurden beide Karten auf -65mV gesetzt und die TBP auf 228Watt normiert und auch noch einmal auf 252 Watt.

Zudem habe ich dank der Anregung von @syfsyn auch noch einmal getestet, welches Bild sich zeichnet, wenn man den GPUs ein jeweils identisches Power Budget für die einzelnen GPUs gibt (zweite Tabelle), da man hier genau sehen kann, wie viel die einzelnen CUs mit der selben Stromversorgung schaffen, ohne dass der Effekt der steigenden Effizienz bei geringerem Takt eine Rolle spielt. Auch das ist nur ein Näherungswert, denn eigentlich müsste man wissen, wie viel andere Komponenten abseits der GPU vom TBP Budget brauchen. Der Rest wäre das Budget für die GPU, welches man dann separat mit einem TBP plus von 12,5% erhöhen müsste. Die hier getesteten pauschalen Aufschläge von 12,5% auf die gesamt-TBP sind also nur ein Näherungswert von der anderen Seite.

Dabei erreichte ich folgende Ergebnisse:

Tabelle 1 (normiert auf gleiche TBP):

Witcher 3 Vizima Szene	RX9070	RX9070 XT	RX9070	RX9070	RX9070 XT
CUs	56 (87,5%)	64 (100%)	56	56	64
UV	-65mV	-65mV	-100mV	-65mV	-65mV
TBP	228W	228W	253W	253W	253W
GPU Takt +-10MHz (%)	~2580 MHz (~102%)	~2530 MHz (100%)	~2770 MHz	~2703 MHz (~102%)	~2654 MHz (100%)
GPU Spannung	-	-	858mV	865mV (~103%)	837mV (100%)
GPU Auslastung	99-100%	99-100%	99-100%	99-100%	99-100%
FPS (%)	62 fps (~97%)	64 fps (100%)	64 fps	63fps (~95%)	66 fps (100%)

Tabelle 2 (normiert auf gleiche TBP anhand der CU count Unterschiede)

Witcher 3 Vizima Szene	RX9070	RX9070 XT	RX9070	RX9070 XT
CUs	56 (87,5%)	64 (100%)	56	64
UV	-65mV	-65mV	-65mV	-65mV
TBP	228W (87,5%)	261W (100%)	253W (87,5%)	289W (100%)
GPU Takt +-10MHz (%)	~2580 MHz (~95%)	~2703 MHz (100%)	~2703 MHz (~97%)	~2794 MHz (100%)
GPU Spannung	-	851mV	865mV (~98%)	885mV (100%)
GPU Auslastung	99-100%	99-100%	99-100%	99-100%
FPS (%)	62 fps (~93%)	67 fps (100%)	63fps (~91%)	69 fps (100%)

In dieser Stichprobe erreicht eine RX9070 bei normierter TBP (228W) mit einem ~2% höheren Takt ~97% der FPS einer XT. Mit steigender TBP von 253W gehen die Ergebnisse etwas weiter auseinander und die RX9070XT scheint sich bzgl. Effizienz zu steigern und von der non-XT abzusetzen. Der Unterschied bewegt sich allerdings im Rahmen der Messungenauigkeit zwischen den TBPs mangels Karten und mangels verschiedener Tests.

Es stellt sich mir die Frage: wie schaffen 12,5% weniger Recheneinheiten mit läppischen 2% mehr Takt 97% der Leistung einer XT auf den Bildschirm zu bringen. Die 8CUs verbrauchen natürlich auch mehr Energie, aber verbrauchen 8 CUs so wenig Energie, dass sich das in nur 2% Taktunterschied nieder schlägt?

Bei Karten älterer Generationen ist der Unterschied deutlicher. Eine größere Karte mit höherer CU Anzahl kann normalerweise bei geringerem Takt besser performen, wenn die CUs gut ausgelastet sind, da sie in einem niedrigeren Taktbereich effizienter arbeiten.
Ein gutes Beispiel dafür sind die RX6800XT und RX6900XT in folgendem CB Testabschnitt:
https://www.computerbase.de/artikel...00_xt_6800_xt_2080_ti_3080__3090_bei_270_watt

Hier beträgt der Unterschied eher 8-10% je nach Leistungsbereich (270 bzw. 300 Watt). Dabei unterscheiden die beiden Karten ebenfalls 8CUs, allerdings sind die absoluten Werte hier 72 (91%) und 80 (100%) CUs und damit nur 9% weniger, was genau in diesem 8-10% Bereich liegt.

EDIT:
Mit der "Normierung" auf TBP pro CU sehen wir in Tabelle 2, dass die zusätzlichen CUs in diesem Fall von einem höheren Power Budget profitieren. Es kommt also entgegen RDNA2 nicht mehr so stark zu dem Effizienzgewinn der CUs durch weniger Takt. Dieser Effekt ist zwar vorhanden, der Sweetspot dafür scheint allerdings jenseits der 228 Watt zu liegen. Das ist insofern schade, als dass der Bereich um die 300 Watt (wie hier mit der RX9070XT bei 289 Watt gemessen) allgemein für RDNA4 betrachtet bereits weit außerhalb eines Sweetspots liegt, denn verglichen mit einer TBP von 228W auf der XT gibt es ein fast schon klägliches Mehr von nur 8% (69fps statt 64fps) bei einem Verbrauch von zusätzlichen 27% (289 Watt statt 228 Watt).

Dabei ist, wie oben beschreiben, zu beachten, dass hier außer Acht gelassen wird, wie hoch der Anteil aller Komponenten auf der Grafikkarte Abseits der GPU ist. Daher sieht es nach einem deutlich stärkeren Scaling nach oben aus, als es wirklich ist.
Was aber eindeutig zu erkennen ist, ist dass mit steigendem Power Budget pro die XT deutlicher davon zieht: ~7% geringere fps bei 228W vs 261W und ~9% geringere fps bei 253W vs 289W

Zudem kommt jetzt noch hinzu:
https://www.computerbase.de/news/gr...ie-rx-9070-fast-so-schnell-wie-eine-xt.92079/

Wenn die TBP einer RX9070 per BIOS Mod jetzt RX9070XT Grenzen von 300W erreichen kann, ist auch dort oben der Unterschied scheinbar nur sehr klein. Hier fehlen mir Zahlen, die ich so selbst nicht nachstellen oder testen kann.

Meine These zu Release der RX9070er war:
Es ist unglaublich, dass die GPUs so abnormal linear mit CU Anzahl, Spannung und Takt skalieren, dass die Karten im selben TBP Bereich eine nahezu identische Rechenleistung in Spielen abliefert.
Das würde aber auch bedeuten, dass ab einer bestimmten Takt/TBP Grenze oben die XT davon ziehen muss bei maximalem Takt und voller Auslastung, da sie 12,5% mehr Recheneinheiten hat und der Takt zwischen beiden Karten das Architektur-Maximum darstellt (wenn wir jetzt von gleicher Chipgüte ausgingen).

Ob dieser Bereich (wenn es sich denn so verhält) im Rahmen dessen, was eine gemoddete RX9070 mit XT BIOS leisten kann, liegt, müsste mal jemand mit Expertise nachtesten.

Der von mir gemessene Abstand in den unteren TBP Klassen ließe sich schon fast mit Chipgüte (wie man das bei CPUs auch kennt, dass zwei gleiche CPU Modelle sich im worst case um mehrere % Leistung unterscheiden können) der GPU Chips begründen und nicht mit CU Anzahl.

Vielleicht gibt es Spiele/Anwendungen, wo das noch ganz anders skaliert. Falls aber auch im ü300Watt Bereich die Karten ähnlich knapp zueinander skalieren, sind die 8CUs mehr für die Tonne... oder schlimmer fake (#missingROPS

)... oder eine Limitierung des RDNA4 Designs und bietet damit neben dem Marketing (Gamer kaufen keine Karten ü700€) nun auch einen technischen Grund, warum es kein Halo-Produkt mit größerem Chip und noch mehr CUs gibt, wenn diese einfach nicht in Anzahl und Leistung skalieren können.

Falls dem so ist, heißt das aber auch, dass man sich den Griff zur RX9070XT und dessen Aufpreis eigentlich sparen kann.
Die 10% Leistungsunterschied, die hier mit 38% mehr TBP (220W vs. 304W) erkauft werden, machen nicht den Unterschied, ob ein Game spielbar ist oder nicht. Was man mit einer RX9070XT gut spielen kann, kann man auch mit einer RX9070 spielen.

Sollte Modding der TBP Grenzen einfacher werden kann in Zukunft auch jeder RX9070 Besitzer in den "Genuss" der RX9070XT Leistung kommen. Dass die gemoddete TBP dann nicht von der Garantie gedeckt wird ist mir bewusst, aber eigentlich hätte ich auch erwartet mit dem Kauf einer XT einen echten Mehrwert zu erhalten anstatt einfach nur einen unlimitierteren Verbrauch.

Die XT fühlt sich ein bisschen an, wie eine Karte mit zu wenig ROPs

(ist nur ne Anspielung auf Nvidia, ich weiß, dass die 9070 und XT die selbe ROP Anzahl haben)

Was denkt ihr? Sind die CUs nicht ordentlich ausgelastet? Ist die Skalierung einfach nur "zu gut" und am oberen Ende gehen die Wege dann doch wie erwartet auseinander zwischen XT und non-XT (vielleicht auch erst in einem theoretischen real gar nicht erreichbaren Verbrauchsbereich)? Besteht eine FineWine Chance, so dass die CUs besser ausgelastet werden können durch bessere Treiber und/oder modernere Spiele-Engines?

Dr. Chaos · 10. April 2025

Du hast 2x den selben Chip, also kannst du davon ausgehen das vergleichbare Energie auch vergleichbare FPS liefert, alles andere würde ja keinen Sinn machen.

Ob jetzt mehr oder weniger CUs macht keinen Unterschied da du die Energie ja limitierst, mehr CUs können mehr arbeiten sind aber auch stärker limitiert und umgekehrt.

SFFox · 10. April 2025

Dr. Chaos schrieb:
Du hast 2x den selben Chip

Das Chipdesign ja... aber ich würde unter Idealbedingungen davon ausgehen, dass bei voller Auslastung der Rechenwerke in der GPU und z.B. fixen 3GHz auf einem Chip mit 56 Compute Units 87,5% der FPS bringt, die der Chip mit 64 berechnet. Es ist nicht der selbe Chip.

Siehe wie erwähnt und verlinkt den CB Radeon 6800XT/6900XT Test. Auch die sind beide der Navi21 Chip und unterscheiden sich durch die Anzahl der CUs, die im kleineren Modell abgeschaltet sind. Der prozentuale Unterschied der CU Anzahl ist super close zum Leistungsrating bei gleicher TBP, wie man das auch erwarten sollte finde ich, wenn eine gleichmäßige Auslastung stattfindet.

Dr. Chaos · 10. April 2025

SFFox schrieb:
dass bei voller Auslastung der Rechenwerke in der GPU im Idealzustand und bei z.B. fixen 3GHz auf einem Chip mit 56 Compute Units 87,5% der FPS bringt, die der Chip mit 64 berechnet.

Ja wenn du den Chip nicht in der Leistungsaufnahme begrenzt tut er genau das...
Gut da man auch andere Dinge wie Speicherbandbreite etc. nicht außer Acht lassen darf werden es nicht genau 87,5% sein aber etwas in dem Bereich.

SFFox schrieb:
Es ist nicht der selbe Chip.

Doch, der eine ist eben Teildeaktiviert, aber von der Funktion her sind beide identisch.

SFFox schrieb:
Der prozentuale Unterschied der CU Anzahl ist super close zum Leistungsrating bei gleicher TBP, wie man das auch erwarten sollte finde ich, wenn eine gleichmäßige Auslastung stattfindet.

Nicht böse gemeint, aber das ist doch Physik 6-7 Klasse.
Woher sollen die mehr CUs die Leistung bringen wenn diese nicht mehr Energie zur Verfügung haben?

Watt (Energie)= FPS

Gibst du einer Karte mehr Energie wird diese auch mehr FPS liefern bis die CUs voll ausgelastet sind.

Außerdem beachte das solche Messungen natürlich auch von anderen Parametern, wie Messungenauigkeit, CPU, Speicherbandbreite, und vielen anderen Dingen abhängig sind.

SFFox · 10. April 2025

Dr. Chaos schrieb:
Nicht böse gemeint, aber das ist doch Physik 6-7 Klasse.

Bin ich nicht, keine Sorge. Ich denke aber, dass mein Gedankengang weiterhin valide ist.

Dr. Chaos schrieb:
Woher sollen die mehr CUs die Leistung bringen wenn diese nicht mehr Energie zur Verfügung haben?

Du lässt das Beispiel mit der RX6800XT/RX6900XT total aus den Augen... dort sind sie beide jeweils einmal auf 270Watt und einmal auf 300Watt normiert, unterscheiden sich nur über die Anzahl der CUs (VRAM und Memory Bus ist ebenfalls identisch) und es skaliert etwa wie erwartet. Und der Grund dafür:

Das liegt an der Frequency Curve im Verhältnis zur Spannung. Normalerweise steigt die benötigte Spannung überproportional zum Takt (hier ein CPU Beispiel https://gamersnexus.net/guides/3290-exponential-ryzen-voltage-frequency-curve).

Die Zahlen sind jetzt erfunden und dienen nur der Veranschaulichung:
Wenn du 80 CUs hast, die mit 2000MHz bei 2V laufen und 80 Watt ziehen, kannst du vielleicht 100 CUs mit 1700MHz und 1,5V betreiben und weil der die Kurve Voltage / Takt exponentiell verläuft klappt das in gleichem Verbrauchslimit.
Angekommen die CUs sind jetzt voll ausgelastet (sowohl die 80 wie auch die 100) sollten die 100 mehr stemmen können innerhalb des selben Verbrauchs. Ist doch auch nichts neues mit Takt/Voltage und CPUs/GPUs?

Dr. Chaos · 10. April 2025

Sorry ich hab deine Frage beantwortet, wenn dir die Antwort nicht passt dann ist das nicht mein Problem.
Du scheinst einfach nicht verstehen zu wollen oder zu können das die Energie eben die Leistung limitiert.
Außerdem V(olt) = Spannung und hat erst einmal gar nichts zu sagen.

Entweder ist dir nicht klar wie Grafikkarten funktionieren oder dir ist nicht bewusst wie die Physik funktioniert, eventuell auch beides.

Stell dir vor du hast zwei Motoren beide sind absolut identisch und laufen auch identisch was Umdrehung etc. angeht, einer hat 8 Zylinder und bei dem anderen sind 2 Zylinder abgeschaltet.
Dürfen beide Motoren unbegrenzt Benzin verbrennen wird der Motor mit 8 Zylinder in der Regel mehr PS liefern. Begrenzt du aber den Benzin Durchfluss werden beide eine ähnliche Leistung erbringen.

Und bevor jetzt die KFZ Freaks kommen, das ist ein Beispiel und in der Wirklichkeit von vielen Faktoren abhängig, das ist mir bewusst.

SFFox · 10. April 2025

Dr. Chaos schrieb:
Außerdem V(olt) = Spannung und hat erst einmal gar nichts zu sagen.

Naja doch, das ist schon ein wichtiger Indikator und zeigt die Abhängigkeit zum Leistungslimit in Watt, wobei das entscheidende natürlich der resultierende Takt ist, der ja der Indikator für die aktive Rechenleistung ist.

Dr. Chaos schrieb:
Stell dir vor du hast zwei Motoren beide sind absolut identisch und laufen auch identisch was Umdrehung etc. angeht, einer hat 8 Zylinder und bei dem anderen sind 2 Zylinder abgeschaltet.
Dürfen beide Motoren unbegrenzt Benzin verbrennen wird der Motor mit 8 Zylinder in der Regel mehr PS liefern. Begrenzt du aber den Benzin Durchfluss werden beide eine ähnliche Leistung erbringen.

Gutes Beispiel. Dennoch hängt es an der Voltage-Frequency-Curve im Verhältnis zur Beteiligung am Power-Budget einer einzelnen Compute Unit. Bei den CPUs takten die Cores eines 16 Kerners im Power Budget von 105Watt niedriger als (wie beim Motor) ein 12 Kerner mit jeweils 2 deaktivierten Cores pro Chiplet, die einen höheren Takt erreichen.

Trotzdem sind die 16 Cores im Multitasking schneller im gleichen Power Budget von 105 Watt.
Je nach Voltage-Frequency-Curve der zugrunde liegenden Architektur (z.B. Zen3) gibt es am Anfang der Kurve und am Ende der Kurve jeweils einen Bereich, in dem die unterschiedlichen CPUs (12 und 16 Kerne) weit auseinander gehen. Der Betriebsbereich ist aber häufiger im mittleren Bereich der Kurve angesiedelt, wo die Unterschiede nicht so riesig sind.

Daher ist ein 16 Kerner auch nicht direkt 33% schneller als ein 12 Kerner, wenn sie Budget limitiert sind, aber eben doch deutlich messbar schneller im default Betriebsbereich.

Was ich hier im Thread in Frage stellen wollte betrifft u.a. die Voltage-Frequency-Curve der RX9070 Karten. Die CUs laufen mit dem anliegenden Takt. Jede CU verbraucht dabei aktiv einen Teil vom Power Budget, so wie ein Core in der CPU, denn in der CU wird gerechnet. Der Unterschied bei gleichem PowerTarget beträgt allerdings läppische 2% Taktunterschied trotz der 12,5% extra Transistoren, die sich was vom Power Budget krallen.

Wenn die VF-Curve also nicht ein Einhorn sein sollte ist das für mich ein eindeutiges Indiz, dass die extra CUs nicht gut gefüttert werden, denn wie schnell sie rechnen sollte 1zu1 am anliegenden Takt ablesbar sein.
Und noch mal: genau so ist es doch auch im RX6800XT/RX6900XT Test (und bei vielen anderen Karten älterer Generationen auch)? Wenn du das wirklich nicht als Argument zählen lässt, dann widerleg es doch bitte, es ist doch nachgemessen in einem ganzen Testparkour, den du schlecht ignorieren kannst.

Key3 · 10. April 2025

Morgen,

du kannst den Spies ja auch rumdrehen zum testen mit der Energie=FPS (zumindest fast wenn man den Rest etwas beiseite lässt)
Du schaust ab wie viel Watt die XT keinen oder kaum mehr Leistung bringt und gibst dann der nonXT das selbe Limit.

Bei deinem Test ist jede einzelne CU der XT im Schnitt langsamer als die der nonXT um bei gedeckelter Leistung das fast gleiche Ergebniss zu bekommen.

LG
Key

Dr. Chaos · 10. April 2025

Ich bin hier raus, du schreibst ultra lange Beiträge die zu 90% keinen Sinn ergeben und sich zum Teil selbst widersprechen.
Setzt dich noch mal hin, überdenke dein Konzept und informier dich was Volt, Watt und Ampere bedeuten und warum die Transistoren so Spannungsabhängig sind um im Takt zu bleiben.

Key3 schrieb:
Du schaust ab wie viel Watt die XT keinen oder kaum mehr Leistung bringt und gibst dann der nonXT das selbe Limit.

Das ist eigentlich eine super Idee, wird nur nicht funktionieren, da die 9070XT bisher grundsätzlich ins Powerlimit läuft. Zumindest so lange kein Hersteller ein offenes BIOS zur Verfügung stellt oder jemand wie der "Der Bauer" einen PL Mod erfindet, wird hier niemand erfahren wie viel Energie die 9070XT nehmen würde wenn es kein Limit gäbe.

cvzone · 10. April 2025

Key3 schrieb:
Du schaust ab wie viel Watt die XT keinen oder kaum mehr Leistung bringt und gibst dann der nonXT das selbe Limit.

Das dürfte momentan das Problem sein. Die XT skaliert immer noch wunderbar und ist selbst mit OC TGP und UV noch limitiert und liefert messbar Mehrleistung.

So hoch kannst du aktuell gar keine non XT einstellen, selbst mit diesen Bios Flashs.

Wie Dr. Chaos schrieb, bräuchte es hier mal so einen wirklich realitätsfernen Mod mit Super Kühlung, um die Architektur mal richtig auszuloten.

Mojo1987 · 10. April 2025

Mehr CUs skalieren doch in der Welt der GPUs schon seit Jahren nicht mehr linear, vor allem bei AMD. Gründe wurden hier zu genüge genannt. Es ist eine Kombination aus Faktoren als auch die Architektur an sich in welcher das begründet ist. Und ja heutzutage ist fast immer das Powerlimit der Faktor welcher am meisten Einfluss auf die Leistung der Karte hat.

Ich weiß nicht genau was der TE hier auf der Spur sein will. Allein der 5950X ohne 3D V-Cache und mit 2 CCDs kann unabhängig des Ganzen das Ergebnis verzerren.

Pro_Bro · 10. April 2025

CB hat ja zumindest mit 375 W getestet. Die, wenn verfügbar, auch einfach gezogen werden, auch mit UV. Hat vermutlich auch bei 400W kein Ende.
Und ja mehr Einheiten bei gleichem Verbrauch sollten trotzdem schneller sein, ist auch bei 4080/4090 so.

Die XT macht in meinen Augen keinen Sinn, nicht für die paar % mehr Leistung zu solch absurdem Mehrverbrauch. Da hat man einfach auf Teufel komm raus über den Verbrauch versucht noch was raus zu holen. Sieht man auch in dem Test gut. Immerhin gibt es die 9070 überhaupt, bei der alten Garde haben die Karten kein effizientes Gegenstück.

Dr. Chaos · 10. April 2025

Pro_Bro schrieb:
Und ja mehr Einheiten bei gleichem Verbrauch sollten trotzdem schneller sein,

NEIN!
Wie auch? Sonst könnte man mit mehr CUs ja unbegrenzt die FPS Leistung erhöhen ohne mehr Energie aufwenden zu müssen, das würde ja die Physik aushebeln.

Pro_Bro schrieb:
ist auch bei 4080/4090 so.

Hier spielen andere Dinge wie Effizienz eine Rolle aber wenn du eine 4080 und eine 4090 auf zb 200 Watt limitierst werden beide auch ähnliche Leistung liefern. Rausrechnen muss man natürlich immer Dinge wie Speicher, Bandbreite etc die unterschiedliche Einflüsse auf den Verbrauch und die Leistung haben.

JackTheRippchen · 10. April 2025

Dr. Chaos schrieb:
Nicht böse gemeint, aber das ist doch Physik 6-7 Klasse.
Woher sollen die mehr CUs die Leistung bringen wenn diese nicht mehr Energie zur Verfügung haben?

In Physik Klasse 6/7 sind Nichtlinearitäten von Halbleitern und ihren parasitären Kapazitäten definitiv nicht im Lehrplan.
Ja, je CU steht weniger Leistung zur Verfügung, was sich entweder in niedrigerer Spannung, niedrigerer Frequenz oder einer Mischung aus beidem bemerkbar macht. Und hier bestünde die Möglichkeit, dass die CUs in einem effizienteren Arbeitspunkt betrieben werden, was die geringere Energieaufnahme überkompensiert.
Das lässt sich natürlich nicht unbegrenzt hinsichtlich der Anzahl an CUs skalieren, weil es Grenzen bei der Schwellspannung, Sättigungseffekte, etc. gibt.

Dr. Chaos · 10. April 2025

JackTheRippchen schrieb:
niedrigerer Spannung, niedrigerer Frequenz oder einer Mischung aus beidem bemerkbar macht.

Tankt und Spannung gehen immer Hand in Hand, ein Transistor braucht eine gewisse Spannung für einen gewissen Takt. Spannung * Ampere ergeben die benötige Energie in Watt.
Reduziert man den Takt kann man die Spannung reduzieren, was wiederum die Effizienz erhöht.

Aber wie man sehen kann fährt der TE in seinem Versuch eine sehr ähnliche Spannung wodurch keine Effizienz gewonnen wird.

SFFox · 10. April 2025

Dr. Chaos schrieb:
Das ist eigentlich eine super Idee, wird nur nicht funktionieren, da die 9070XT bisher grundsätzlich ins Powerlimit läuft. Zumindest so lange kein Hersteller ein offenes BIOS zur Verfügung stellt oder jemand wie der "Der Bauer" einen PL Mod erfindet, wird hier niemand erfahren wie viel Energie die 9070XT nehmen würde wenn es kein Limit gäbe.

Das sehe ich auch so, die 9070XT ist ja schon so am Ende ihrer Effizienzkurve, wenn 74 Watt (also 38% mehr elektrische Leistung) in nur roundabout 10% Rechenleistung resultieren. Die Effizienz wird hinten raus überproportional schlechter, da macht irgendwann auch das Silizium schlapp, weil die Takraten da niemals stabil hin kommen und auch nicht unendlich mit der Leistungsaufnahme wachsen können.

Mojo1987 schrieb:
Mehr CUs skalieren doch in der Welt der GPUs schon seit Jahren nicht mehr linear, vor allem bei AMD. Gründe wurden hier zu genüge genannt. Es ist eine Kombination aus Faktoren als auch die Architektur an sich in welcher das begründet ist. Und ja heutzutage ist fast immer das Powerlimit der Faktor welcher am meisten Einfluss auf die Leistung der Karte hat.

Ich erwarte nicht, dass sie linear skalieren. Ich würde mir wünschen, dass sie da aber näher dran sind. 3% weniger in der Rechenleistung bei 2% mehr Takt steht in keinem Verhältnis zu 12,5% mehr Recheneinheiten, die jeweils in einem besseren Effizienzbereich betrieben werden können/müssen, weil sie ein pro CU kleineres Power Budget haben.

Mojo1987 schrieb:
Ich weiß nicht genau was der TE hier auf der Spur sein will. Allein der 5950X ohne 3D V-Cache und mit 2 CCDs kann unabhängig des Ganzen das Ergebnis verzerren.

Da die GPUs hier ins GPU Limit laufen und voll ausgelastet sind spielt es für die eine Szene keine Rolle. Worauf ich hinaus will ist: sind die CUs nicht gut ausgelastet? Ist die Architektur bei 54 nahezu gesättigt? Sieht fast danach aus.

Pro_Bro schrieb:
Die XT macht in meinen Augen keinen Sinn, nicht für die paar % mehr Leistung zu solch absurdem Mehrverbrauch. Da hat man einfach auf Teufel komm raus über den Verbrauch versucht noch was raus zu holen. Sieht man auch in dem Test gut. Immerhin gibt es die 9070 überhaupt, bei der alten Garde haben die Karten kein effizientes Gegenstück.

Sehe ich auch so, die 8CUs mehr, was der einzige Hardware-Unterschied der Chips ist, macht in der realen Welt einen zu kleinen Unterschied.

Dr. Chaos schrieb:
NEIN!
Wie auch? Sonst könnte man mit mehr CUs ja unbegrenzt die FPS Leistung erhöhen ohne mehr Energie aufwenden zu müssen, das würde ja die Physik aushebeln.

Niemand hebelt physik aus. Verbrauch und Rechenleistung skalieren nicht linear. Es gibt immer einen Sweet Spot in der Verhältniskurve dieser beiden größen für jeden Chip und jede Architektur. Du hast laut deiner Aussage "Probleme" mit meinen "langen Texten", aber immerhin finden sich dort Quellen und Argumente, von denen du noch keins widerlegen konntest... weder hast du eine Erklärung für das nachmessbare Verhalten der RX6800XT/RX6900XT geliefert, noch hast du das Argument mit CPU Cores aufgegriffen und widerlegt (z.B. 16 Kerner Zen3 mit 105 Watt TDP ist schneller als ein 12 Kerner Zen3 mit 105 Watt im Multicore, was laut deiner Aussage ja schon gar nicht sein könnte, weil es vermeintlich die Grenzen der Physik sprengt... und das ist Quatsch). Es gibt irgendwann einen Punkt (z.B. Threadripper mit 64 Kernen) wo ein Power Budget die Kerne so sehr limitiert, dass sie underperformen und es sich nicht lohnt noch mehr Kerne in eine CPU zu packen genau so wie es oben den Punkt gibt wo entweder der Takt nicht mehr stabil ist oder der Takt gar nicht erreicht werden kann weil die Leistungsaufnahme so immens hoch geht, dass der Chip nicht mehr zu kühlen ist.

Dr. Chaos schrieb:
Hier spielen andere Dinge wie Effizienz eine Rolle aber wenn du eine 4080 und eine 4090 auf zb 200 Watt limitierst werden beide auch ähnliche Leistung liefern. Rausrechnen muss man natürlich immer Dinge wie Speicher, Bandbreite etc die unterschiedliche Einflüsse auf den Verbrauch und die Leistung haben.

Ja, wenn sich Karten neben dem GPU Chip noch in weiteren Parametern unterscheiden, muss man die raus rechnen. Bei der RX6800XT/RX6900XT und der RX9070(XT) passt der Vergleich gerade aber sehr gut, denn sie unterscheiden sich nur in CUs untereinander.

Dr. Chaos schrieb:
Aber wie man sehen kann fährt der TE in seinem Versuch eine sehr ähnliche Spannung wodurch keine Effizienz gewonnen wird.

Hier habe ich ja gar nicht so viel Einfluss drauf, denn die Karte nimmt sich, was sie im Rahmen des Power Budgets kriegen kann. Dass es in einem ähnlichen Bereich landet ist ja schon das kuriosum. Bei guter Skalierung der zusätzlichen CUs hätte ich einen zusätzlichen Takt von ~200MHz erwartet, der bei einer höheren Spannung erreicht wird. Der durch die höhere Voltage / höheren Takt steigende Verbrauch hätte in einem guten Effizienzbereich durch das Fehlen von 8 CUs kompensiert werden können (denn 8 CUs weniger rechnen und sollten dann auch ein gutes Stück weniger Leistungsbudget kosten, wie wenn einem 64 Core Threadripper 8 Cores fehlen).

Was ich gerne testen würde aber nicht kann ist, wie sich beide Karten mit z.B. 100Watt und 400Watt Power Budget verhalten, um die Verbrauchs-/Rechenleistung-Skalierung visualisieren zu können. Die bisherigen Indizien deuten einfach nur auf ein sehr starkes Underperforming der zusätzlichen CUs hin und damit einem die PS nicht auf die Straße bringen.

Pro_Bro · 10. April 2025

Naja weiteres testen kann man sich nach den 2 schon vorhandenen Tests im Grunde sparen, da hat Pandi schon gute Arbeit geleistet.
Bleibt die Hoffnung das sich mit zukünftigen Optimierungen/Treibern noch etwas mehr aus der Hardware der 9070xt locken lässt, der Wein muss halt erst reifen bei AMD.

JackTheRippchen · 10. April 2025

Dr. Chaos schrieb:
Aber wie man sehen kann fährt der TE in seinem Versuch eine sehr ähnliche Spannung wodurch keine Effizienz gewonnen wird.

858 mV sind 2,5% mehr als 837 mV, was bei den Umladeverlusten aufgrund der Kapazitäten im Chip schon 5% mehr ausmacht. (Annahme: in dem Bereich keine/kaum Spannungsabhängigkeit der Kapazität)

SFFox · 10. April 2025

Pro_Bro schrieb:
Naja weiteres testen kann man sich nach den 2 schon vorhandenen Tests im Grunde sparen, da hat Pandi schon gute Arbeit geleistet.

Japp, die Tests sind gut 👍. Ich hätte mir trotzdem noch etwas mehr Content zum Leistungs-Scaling im Vergleich XT und non-XT gewünscht, gerade jetzt wo die Sache mit dem BIOS Flash aufgekommen ist und die non-XT auf XT Level mit spielt. Es entwertet die XT ganz einfach bzw. reduziert sie nahezu rein auf ihren TBP Vorsprung.

Schade, dass die 9070 GRE nur über Speichergröße und das Speicher-Interface beschnitten wird. Eine 48CU GPU wäre auch noch mal ein guter Test, um das CU Scaling dieser Gen zu analysieren. Ggf. wird es Hinweise zwischen 9060 und 9060XT (32CUs laut Techpowerup) geben, die sich sicherlich untereinander an CU Anzahl unterscheiden werden, wie sich das Performance-Verhältnis in einem nicht CU-gesättigten Verhältnis bewegt.

Pro_Bro schrieb:
Bleibt die Hoffnung das sich mit zukünftigen Optimierungen/Treibern noch etwas mehr aus der Hardware der 9070xt locken lässt, der Wein muss halt erst reifen bei AMD.

Ich hoffe auch, dass sich dort in Zukunft noch was tut.

Powl_0 · 10. April 2025

Dr. Chaos schrieb:
NEIN!
Wie auch?

Doch, durch die nicht-lineare Effizienzkurve.
Genau das nutzen große breite Chips mit vielen Kernen aus.

Der Pro-Kern Taktverlust durch gedeckelte elektrische Leistung ist dabei geringer als der Gesamtzuwachs an Recheneinheiten. Dadurch kann der Chip mit mehr Einheiten bei gleichem Verbrauch mehr Leistung liefern.

Angenommen man packt 50% mehr Kerne in einen Chip und verliert dabei aber "nur" 25% Takt, da man diese niedriger auf der V/F Kurve betreibt, dann hat man Netto ca 25% mehr MT-Leistung, bei unverändertem Verbrauch.

Genau dieses Verhalten nutzen alle Chiphersteller aus, wenn sie dicke Chips mit vielen Kernen umsetzen.

Deine 6./7. Klasse Physiklehre behandelt sowas eben noch nicht

Ergänzung (10. April 2025)

Dr. Chaos schrieb:
wenn du eine 4080 und eine 4090 auf zb 200 Watt limitierst werden beide auch ähnliche Leistung liefern.

Nö, genau das ist ja der Witz. Bei Iso-Verbrauch leistet eine 4090 klar mehr als eine 4080. Das müssen wir nichtmal mutmaßen, darüber gibt's genug Tests im Netz.
(Angenommen ein ausreichendes Minimum PL, damit die 4090 nicht an ihrem breiteren SI etc verhungert, aber das ist nochmal ein anderes Thema)

RX9070 vs RX9070XT - kriegt AMD die PS (CUs) nicht auf die Straße?

Commander Pro

Lieutenant

Commander Pro

Lieutenant

Commander Pro

Lieutenant

Commander Pro

Captain

Lieutenant

Fleet Admiral

Fleet Admiral

Captain Pro

Lieutenant

Commander

Lieutenant

Commander Pro

Captain Pro

Commander

Commander Pro

Commodore