Leserartikel Kühler- gegen Steckergate: DevPandis Hin und Her

DevPandi · 16. Juli 2023

Inhaltsverzeichnis

Oder: Wie ein neues Hobby alles verändert und am Ende eine Detektivgeschichte daraus wird!
Der Overlord ist schuld
Spiele, Spiele, SPIELE!
Vergleich, Vernichtung oder Analyse
Wissenschaftlerin und der Fisch
Altbekannt und daher am Anfang
Von Effizient und Custom-Designs
Gerüchte, Tatsachen und eine Vermutung
Grundlast - weniger geht nicht (wirklich)
- AMD hat ein P-State Problem - erste Beobachtungen
Hardwarebug - Wo könnte er sein?
- Raster-Operation-Unit - Was spricht dafür?
- Das letzte Indiz - von Vektor- und Rasteroperationen
Und der ganze Rest - von KI und Anwendungen
Abschließende Worte
Der Schluss
Bilder der XFX Radeon RX 7900 XTX und Palit RTX 4090 GameRock OC

Oder: Wie ein neues Hobby alles verändert und am Ende eine Detektivgeschichte daraus wird!

Vor knapp sieben Monaten habe ich einen kleinen – eher großen – Leserinnentest der XFX Radeon RX 7900 XTX Merc 310 Black Edition veröffentlicht. Meine Beweggründe, ein damals tolles Highend-System abzugeben und einen alten Rechner neu aufzubauen war damals durch den Test selbst sowie den Neuerungen der RDNA3 Generation getrieben. Seitdem ist viel passiert in dem ursprünglichen System und heute steht unter dem Schreibtisch ein anderes System, da sowohl Mainboard als auch das Gehäuse getauscht wurden und eine neue System-Festplatte dazu kam.

Folgende Änderungen zu dem ursprünglichen Test gibt es:

Gehäuse: Fractal Design Define R6 wurde durch ein Fractal Design Torrent RGB getauscht.
Der Wechsel hat sich sehr positiv auf die Temperaturen der Grafikkarte ausgewirkt. In den meisten Szenarien kommt die 7900 XTX kaum über die 50° hinaus und nur in seltenen Fällen werden die 60° geknackt. Anzumerken ist, dass die damalige Raumtemperatur bei ca. 18° lag, während für die jetzigen Tests die Raumtemperatur bei 22 – 24° lagen.
Das Mainboard – ASUS ROG Strix B450-E wurde gegen ein Gigabyte B550 Aorus Elite AX V2 (rev. 1.1) getauscht. Damit scheidet PCIe3 als potenzieller Flaschenhals für alle weiteren Tests aus.
Die Samsung 970 Pro 512 GB wurde durch eine Samsung 990 Pro 2 TB getauscht. Mehr Speicherplatz für Spiele.

Aus dem ursprünglichen System verrichten nur noch die beiden 1 TB SATA-SSDs ihren Dienst im Rechner, aus dem letzten Test sind es die Grafikkarte, die CPU und RAM. Denn auch der Kühler hat sich geändert. Auch wenn ich selbst das Noctua-Braun mag, in einem RGB-Gehäuse sieht das nicht ganz so toll aus, also arbeitet nun ein NH-D15 Chromax.Black im System. Ich habe das System also einmal auf Links gedreht. Ich hatte jetzt zum Sommer ohnehin einen Nachtest geplant, da sich seit Dezember relativ viel getan hat. Einige Treiber-Probleme sind verschwunden, andere Schwachstellen ist AMD angegangen und es gab allgemein auch positiven Entwicklung beim Treiber.

Ein Beispiel – den ihr auch als Teaser für den Test hier verstehen könnt: In Cyberpunk 2077 erreichte die 7900 XTX mit maximalen Grafikdetails (kein RT) ca. 46,1 fps im 99.9 % und bei den Avg. fps 80,3 fps. Nun stehen 67,50 und 97,67 fps in der Liste. 46 % bei den 99.9 % fps und 22 % bei den Avg. fps. Interessant dabei ist, dass die Auslastung der Grafikkarte auch noch mal ansteigt und sich nun konstant bei 100 % befindet, während damals oft eher nur 90 – 95 % Auslastung erreicht wurde. Im RayTracing-Lauf stiegen die Avg. fps nicht an, dafür aber die 99.9 % von damals 25,4 auf nun 29,5 – 16 %.

Ebenso hat sich bei der Leistungsaufnahme einiges getan. Standen im Dezember bei Idle (vollständiger Leerlauf auf dem Desktop, also keine Mausbewegung, keine Eingaben und Co) 22 W auf der Uhr an einem 1440p/165 Hz Monitor, hat sich seit dem der Verbrauch auf 11 W (23.5.2) bzw. 8 W (23.7.1) verringert. Ebenso bei schwachen Lasten – Fensterbewegung, Schreiben, Browsen – hat sich die Aufnahme je nach Szenario verringert. Während ich im Dezember für Browser, Schreiben und Fensterbewegung eine Range von 25 W – 45 W angeben habe, sind die Zahlen dieses Mal genauer: Schreiben in Word, Excel oder Browser liegt die Last zwischen 20 – 35 W – erneut besser als im Dezember. Übertriebene Fensterbewegungen – und damit meine ich, dass ich das Fenster wirklich wild hin und her ziehe – kommt die 7900 XTX auf maximal 55 W. Normale Fensterbewegungen werden nun mit Werten um die 30 W erledigt. YouTube wiederum zeigt kurze Lastspitzen bis 55 W, kommt im Mittel auf 50 W. Hier gab es seit damals keine wirkliche Verbesserung.

AMD ist seit Dezember also die Probleme angegangen und einige der Baustellen wurden abgeschlossen und das Fazit heute zur 7900 XTX ändert sich ein Stück. Die 7900 XTX ist ab jetzt wirklich eine Alternative zur 4080, sofern RT nicht im Vordergrund steht, oder ein anderes Thema.

Der Overlord ist schuld, oder: Wie ein neues Hobby den Blick verändert

Während mich KI zwar immer ein wenig interessiert hat, für mich aber keine Rolle spielte, verändert sich aktuell mein berufliches Umfeld und ebenso auch etwas mein Hobby. Meine Leidenschaft liegt in der Softwareentwicklung und in der konstanten Verbesserung von Algorithmen, Programmstrukturen und Datenstrukturen. Mein Geld heute verdiene ich heute primär mit IT-Infrastruktur und Veranstaltungstechnik, holt mich die KI jetzt final ein. Entsprechend habe ich vor ca. 3 Monaten die KI-Entwicklung für mich entdeckt und damit auch Stable Diffusion. Genau hier liegt die 7900 XTX leider ein Stück zurück. Es hat sich zwar mit einem der letzten Patches etwas getan bei DirectML und PyTorch, doch nicht genug.

Ich bin mir natürlich darüber klar, dass ich auch Linux verwenden könnte, der Support für RDNA3 ist aber noch kein Bestandteil in ROCm 5.6 und wird erst in Zukunft kommen. Damit bedeutet es zum jetzigen Zeitpunkt, dass ich mich intensiver erst einmal mit dem Ökosystem befassen muss. Das möchte ich an dieser Stelle aber nicht, sondern ich möchte einfach loslegen. AMD kann das aktuell nicht bieten.

NVIDIA ist AMD im Bereich KI aktuell – abseits vom HPC-Markt – ein gutes Stück voraus und bietet ein Rundum-sorglos-Paket für Konsumenten und Entwickler, vollkommen unabhängig ob Linux oder Windows. NVIDIA hat verstanden, dass sie die Hürde zur Nutzung von KI für interessierte Menschen möglichst niedrig setzen muss. Python, PyTorch und eine RTX-Karte mit Treiber reichen aus, um auch als Entwicklerin in die Welt der KI einzutauchen. Die größeren RTX-Karten eignen sich sogar für kleinere, professionelle Projekte. Nicht jeder muss ein Large-Language-Model (LLM) berechnen.

Die Konsequenz aus dem neuen Hobby? Die Radeon RX 7900 XTX ist für mich nicht mehr die optimale Karte und wird ersetzt.

Spiele, Spiele, SPIELE!

Um der 7900 XTX und der RTX 4090 auf den Zahn zu fühlen, werden natürlich Spiele herangezogen. Anders als im Test im Dezember, sind es dieses Mal nur 8 Spiele, dafür in drei Einstellungen. 1440p, 1440p 72 fps, 1440p FSR2/DLSS. Natürlich – um einen fairen Vergleich zu gewährleisten, gibt es den FSR2/DLSS Test nur, wenn beide Grafikkarten auf eine der beiden Techniken zurückgreifen können. So habe ich ganze 35 Testszenarien mit 3 Durchläufen. Mehr Läufe, als Spiele, das liegt daran, dass bei Cyberpunk noch Tests mit dem SMT-Mod hinzugekommen sind.

Neben den normalen Einstellungen gibt es natürlich auch RT (RayTracing) und bei Cyberpunk PT (PathTracing). In diesem Fall habe ich auf den Test im 72 fps Limit verzichtet, sie haben zwar für euch ggf. einen Mehrwert, aber nicht für diesen Test.

Am Ende gibt es jedoch nicht nur die Spiele, sondern auch 5 Anwendungstest. Stable Diffusion, Affinity Photo 2.1, Blender 3.6, LuxMark 3.1 und LuxMark 4.0 Alpha 1. Warum nicht mehr? Ganz einfach: Meine Kapazitäten sind begrenzt. Entsprechend möchte ich an dieser Stelle auch einmal meinen tiefsten Respekt gegenüber der Computerbase-Redaktion zum Ausdruck bringen. @Wolfgang, @Volker, @Jan machen einen sehr guten Job und anders als manch einer hier denkt, ist es bei solchen Tests eben nicht damit getan einfach nur CapframeX oder ein anderes Programm „nebenbei“ laufen zu lassen. Ja, prinzipiell kann jede von uns selbst entsprechende Benchmarks anfertigen. Sobald man ein gewisses Niveau erreichen will, wird es sehr schnell eine eher langweilige Fleißarbeit, die an den eigenen Nerven zerrt und je nach Entwicklungsqualität des Programmes kann es eine große Qual werden. Ja ich schreibe von euch, Hogwarts Legacy und Jedi: Survivor!

Es wäre an dieser Stelle auch noch passend zu erwähnen: Das hier soll kein kühler professioneller Test sein, der nüchtern geschrieben wird, sondern ich schreibe diesen Text mit meinem Stil. Eine Mischung aus sachlicher Kühle, gepaart mit etwas Witz und Humor. Meine Dozenten an der Uni warfen mir schon vor, dass mir die Ernsthaftigkeit für die Wissenschaft fehlt, meine Texte dafür doch sehr unterhaltsam sind. Wem von euch das nicht gefällt: Bitte nicht weiterlesen und einen anderen Leserartikel suchen!

Vergleich, Vernichtung oder Analyse - Was wird euch erwarten

Bereits in der Einleitung bin ich auf die Verbesserungen von AMD über die letzten 7 Monate eingegangen, da ich die Karte aber nun gewechselt habe, wird das zum einen Teil ein Vergleich und damit auch Vernichtung der 7900 XTX, allerdings auch mit einer gehörigen Portion Analyse von Problemen, die RDNA3, besonders im Vergleich zu Ada.

Ich habe in verschiedenen Themen bereits angedeutet, dass ich ein paar „unschöne“ Sachen in den letzten Tagen gemessen habe, erst als jedoch die RTX 4090 in meinem Rechner eingebaut war, konnte ich mir dieser Probleme sicher sein.

Und genau hier liegt die Stärke dieses Leserartikels. Ich habe die 7900 XTX im Alltagsbetrieb gehabt und was sich im Dezember schon andeutet, aber damals noch keine Erwähnung wert war – es fehlte der Vergleich – hat sich nun bestätigt und das Thema reicht tiefer, als ich selbst lange Zeit angenommen habe.

Wir kommen damit zu einem wichtigen Punkt: Ich kenne die Gerüchte, die aktuell durch die Hardware-Welt geistern, ich habe diese Gerüchte bisher aber immer eher als Gerüchte abgetan, weil die „Journalisten“ auf YouTube eben nur die Gerüchte weiterverbreitet haben, allerdings diese Gerüchte nicht mit Indizien und Fakten belegen konnten. Es ist ein großer Unterschied, ob ein Möchtegern-Journalist schreibt oder in einem YouTube-Video sagt, dass es einen Hardwarebug in RDNA3 gibt, der höhere Taktraten bei geringerer Leistungsaufnahme verhindert, oder es zu Anzeige-Fehlern kommt, oder so wie ich es in diesem Leserartikel mache und die Gerüchte mit Zahlen – die Fakten – und darauf aufbauenden Indizien untermauere.

Um die Probleme von RDNA3 zu erfassen, ist es in diesem Leserartikel auch notwendig, dass wir uns mit dem Aufbau von Navi 31 und AD102 befassen. Ich werde, wie immer, weitgehend vieles vereinfachen und keinen Deep-Dive in die Architekturen machen, doch auf relevante Unterschiede in Blockdiagrammen eingehen.

Wissenschaftlerin und der Fisch

Die Ausgangslage ist relativ simpel und wie viele Tests bereits gezeigt haben: Die RTX 4090 ist ein Monster, egal ob Leistung oder Effizienz. Ja, GeForce RTX 4080 als auch die 4070 Ti können effizienter sein, das liegt aber daran, dass AD102 einen großen Teil der eigentlichen Leistung gar nicht ausspielen kann. Gegenüber GA102 legte AD102 im ganze 71 % bei den SM (Streaming-Multiprocessors) zu, warum erwähne ich diese und nicht die Shader? Weil aus den SM sich die Anzahl der Shader, TMU, RT-Kerne und Tensor-Kerne ableiten lässt. Bei den GPC geht es von 7 auf 12 hoch, also auch wieder 71 % und auch damit ist eine weitere wichtige Zahl abgedeckt: Die ROPs (Raster-Operation-Processor. Dass der L2-Cache von 6 MiB auf 96 MiB angewachsen ist, kann man erwähnen, wobei NVIDIA hier den Schritt geht, denn AMD bei RDNA2 mit dem Infinity-Cache gegangen ist. Am Ende stehen bei AD102 ca. 76,3 mrd. Transistoren auf dem Zähler, bei GA102 waren es nur 28,3, ganz 170 % mehr! (TPC => 2 SM)

Alleine an diesen Zahlen sieht man schon, wie groß der Chip ist und RDNA3 in Form von Navi31 wirkt dagegen – wenn auch nicht auf das Package bezogen – gerade zu mickrig. 96 CU sind gegenüber den 80 CU von Navi21 nur 20 %, die ROPs wiederum gingen von 128 auf 192 hoch – 50 %. Das Speicherinterface legte von 256 Bit auf 384 Bit zu, der L3-Cache ist um 25 % von 128 MiB auf 96 MiB gesunken. Am Ende stehen 58 mrd. Transistoren auf der Uhr gegen 26,8 mrd. Hier kommen 116 % Transistoren hinzu. Shader-Engines gingen von 4 auf 6 hoch (50 %), pro Shader-Engine kommen 2 Shader-Arrays zum Einsatz mit 4 WGP (Work-Group-Processor). Der L2-Cache ist bei RDNA3 von 4 MiB auf 6 MiB – 50 % mehr.

Hier also die groben Eckdaten der Chips und deren direkten Vorgängern:

	GA102	AD102	Navi 21	Navi 31
Transistoren	28,3 mrd.	76,3 mrd.	26,8	58 mrd.
Prozess	Samsung 8	TSMC N5 (4N)	TSMC N7	TSMC N5 + N6
Packdichte	45 mio. per mm²	125 mio. per mm²	51 mio. per mm²	153 mio. per mm² (GCD)
GPC / SE	7	12	4	6
TPC / SA	42	72	8	12
SM / CU	84	144	80	96
Shader	10752	18432	5120	6144 + 6144
Tensore-Core / KI-Accelator	336	576	-	192
RT-Kerne	84	128	80	96
TMU	336	576	320	384
L0-Cache	-	-	32 KiB (per WGP)	64 KiB (per WGP)
L1-Cache	128 KiB (per SM)	128 KiB (per SM)	128 KiB (per SA)	256 KiB (per SA)
L2-Cache	6 MiB	96 MiB	4 MiB	6 MiB
L3-Cache	-	-	128 MiB	96 MiB
ROP	112	192	128	192
SI	384 Bit	384 Bit	256 Bit	384 Bit (in 6 MCD)
Takt	1860 GHz	2520 GHz	2310 GHz	2500 GHz

Auf die Große der Chips können wir an dieser Stelle verzichten, da diese für die weitere Betrachtung nicht von Relevanz ist. Bei AMD ist die Packdichte des GCD (Graphic-Complex-Die) angeben, da dieser relevanter für alle weiteren Betrachtungen ist. Die 6 Memory-Complex-Die haben ihre Eigenheiten, sind aber nicht entscheidend.

Vom Streaming-Multiprocessor und Compute-Unit …

Die kleinste Einheit, in der AMD und NVIDIA ihre Grafikkarten organisieren, sind die SM und CU. Beide Einheiten sind heute weitgehend vergleichbar und erfüllen auch den gleichen Zweck. Hier liegen die Rechenwerke. Wichtig ist: Die hohe Anzahl an Rechenwerken in einer GPU kommt nur dadurch zustande, dass diese nicht wirklich eigenständig arbeiten können und auch nicht eigenständig organisiert sind. Grafikkarten arbeiten heute nach dem SIMD (Single-Instruction-Multiple-Data) Konzept. Eine Anweisung wird auf viele Daten angewendet. Ebenso kann man ein MIMD (Multiple-Instructions-Multiple-Data) Konzept in Grafikkarten finden. Es wird zudem weitgehend auf Kontroll-Logik verzichtet. Konzepte wie Sprungvorhersage, Out-of-Order-Execution – und nein, NVIDIAs SER (Shader-Execution-Reordering) ist nicht mit OoO zu vergleichen – Spekulative Ausführung oder Superskalarität findet man in GPUs nicht oder nur bedingt, denn all diese Funktionen benötigen entsprechende Logik, die sehr viel Platz benötigt. Sehr viele Kontrollaufgaben werden entweder in übergeordneten Stellen der GPU übernommen oder gar durch den Treiber erledigt.

Die kleinste Einheit bei AMD besteht – also die CU – aus 2 Vektor-ALUs mit 32 + 32 Werten. Die Dual-Issue-Ausführung, die AMD erwähnt. Die erste Bank der VecALU sind normal und vollwertig, die zweite Bank ist auf Floating-Point-Operationen beschränkt – das spart bereits Schaltungen – und besitzt weitere Einschränkungen, die sich auch auf die erste Bank auswirken. So gibt es nur Vektor-Befehle mit 2 Operanten – Ziel, Op1, Op2. Nur wenn die erste Bank verwendet wird, stehen auch Befehle mit einem oder 3 Operatoren zur Verfügung. Das liegt zum Teil aber auch an der möglichen Wortbreite. AMD arbeitet mit 32 oder 64 Bit-Worten. Zu den beide VecALUs kommen 2 Skalar-Units für spezielle Funktionen, ein Scheduler pro VecALU, 4 Textur Mapping Units, 1 RT-Kern und ein Tile des L0-Caches. Weitere Komponenten teilt sich die CU mit einer zweiten CU in der WGP, daher ist hier erst mal Schluss. Die beiden KI-Kerne sind fast nicht der Erwähnung wert, da diese die Daten für die VecALUs nur aufbereiten, aber nicht selbst rechnen.

NVIDIA geht hier anders vor und greift nicht auf Vektor-ALUs zurück, sondern vollständig auf Skalare-Units. 16 von diesen werden in einem Datenpfad zusammengefasst und zwei dieser Datenpfade bilden zusammen mit dem Register-File, dem Scheduler und einem Tensor-Kern einen Tile der SM. 16 + 16 + 1. 4 dieser Tiles bilden dann zusammen mit 4 TMU und dem RT-Kern sowie dem L1 dann die SM. Es sind also 128 Shader, 4 Tensor-Kerne und 4 TMU und ein RT-Kern.

… über die Workinggroup-Processor und Texture-Processing-Cluster …

Die nächste Einheit ist bei NVIDIA relativ einfach abgefasst: 2 SM bilden eine TPC. Hier gibt es nicht viel dazu zu schreiben, es ist weniger interessant als bei AMD.

Bei AMD folgt an dieser Stelle die WGP, die auch aus 2 CU gebildet wird, es kommt nun aber der LDS – Local-Data-Share hinzu, der es den CU ermöglicht Daten untereinander auszutauschen, ebenso teilen sich beide CU einen Instruction- und einen Skalar-Cache. In der Tabelle oben wird der L0-Cache für die WGP angeben, dabei besitzt jede CU einen eigenen, dieser lässt sich allerdings zusammen schalten.

… zu dem Graphic-Processing-Cluster und den Shader-Engines in der GPU

In der letzten Instanz ist AMD noch einmal ein Stück spannender als NVIDIA, denn AMD organisiert ihre WGP zuerst in Shader-Arrays. Diese bestehen aus 4 WGP, es kommen 16 ROP hinzu sowie 128 KiB L1-Cache. 2 Shader-Arrays bilden dann die Shader-Engine, in den weiteren Einheiten – Prim-Unit z.B. – hinzugefügt werden. Die Shader-Engine greift dann auf den L2-Cache zu.

NVIDIA fasst 6 TPC zusammen mit 16 ROP zu einem Graphic-Processing-Cluster zusammen, dieser hängt dann am L2-Cache.

Bei beiden Anbietern folgt nun das Fabric – bei AMD Infinity Fabric – und an diesem angeschlossen sind alle weiteren Bestandteile, also das Speicher-Interface mit 384 Bit, die Video-Encoders und Decoders, die Display-Engines, das PCIe-Interface und eben die Hardware-Komponenten, die man als primäre Kontrolleinheit der GPU verstehen kann. Bei NVIDIA die Giga-Thread-Engine und bei AMD der Graphic-Command-Processor. Diese Einheiten verwalten die vom Treiber ankommenden Shader (auch Threads oder Tasks) und verteilt diese auf die freien Ressourcen.

Man kann bei beiden Firmen Gemeinsamkeiten, aber auch Unterschiede erkennen. AMD ist bei ihrer GPU darum bemüht, mit möglichst wenigen Ressourcen viel zu erreichen, entsprechend wird alles, was man teilen kann, auch geteilt. Natürlich läuft AMD damit auch immer Gefahr, dass im entscheidenden Moment Ressourcen doppelt belastet werden müssen und andere Komponenten warten. NVIDIA wiederum geht einen anderen Weg. Jede einzelne Komponente bekommt so viele Ressourcen, wie in der Regel benötigt wird, nichts muss wirklich geteilt werden und damit kann man auch einmal im Ernstfall alles in die Waagschale werfen.

Altbekannt und daher am Anfang

Eigentlich ist es klar, wie dieses Duell aus geht, die Eckdaten sprechen bereits für die 4090 und auch in allen Tests von Computerbase, PCGamesHardware, Igorslab und Co schlägt die 4090 in allen Auflösungen die 7900 XTX, mal deutlicher, mal weniger deutlich.

-- Update 24.07.2023, ein kleiner Fehler in der Excel-Datei --
In meinem Mittel stehen bei den Spielen – ich fasse alle zusammen – bei den 99.9 % 80.77 fps für die 7900 XTX und 78,09 für die 4090 – ein Achtungserfolg für AMD. Bei den durchschnittlichen fps schlägt die 4090 dann die 7900 deutlich, mit 160,60 fps zu 124,55.

Um Transparenz zu schaffen, ist der alte Abschnitt natürlich noch vorhanden. In meine Excel-Datei hat sich bei einem Spiel ein Fehler eingeschlichen und ich habe die Avg. fps mit den P0.1 fps vertauscht. @Taxxor danke auch für die Korrektur bei den Bezeichnungen.

Bei den P0.1 fps steht bei der 7900 XTX 73,56 fps auf der Uhr, bei der 4090 - hier stimmen die Werte - immer noch 78,09 fps. Die 4090 ist also 6 % schneller, als die 7900 XTX. Bei den Avg. fps dreht sich das Bild auch etwas und die 7900 XTX erreicht 131,76 fps, die 4090 160,60 fps und ist damit 22 % schneller.

Allgemein scheint die 7900 XTX eine gewisse Stärke zu haben, wenn es darum geht zuverlässig Bilder auf dem Monitor darzustellen, während RTX 4090 im Ganzen aber mehr Bilder darstellen kann.

Im Endeffekt ist das aber auch nur ein Teil dieses Tests und neben der Performance ist heute auch der Verbrauch wichtig und hier zeigt sich ein Bild, dass bei einem 1440p/165 Hz-Monitor weder AMD noch NVIDIA wirklich für sich entscheiden können. Beide Grafikkarten haben ihre Stärken und Schwächen und keine ist wirklich besser:

Wird nur der Desktop angezeigt – keine Fensterbewegung, keine Arbeit, keine Popups und Co – fährt AMD gegen die RTX 4090 einen Sieg ein: 11 Watt (mit Patch 23.7.1 sind es nur 8 Watt) gegen 15 Watt. Jetzt könnte man vermuten, dass die Palit RTX 4090 GameRock OC durch RGB mehr benötigt, die Beleuchtung wurde zum Test jedoch deaktiviert. 1 zu 0 für die 7900 XTX. Beim Arbeiten zeigt sich dann das erste Mal ein etwas anderes Bild. Die 7900 XTX benötigt hier beim Browser als auch in Excel ca. 36 W, die 4090 nur 25 W. Ausgleich. Ein YouTube-Video mit 2160p und 30 fps ist dann die nächste Hürde für beide Grafikkarten und hier möchte die 7900 XTX ca. 54 W, die RTX 4090 begnügt sich mit 25 W. Die RTX 4090 geht in Führung mit 2 Punkten. Es folgt ein letzter Test: übertriebene Fensterbewegungen, der Worstcase. Dafür wird ein Fenster wirklich intensiv auf dem Desktop verschoben und auch das Fenster erneuert sich regelmäßig dabei selbst: 50 W für die 7900 XTX und 60 W für die RTX 4090 und damit der Ausgleich für die 7900 XTX.

Für den Arbeitsalltag mit schwachen Lasten – Browser und Co – ist die RTX 4090 besser geeignet als die 7900 XTX. Ja, der Idle-Wert der 7900 XTX ist besser, gleichzeitig ist der Idle-Wert aber ein sehr selten erreichter Wert, relevanter ist die Arbeit und die RTX 4090 kann näher an der Idle-Last bleiben. Auch ein Video auf der RTX 4090 benötigt weniger Energie und damit kann man auch ein Video einmal anwerfen.

Einen kleinen Seitenhieb kann ich mir an der Stelle aber nicht verkneifen an die Community, und zwar allgemein: Wer beim Spielen oder Arbeiten nebenbei ein YouTube-Video auf einem zweiten Monitor schaut, sollte sich eher überlegen, sich dafür ein Tablett anzuschaffen, denn dieses benötigt in der Regel weniger als die RTX 4090 und ein zweiter Monitor und kann damit effektiver auch Energie einsparen, als es die RTX 4090 „alleine“ könnte. Ich nutze für YouTube ein iPad Pro von 2022 mit 13 Zoll, dass für die Darstellung von Netflix, YouTube und Co gerade mal ca. 7 Watt und benötigt damit weniger als der zweite Monitor.

Von Effizienz und Custom-Designs

Im vorherigen Abschnitt ist in der Grafik bereits der Verbraucht bei Spielen mit enthalten: 381 W für die 7900 XTX und 343 W für die RTX 4090. Die RTX 4090 kann in 1440p im Mittel mehr Frames rendern und benötigt dafür auch weniger Energie. Den aufmerksamen Lesern unter euch fällt sofort die 381 W für die 7900 XTX auf, denn eigentlich ist die 7900 XTX bei 350 W TDP limitiert. Weder für RDNA 3 noch Ada habe ich jedoch ein Referenz-Design im Betrieb und daher die kurzen Eckdaten für die beiden Karten, denn bisher haben wir nur Navi31 und AD102:

	XFX Radeon RX 7900 XTX Merc310	Palit RTX 4090 GameRock OC
Chip	Navi 31	AD102
CU / SM	96	128
ROP	192	176
SI	384 Bit	384 Bit
L2-Cache	6 MiB	74 MiB
L3-Cache	96 MiB	-
TDP	390 W	450 W

Während AMD bei Navi31 den Vollausbau nutzt, kommt auf der RTX 4090 ein Teildeaktivierter Chip zum Einsatz. Statt den 12 GPC und 144 SM, wird ein GPC deaktiviert und in zwei GPC eine TPC. XFX erlaubt der 7900 XTX dazu ca. 10 % mehr TDP zu, während die GameRock OC bei 450 W bleibt und wie in anderen Tests zu sehen: AD102 reizt dieses Budget eigentlich nie aus.

Geht man ohne Limit heran – es wird nicht zwischen Rasterizer, RT und PT unterschieden – erreicht die 7900 XTX ca. 0,33 fps/W, die RTX 4090 0,51 fps/W. Die RTX benötigt damit ca. 35 % weniger Energie.

Noch gravierender wird es, wenn wir ein 72 fps Limit setzen und auch FSR/DLSS zeigen an dieser Stelle, dass Ada Lovelace deutlich effizienter agieren kann. 0,41 fps/W stehen 0,73 fps/W entgegen 44 % weniger Energie bei einem 72 fps Limit. Bei FSR/DLSS sind es 42 % oder 0,30 fps/W gegen 0,52 fps/W. Die RTX 4090 gewinnt also bei der Effizienz im Limit und auch bei DLSS/FSR, beides ist im ersten Moment nicht verwunderlich, nimmt man aber die Unterschiede zur Hilfe, dann zeigt sich ein Bild, dass nicht mehr so ganz passt: Der Abstand wird größer. Geht man ohne Limitierung an die Spiele, sind es nur 35 %, bei 72 fps und DLSS/FSR steigert es sich auf über 40 %.

Nimmt man weitere Fakten – zum Beispiel der hohe Idle-Verbrauch bei bestimmten Monitor-Konfigurationen – hinzu, fällt schnell auf, dass gerade in Teillast-Szenarien die 7900 XTX nicht mehr so gut agiert. Ich verweise an dieser Stelle aus meinem Lesertest zur 7900 XTX: „Ich habe es bereits mit FF XIV angedeutet, dass der Verbrauch zwischen 72 fps und 90 fps nicht ansteigt, aber aus 11 % weniger Effizienz dann doch 11 % mehr werden können.“ Und ebenso folgende Stelle: „Solche Faktoren spielen in die Effizienz mit rein und man merkt an dieser Stelle, dass gewisse Lasten einen gewissen minimalen Bedarf haben.“

Gerüchte, Tatsachen und eine Vermutung

Warum Navi 31 unterhalb der Erwartungen liegt, hat in letzter Zeit die Gerüchteküche stark befeuert. Es wurde früh von Hardware-Fehler gesprochen und für mancher Leaker und Twitter-Journalist hatte schnell das Shader-Prefetch in Verdacht. AMD hat das schnell dementiert, da in dem Code nur eine spezielle Funktion deaktiviert wurde, im Ganzen aber dann das Shader Prefetch noch funktioniert. Natürlich hat das manche Twitter-Hardware-Spezialisten nicht abgehalten, eine Zeitlang daran festzuhalten, bis ich mir den Quelltext mal etwas genauer angesehen habe. Also ist eine Baustelle heraus.

Aktuellere Gerüchte gehen nun von einem Hardware-Bug aus, der es verhindert, dass bei Spielen die CU hohe Taktraten erreichen. Computerbase hat dazu auch Tests unter Compute-Lasten ermittelt, in einem OC-Test. Navi31 taktet in Compute-Szenarie wesentlich höher als in Spiele-Szenarien und verhält sich auch anders als AD102.

Bei Spielen erreicht die 7900 XTX ca. 2700 MHz, die RTX 4090 2740 MHz, soweit so normal. Es dreht sich allerdings bei Arbeitslasten, die nichts mit Spielen zutun hat: 2993 MHz gegen 2729 MHz. Navi31 taktet plötzlich 11 % höher, als vorher, während AD102 fast genauso hoch taktet (1 % weniger). Hier stimmt etwas nicht und Tests über verschiedene Medien decken sich. Was ist also los?

Neuere Gerüchte geben nun an, dass etwas in der Render-Pipeline nicht so funktioniert, wie es soll und man mehr Spannung bei weniger Takt braucht, damit es zu keinen Artefakten kommt. Wir gehen an dieser Stelle zur Eingangstabelle zu AD102 und Navi31 zurück und betrachten die Packdichte: 125 mio. Transistoren pro mm² bei AD102 gegen 150 mio. Transistoren pro mm². Ob wirklich ein Bug vorliegt, kann man an dieser Stelle erst einmal hintenanstellen. Navi31 ist im GCD deutlich dichter gepackt als NVIDIA AD102 gepackt hat, nämlich ganze 20 %. Je dichter man Schaltungen packt, um so eher beeinflussen sich die Schaltungen negativ, die Signalintegrität nimmt ab. Man benötigt mehr Spannung, damit die Signale besser werden: Leistungsaufnahme steigt. Hier spielen die Leckströme eine Rolle.

In Anwendungen fällt der Takt 11 % höher aus bei der 7900 XTX, also schaffen die neuen VecALU diesen Takt, die Probleme liegen also nicht direkt in der neuen VecALU, wie man anfangs vermutete, sondern an andere Stelle. Soviel kann man vorwegnehmen. Doch Navi31 hat nicht nur ein Hardware-Problem, sondern auch an einer anderen Stelle.

Grundlast - weniger geht nicht (wirklich)

Auch wenn einige unter euch harte Framelimits sicher hinterfragen werden – die RTX 4090 wird jetzt mit 144 fps betrieben – so sind harte Framelimits hilfreich, um einer Architektur auf den Zahn zu fühlen und wie diese Grafikkarte mit bestimmten Lasten umgeht. Ich habe dafür zwei Spiele genommen: World of WarCraft und Final Fantasy 14. Beide Spiele eigenen sich dazu, auch mal nebenbei gespielt zu werden und entsprechend ist es auch wichtig, dass hier die Grafikkarte auch möglichst sparsam agieren kann, wenn man aus dem Fenster tabt. Daher auch entsprechend niedrig angesetzte Frameraten und hier zeigt sich bei RX 7900 XTX ein Verhalten, dass so nicht wirklich für Navi31 spricht. Im Dezember erreichte ich unter 100 W nur in einem Spiel: Black Mesa, mit ca. 90 W. Es gibt nun für diesen Test zwei Werte, die für alle weiteren Betrachtungen für Navi31 von Relevanz sind: die absoluten Werte für die einzelnen Limits und die relativen Werte zwischen den Settings, nicht zwischen den Grafikkarten.

Bei einem Limit von 18 fps benötigt die 7900 XTX 102 W, die RTX 4090 gerade einmal 39 W. Warum das so ist, merkt man an den Taktraten: 782 MHz gegen 1169 MHz. In Final Fantasy verhält es sich ähnlich:

Die RTX gönnt sich 53, 73 und 122 W, die XTX 107, 129 und 186 W. Erneut benötigt die XTX auch deutlich mehr Takt mit 1325 MHz gegen 824 MHz. Nimmt man nun die 18 fps bei WoW und die 36 fps bei FF XIV als Ausgangsbasis, sieht man die Effizienzsprünge der Karte und das Bild vervollständigt sich:

Bei der 7900 XTX steigt die Effizienz um 75 % beim ersten Sprung, es folgt dann ein Sprung um 179 %, während die 144 fps dann ein Rückgang auf 164 % darstellt. Diese Effizienzsprünge sind gewaltig. Die RTX 4090 agiert maximal 80 % effizienter.

Das Bild zeigt sich auch in FF XIV, auch wenn für die RX 7900 XTX der Gewinn mit 130 % im 144 fps Limit am größten ist und die RTX 4090 nur 74 % hinzugewinnt.

Die RX 7900 XTX hat ein Problem und dieses kann man relativ schnell benennen: Die P-States! Navi31 schafft es nicht unter 1 GHz zu Takten bei Spielen. Es ist für die Karte fast vollkommen egal, ob man 18 fps oder 36 fps in WoW rendern lässt, die Effizienz steigt sofort extrem an.

Neben diesem Anstieg gibt es auch eine zweite Beobachtung bei der RX 7900 XTX: Anders als bei NVIDIA gibt es auch extreme Sprünge bei der Leistungsaufnahme. Während die RTX 4090 relativ gut zwischen den einzelnen Power-States zu fließen scheint, springt bei AMD die Karte grob zwischen den P-States hin und her. Natürlich ist die Leistungsaufnahme im P-State fließend, wird aus einem P-State in einen andere gesprungen, gibt es aber wieder eine feste Untergrenze. Man bewegt sich um die 100 – 150 W, dann springt die Karte auf eine Leistungsaufnahme von 180 – 220 W und dann erfolgt ein Sprung auf 250 – 300 W und anschließend 330 – 390 W.

AMD hat ein P-State-Problem - die ersten Beobachtungen

Was am Anfang als ein spaßiger Vergleich zwischen RX 7900 XTX und RTX 4090 gedacht war, entwickelt sich nun so langsam zu einem Detektivspiel. Während es für Hardware-Bugs bisher nur Indizien gibt, die man mit ein paar Fakten unterlegen kann – wobei leider viele YouTuber nur Hörensagen weitergeben, statt Fakten zu schaffen, mit denen man Indizien schafft – kann man folgendes relativ gesichert jetzt annehmen: Navi31 hat ein Problem mit den Power-States und gewisse Laste erzeugen eine Grundlast, die die GPU in einen bestimmten Power-State zwingt.

Warum? Hier habe ich einen Verdacht, der mit den Taktraten zusammenhängt – der besagte Architekturbug. Es zeigt sich aber auch eine mögliche Antwort dafür, warum Navi31 bei Multi-Monitor-Setups plötzlich 100 W und mehr benötigt und davon auch nicht wirklich wegkommt. Der Treiber schafft es nicht die Karte in einen niedrigeren P-State zu versetzen oder in diesem zu halten.

Das P-State-Problem kann AMD im Treiber angehen, es scheint aber auch so zu sein, dass AMD und die Partner auch noch mal an das VBIOS müssen, damit sie hier die Probleme angehen können. Es ist nichts Tragisches und doch wirft das kein gutes Licht auf Navi31 und offenbart das erste Problem von AMD.

Bei RDNA 4 muss AMD dieses Problem angehen, so dass die GPU auch in niedrige P-States versetzt werden kann und diese auch hält. Ebenso muss AMD an den P-States allgemein arbeiten, damit mehr P-States vorhanden sind, die besser granuliert sind.

Ein weiteres Indiz für ein Hardwarebug und/oder Architekturbug haben wir an dieser Stelle nun auch, denn warum schafft es der Treiber nicht in Spielen niedrige P-States zu erreichen? Bei 2D-Last könnte man noch das neue Chiplet-Design aus GCD und MCD verdächtigen, für die Probleme in Spielen ist das aber zu simpel.

Hardwarebug - wo könnte er sein?

Das es ein Problem in der Hardware gibt, deutet der Taktunterschied zwischen Compute- und Spieleworkload an. Nur kann man dieses Verhalten nicht nur in diesem Fall beobachten, sondern auch in einem weiteren Szenario: FSR/DLSS.

Sobald FSR eingeschaltet wird, taktet die RX 7900 XTX um knapp 100 MHz höher – 4 %, während RTX 4090 auf fast dem gleichen Level bleibt. Sobald die Last auf den ROPs abnimmt, schafft es die GPU höheren Takt und hier kommt der nächste Punkt. Während NVIDIA DLSS selbst ohne Limit oft dazu reicht, dass die Leistungsaufnahme sinkt und damit die Effizienz steigt – CPU-Limit - bleibt bei der XTX die benötigte Leistung auf dem gleichen Level.

Die Last auf den ROPs sinkt bei niedriger Auflösung, entsprechend kann die CU höhere Taktraten erreichen. Ein ähnliches Phänomen kann auch bei RT beobachtet werden. Bei RT steigt die Last auf der CU – TMU und der RT-Kern – und die CU taktete in den entsprechenden Spielen daher in der Regel um ca. 100 MHz niedriger, sobald man Arbeitslast von den ROPs nimmt, taktet die 7900 XTX wieder 100 MHz höher.

Entlastet man die ROPs noch stärker – Path Tracing in Cyberpunk 2077 – erreicht Navi31 in Spielen dann plötzlich sogar 2933 MHz und selbst wenn man die Auflösung durch FSR2 reduziert, steigt der Takt der CU nur noch auf 2945 MHz im Mittel. Die RTX 4090 agiert konstant um die 2740 MHz.

Die Taktraten der 7900 XTX in Cyberpunk 2077 in den drei Modi helfen dabei, die Probleme zu identifizieren. Bisher wurde oft von der CU gesprochen, doch ist das Problem dort? Sowohl die stärkere Belastung auf der TMU und die zusätzliche Belastung durch den RT-Kern lässt den CU-Takt sinken um 100 MHz, hier könnte man den Verdacht bekommen, dass die TMU und RT-Kerne ein Problem sein könnten. Dagegen spricht aber, dass die Taktrate mit der PathTracing-Erweiterung um ganze 200 MHz zu legt – 10 % - und dann mit FSR kaum noch ansteigt. Beim PathTracing sinkt die Last auf die ROPs.

Raster-Operation-Units - Was spricht dafür?

Natürlich sind die Taktraten mit FSR und ohne, aber ebenso auch die von RayTracing und PathTracing nur Indizien. Doch die Indizien werden mit Zahlen untermauert, vor allem wenn man sich die RTX 4090 dazu ansieht.

Werden die ROPs entlastet – FSR – steigt der Takt der GPU. Kommt RT hinzu, sinkt der Takt etwas, da hier der RT-Kern und die TMU stärker belastet werden – in Doom: Eternal ist der Unterschied zum Beispiel ca. 40 MHz und nicht erwähnenswert. Sobald die ROPs fast vollkommen herausgenommen werden, steigt der Takt massiv an.

Das nächste Indiz ist die Effizienzbetrachtung von WoW und Final Fantasy XIV. Es liegt, vollkommen unabhängig der fps, immer mindestens 100 W an. Die ROPs werden hier entsprechend belastet. Ein kurzes Gegenprüfen in 1920 * 1080 bestätigte die Vermutung, aus zeitlichen Gründen fehlt aber die gleiche Intensität, wie bei den anderen Tests bisher.

Noch ein Indiz? Das Idle-Problem im Multimonitor-Betrieb, gerade bei hohen Hz-Zahlen. Auch wenn man es nicht direkt vermutet, für den Desktop sind auch die ROPs zuständig. Werden diese belastet, schaltet die Grafikkarte in bestimmte P-States und es scheint so zu sein, dass die Last auf den ROPs aktuell die P-States durcheinanderbringen kann.

Das letzte Indiz - Raster- gegen Vektor-Operationen

Meine Intention hinter dem Kauf der RTX 4090 war KI und entsprechend wollte ich auch in diesem Test einige Anwendungen einbringen und auch hier zeigt sich etwas, dass für Probleme mit den ROPs spricht. Ein Anwendungstest ist Affinity Photo, der auch die GPU testet und zwar einmal mit Raster-Operationen und Vektor-Operationen und das Bild hier zeigt ein ähnliches Bild, wie bisher: Werden die ROPs belastet, sinkt der Takt der Grafikkarte – 2230 MHz bei 175 W – wird primär die Vektor-Leistung benötigt, erreicht die RX 7900 XTX ca. 3042 MHz bei 165 W.

Auch andere Anwendungen, die nicht die ROP belasten, sondern die CU, zeigen ein ähnliches verhalten, so zum Beispiel Blender Benchmark 3.6: 3100 MHz bei 365 W.

Es sind nur kleine Puzzleteile und die Zahlen liefern nur Indizien für ein Problem, doch die Testreihe bestätigt eine Sache: Etwas läuft bei RDNA 3 nicht rund. Neben Treiberproblemen und vielleicht zu wenigen P-States, zeichnet sich ein Problem mit den ROPs ab. Also ein Problem – wie MLID andeutet – in der Renderpipeline. Ob es nun aber ein Hardwarebug ist, die Schaltungen an der Stelle zu dicht gepackt wurden oder sogar ein Architektur-Bug vorliegt, dass kann ich nicht wirklich beurteilen, dafür müsste man noch viel tiefere Tests vornehmen und dafür habe ich nicht die Zeit.

Und der ganze Rest - KI und Anwendungen

Was als Test geplant war, wurde zu einer Fehlersuche bei der RX 7900 XTX und damit tritt auch nach all den Tests und dem langen Text der Rest etwas in den Hintergrund. Das die RTX 4090 effizienter und schneller ist als die RX 7900 XTX, das ist bekannt. Das muss man an dieser Stelle also nicht noch mal aufarbeiten.

Es gibt für mich nur noch zwei Punkte, die hier relevant sind und die wir in vielen Diskussionen angesprochen haben: AMDs Softwarestack für KI ist unter Linux zwar konkurrenzfähig, doch wer mit möglichst wenigen Problemen und wenig Frickelei direkt mit KI anfangen will, kommt aktuell um NVIDIA nicht herum. Egal ob unter Linux oder Windows. Es funktioniert und das sogar sehr schnell.

Als Beispiel dafür habe ich die 7900 XTX und die RTX 4090 in Stable Diffusion getestet. Die 7900 XTX schafft in meinen Settings ca. 4,8 Iterationen bei der Bildgenerierung bei 388 W, die RTX 4090 schafft 14,6 Iterationen pro Sekunde bei 243 W.

Das Endet darin, dass die die RTX 4090 ca. 5-mal effizienter agiert, als die 7900 XTX.

Welche Macht NVIDIA im professionellen Bereich darstellt, ist allerdings auch bei Anwendungen wie Blender schnell zu merken. Eine 7900 XTX kommt auf ca. 3800 Punkte bei 370 W, die RTX 4090 dank besserem Support und RT-Unterstützung auf 13112 Punkte bei 275 W.

Auch in diesem Beispiel kann die RTX 4090 mit einer überlegenen Effizienz punkten, mit 10 Punkte/W zu 48 Punkte/W.

Diese kurzen Ausschnitte zeigen etwas Wichtiges: NVIDIA hat in den letzten Jahren verstanden, dass sie ihre Grafikkarten nicht nur mehr absolut an Spieler ausrichten, sondern Content-Creator und Entwickler ansprechen, die nicht bereit sind sich eine „Quadro“ zu kaufen oder sich diese nicht kaufen können. AMD vernachlässigt diesen Markt seit Jahren, auch wenn die Radeon Pro günstiger ist als die Quadro – und ja ich weiß, dass es die Quadro nicht mehr gibt, sondern nun nur noch NVIDIA RTX heißen.

AMD muss mit der Zeit hier etwas ändern, wenn sie wieder an Bedeutung gewinnen wollen im PC-Markt. ROCm soll „irgendwann“ für Windows kommen, ein richtiger Schritt. AMD muss allerdings endlich verstehen, dass sie liefern müssen und sich nicht auf die Community verlassen dürfen, denn diese machen nur so viel, wie sie können und die Hürden für Laien sind bei AMD um ein Vielfaches höher. Man kann von einem Künstler nicht verlange, dass er sich mit ROCm, Linux und Co beschäftigt und wie er entsprechend sich AMDs „Faulheit“ zurechtbiegt.

Abschließende Worte

Die RX 7900 XTX ist keine schlechte Karte und in Spielen ist sie aktuell – auch durch den Preis – eine Alternative zu NVIDIA, aber eben auch nur eine Alternative. RDNA 3 hat ein paar Probleme. Die Power-States sind grob und können unter bestimmten Szenarien nicht gehalten werden. Ein Problem, dass AMD mit neuen VBIOS und dem Treiber angehen kann, doch es zeigt sich auch, dass es Probleme auf Hardwareebene gibt und nach den Tests kann ich die Vermutung äußern, dass die Probleme nicht auf CU Ebene liegen, sondern auf der Ebene der Shader-Arrays/Shader-Engine und den dort gelagerten ROPs. Sobald diese belastet werden, nimmt die Leistungsaufnahme zu und der Takt der GPU sinkt.

Ich weiß, dass seit Dezember so mancher Twitter-Leaker und auch YouTuber bereits von Hardware-Bugs bei RDNA 3 gesprochen haben, doch haben sich diese „Journalisten“ immer auf Gerüchte gestützt und nie ihre Vorwürfe wirklich geprüft. Entsprechend war erst das Shader-Prefetech dran, dann die CU und die neuen VecALUs selbst oder eben grob die Render-Pipeline. Was vielleicht genau im Argen liegt? Das hat keiner der großen YouTuber sich angesehen. Ganz ehrlich: So geht Journalismus nicht!

AMD hat für RDNA 4 einige Hausaufgaben zu erledigen und sie werden die Probleme von RDNA 3 angehen müssen. Probleme in den ROPs sind lösbar und wenn AMD weitere Verbesserungen in die CU einfließen lässt und an ihrer RT-Struktur arbeitet, kann AMD mit RDNA 3 4 NVIDIA wieder gefährlicher werden, so reicht es einfach nur für eine Alternative, die ihre Schwachpunkte hat.

Für mich gilt: Der Wechsel zur RTX 4090 für mich ist geglückt und geht gerade bei der KI-Entwicklung mit vielen Verbesserungen einher. 3-fache Geschwindigkeit in Stable Diffussion – was aktuell gerade Freunde und Bekannte freut – und die 5-fache Effizienz? Toll, gerade auch jetzt im Sommer. Dass ich FF XIV und andere Spiele nun auch mal nebenbei laufen lassen kann und die Leistungsaufnahme auf unter 100 W fällt? Wunderbar.

NVIDIA hat mit Ada Lovelace in dieser Generation das rundere und bessere Produkt. Rational betrachtet, spricht in dieser Generation nichts für AMD, es können nur – wie bei mir im Dezember – persönliche Vorlieben sein oder die Neugierde auf neue Technologie.

Und ja, die RTX 4090 ist mit ihrer UVP von fast 1769 € sehr teuer, gute Karten gibt es aber ab 1649,- € und das ist für die aktuell „schnellste“ Karte mit allen Faktoren, durchaus ein fairer Preis. Das Problem ist eher die 4080 mit 1329 €, die für ihre Leistung zu teuer ist und genau hier liegt die Sternstunde für AMD. Die Preise von RDNA 3 sind fairer und gute Modelle der 7900 XTX können jetzt für knapp um die 1000 € ergattert werden. Nur sollte man sich der Schwachstellen bewusst sein und auch bereit sein, darüber hinwegzublicken.

Die Probleme von Navi 31 könnten auch der Grund sein, warum AMD bisher noch nicht Navi 32 vorgestellt hat. Man kann auf Navi 32 gespannt sein und wird dann sehen müssen, ob AMD hier an den Baustellen gearbeitet hat.

Da dieser Test sehr lange wurde, werde ich einen Vergleich von DLSS und FSR mit der Zeit nachreichen, dann auf der RTX 4090.

Der Schluss

Der Test hat sich in eine andere Richtung entwickelt, was ich aber sehr spannend fand, da hier doch einmal die Probleme der RX 7900 XTX ergründet werden konnten. Der Titel ist eine Anspielung auf die Aufregungen bei beiden Karten. Ich hoffe, ihr versteht den Spaß. Am Ende ist der Test aber etwas anders geworden. Teile des Textes entstanden noch unter der alten Prämisse und erst im Lauf hat sich der Bezug zu den Hardwareproblemen begeben.

Ich bedanke mich bei @Taurus104 und @Vitche und @Rockstar85 .

Bei Taurus104, weil er mit seinen Kommentaren meine ersten Vermutungen bestätigte und durch weitere Hinweise mich auf eine neue Fährte brachte.

Bei Vitche, weil er meine nervigen PNs ertragen hat. Es war sehr nett. Mach weiter so und lass dich von der Community nicht ärgern.

Und Rockstar85, weil er meinen Wahnsinn seit gut einem Jahr nun erträgt.

Bilder der XFX Radeon RX 7900 XTX und Palit GeForce RTX 4090 GameRock OC

Intruder · 16. Juli 2023

Vielen lieben Dank dafür. Sehr sehr interessanter Bericht 👍 🙂

H3llF15H · 16. Juli 2023

Genug Text um auf mein Schaschlik zu warten. Vielen Dank für deine Mühen ✌🏼

Rickmer · 16. Juli 2023

Vielen Dank fürs teilen deiner Mühen. Das war extrem interessant zu lesen.

DevPandi · 16. Juli 2023

Ach, das hab ich in dem Fall gerne gemacht und ich hoffe, dass ich damit den "Gerüchten" etwas mit mehr Substanz entgegensetzten kann.

Mich hat es echt gestört, dass unsere "Großen" Twitterer und YouTuber immer nur irgendwelches Hörensagen weiter geben, das aber dann nicht als Ausgangspunkt für wirklich journalistische Arbeit nutzen.

Hier muss man echt den Hut vor @Wolfgang, @Jan @Volker ziehen, die zumindest in dem Umfang ihrer Möglichkeiten auch versuchen Fakten zu schaffen und nicht einfach nur Gerüchte wiedergeben.

Genauso muss man hier großen Respekt vor Igorslab zum Ausdruck bringen. Er versucht auch oft Gerüchte und das, was er dann aus Quellen erfährt, noch einmal mit Zahlen zu belegen.

Beide - Computerbase und Igorslab - haben ein hohes journalistisches Niveau. Es mag zwar nicht immer unserer Meinung entsprechen, es mag uns auch so vorkommen, als würden sie einen der Hersteller besser/schlechter behandeln, aber das liegt eher an uns.

Auch PCGamesHardware und Hardwareluxx sind, was Hardware-Tests angeht, gut, aber das Niveau der beiden Redaktionen könnte noch etwas besser werden, was den Umgang mit Gerüchten angeht und der darauf aufbauenden Arbeit.

HierGibtsNichts · 16. Juli 2023

DevPandi schrieb:
der Support für RDNA3 ist aber noch kein Bestandteil in ROCm 5.6 und wird erst in Zukunft kommen

Erstmal ein absoluter Premium-Artikel. Für solch eine Qualität in allen Bereichen, wäre ich sogar bereit Geld in die Hand zu nehmen um dies wieder zu genießen. Ich bin wirklich sehr beeindruckt. Herzlichen Dank für deine Arbeit und Mühe.

Ich danke dir außerdem für die Erwähnung und ich habe gerne geholfen, wenn ich auch gerne mehr getan hätte, was aus verschieden Gründen nicht möglich war/ist.

Anmerkung: der Support für RDNA 3 in ROCm 5.6 folgt ganz offiziell im Herbst 2023 für Windows und Linux. Soweit in der Zukunft ist es also nicht mehr.

Etwas worauf ich mich auch persönlich sehr freue.

DevPandi schrieb:
AMD hat für RDNA 4 einige Hausaufgaben zu erledigen und sie werden die Probleme von RDNA 3 angehen müssen

2024 erwartet und Stand jetzt, wenn, dann RDNA 3.5. RDNA4 wird noch eine Weile auf sich warten lassen.

DevPandi · 16. Juli 2023

Taurus104 schrieb:
wenn ich auch gerne mehr getan hätte, was aus verschieden Gründen nicht möglich war/ist.

Alles gut. Ich kenne das, wenn man für eine Firma arbeitet und nicht alles verraten darf, man aber auch versucht, die Leute zu beruhigen. Mir hat das geholfen, dass ich mir noch mal weitere Daten ansehe, die ich erfasst habe und daraus entsprechende Schlüsse ziehen kann.

Für mich ist es wichtig, dass die Gerüchte nicht mehr nur auf Hörensagen reduziert werden, sondern dass man auch ein paar handfestere Argumente hat, mit denen man Indizien vorbringen kann.

Taurus104 schrieb:
2024 erwartet und Stand jetzt, wenn, dann RDNA 3.5. RDNA4 wird noch eine Weile auf sich warten lassen.

Wenn AMD mit RDNA 3.5 die Probleme mit den P-States und bei den Rasterizer in den Griff bekommt, dann hat AMD schon sehr viel gewonnen und die Architektur kann mit Ada auf Augenhöhe agieren, was Rasterizer angeht.

konkretor · 16. Juli 2023

Danke für diesen tollen Beitrag.

Tharan · 16. Juli 2023

Grandios! Herzlichen Dank für den Artikel, ihn zu lesen hat mir mit viel Freude auch einiges an Einseicht verschafft.

andi_sco · 16. Juli 2023

@DevPandi

ComputerJunge · 17. Juli 2023

Vielen herzlichen Dank für diesen Artikel - für mich eine Referenz für Enthusiasmus!

Als interessierter Laie frage ich mich, warum diese Probleme nicht in den Emulationen aufgefallen sind.
Ist es nicht gerade der Zweck solcher rechenintensiven funktionaler Tests, solche "Klopper" vor der Maskenerstellung auszuschließen?

DevPandi · 17. Juli 2023

ComputerJunge schrieb:
Vielen herzlichen Dank für diesen Artikel - für mich eine Referenz für Enthusiasmus!

Bitte gerne doch. Es hat auch viel Spaß gemacht mal Detektivin zu spielen. Wobei ich fair sein muss, dass die ersten Thesen erst mal zu den Power-States gingen, was ich ja bestätigt hat mit Final Fantasy 14.

Erst anschließend - eben mit dem Hintergedanken, dass die P-States nicht so funktionienen und da etwas dazwischen Funkt - hab ich mir den Takt bei den einzelnen Spielen angesehen und hatte die nächste Auffälligkeit. Anschließend hab ich mir mal Direct2D angesehen und wo da die Lasten erzeugt werden und auch Affinity Photo und welche Funktionen da der Benchmark beim Rastizer GPU aufruft.

Das waren dann die ganzen Puzzleteile, die man zusammenfügen muss. Genauso was die Auslastung beim Desktop angeht und wenn da das System in eine "Hysteresis" abgleitet und genau das Passiert beim Multimonitor-Setting scheinbar, weswegen man in einem der höheren Power-Stages geht, der eben diese 100 W minimal Last erzeugt.

ComputerJunge schrieb:
Als interessierter Laie frage ich mich, warum diese Probleme nicht in den Emulationen aufgefallen sind.

Wie mein Vater mal so schön sagte: Theorie und Parxis sind zwei paar Schuhe. Simulationen können heute viel abdecken, am Ende bleibt aber immer eine Restwahrscheinlichkeit, dass etwas nicht stimmt.

Wir können - stand jetzt - nur schreiben, dass irgendwo bei den ROPs "ein" Problem vermutlich besteht. Es könnten aber noch weitere dazu kommen.

Aber dafür bräuchte ich viel viel mehr Zeit, nur die würde keiner bezahlen, entsprechend ist die Karte jetzt bei einem neuen Besitzer und ich spiele mit KI rum!

ComputerJunge · 17. Juli 2023

DevPandi schrieb:
Theorie und Parxis sind zwei paar Schuhe. Simulationen können heute viel abdecken

Ich hätte nur erwartet, dass gerade so etwas Fundamentales wie die P-State-Orchestrierung in diesen Simulationen komplett validiert werden könnte. Offensichtlich wohl die erste Ausnahme von dieser Regel, die es dann zu AMDs Leidwesen "bis in den Verkauf" geschafft hat. Das sind dann glühende, und nicht nur heiße Herdplatten. Sie werden ganz sicher daraus lernen.

Viel Spaß mit der KI. An Stable Diffusion will ich mal im Herbst versuchen (aktuell geht die spärliche "Rechenzeit" in Diablo 4 ;-) ).

DevPandi · 17. Juli 2023

ComputerJunge schrieb:
An Stable Diffusion will ich mal im Herbst versuchen

Aktuell erfülle ich viele Wünsche für Freunde und das ist schon toll, wenn man 10 Bilder in 2048 * 2048 in ca. 2 Minuten erstellen kann.

Die RX 7900 XTX schafft zwar die 10 Bilder in ca. 5 Minuten, scheitert aber oft beim Skalieren.

Colindo · 18. Juli 2023

Toller Artikel! Wäre natürlich spannend zu wissen, ob AMD auch die ROPs im Verdacht oder eventuell schon einen anderen Fehler ausfindig gemacht hat. Ich hoffe, dass es zukünftig behoben wird und habe mich mit RDNA 2 für mein Upgrade begnügt.

DevPandi · 18. Juli 2023

Colindo schrieb:
Wäre natürlich spannend zu wissen, ob AMD auch die ROPs im Verdacht oder eventuell schon einen anderen Fehler ausfindig gemacht hat.

Ich würde da ja jetzt zu gerne Mäuschen spielen!

Colindo schrieb:
Ich hoffe, dass es zukünftig behoben wird und habe mich mit RDNA 2 für mein Upgrade begnügt.

Das werden die sicher hingebogen bekommen. Hier ist vermutlich einfach was im finalen Chip-Design schiefgegangen.

Xaphyr · 24. Juli 2023

Mega guter Artikel, es lebe der Wahnsinn!

Tyrunur · 24. Juli 2023

Vielen Dank für diesen herausragenden Beitrag. Solche Detailfragen zu erörtern die sich die Meisten von uns nicht selbst beantworten können, aber die uns brennend interessieren, ist große Klasse! Respekt! ❤️

Tornavida · 24. Juli 2023

DevPandi schrieb:
NVIDIA hat mit Ada Lovelace in dieser Generation das rundere und bessere Produkt. Rational betrachtet, spricht in dieser Generation nichts für AMD, es können nur – wie bei mir im Dezember – persönliche Vorlieben sein oder die Neugierde auf neue Technologie.

That´s what i say and care. Schöner Artikel.

Zudem zahle ich keine 800,-+ für eine (für mich schlechte) Alternative sondern greife dann zum besseren Produkt wenn ich mir Highend leisten möchte. Wenn ich das nicht kann oder möchte schaue ich mich eher ein bis zwei Regale darunter um als einen 800 Euro+ Kompromiss einzugehen.
Das schlechtere und unrundere Produkt würde ich im Einstiegsbereich bei einem signifikanten Preisvorteil in Erwägung ziehen egal von welchem Anbieter. Je teurer so eine "schlechtere" Karte desto höher der Wertverlust ganz abgesehen vom schwierigeren Verkauf bei einem späteren Upgrade.

t3chn0 · 24. Juli 2023

Fantastisch!

Sehr gut zu lesen, sehr strukturiert und fundiert.

Vielen Dank für den Einblick =).

Leserartikel Kühler- gegen Steckergate: DevPandis Hin und Her

Redakteur

Inhaltsverzeichnis​

Oder: Wie ein neues Hobby alles verändert und am Ende eine Detektivgeschichte daraus wird!

Der Overlord ist schuld, oder: Wie ein neues Hobby den Blick verändert

Spiele, Spiele, SPIELE!

Vergleich, Vernichtung oder Analyse - Was wird euch erwarten

Wissenschaftlerin und der Fisch

Vom Streaming-Multiprocessor und Compute-Unit …​

… über die Workinggroup-Processor und Texture-Processing-Cluster …​

… zu dem Graphic-Processing-Cluster und den Shader-Engines in der GPU​

Altbekannt und daher am Anfang

Von Effizienz und Custom-Designs

Gerüchte, Tatsachen und eine Vermutung

Grundlast - weniger geht nicht (wirklich)

AMD hat ein P-State-Problem - die ersten Beobachtungen

Hardwarebug - wo könnte er sein?

Raster-Operation-Units - Was spricht dafür?

Das letzte Indiz - Raster- gegen Vektor-Operationen

Und der ganze Rest - KI und Anwendungen

Abschließende Worte

Der Schluss

Anhänge

Captain

Vice Admiral

Fleet Admiral

Redakteur

HierGibtsNichts

Gast

Redakteur

Vice Admiral

Lieutenant

Legends of Tomorrow

Captain

Redakteur

Captain

Redakteur

Redakteur

Redakteur

Lieutenant

Cadet 1st Year

Commodore

Admiral

Ähnliche Themen

Inhaltsverzeichnis

Vom Streaming-Multiprocessor und Compute-Unit …

… über die Workinggroup-Processor und Texture-Processing-Cluster …

… zu dem Graphic-Processing-Cluster und den Shader-Engines in der GPU