Leserartikel Kühler- gegen Steckergate: DevPandis Hin und Her

spw · 26. Juli 2023

Danke für den Test. Die 4090 ist viel zu teuer für das Gesamtpaket. Wenn X Fire/ SLI noch unterstützt werden würde, dann 2x 7900XT und ab geht die Post ! Wäre wie damals oft, DER Preis/Leistungskracher.
Ja es gibt derzeit 2x 7900Xt für eine 4090-

bad_sign · 27. Juli 2023

Warum habe ich diesen Test nicht fürher gesehen^^
Awesome, fettes Daumen hoch 👍

Es wäre schon cool, wenn in ein paar Jahren sich jemand von AMD meldet und auf die Probleme im Detail eingehen würde.

eastcoast_pete · 28. Juli 2023

DevPandi schrieb:
Wenn es funktioniert, benötigt das wesentlich weniger Energie. Gleichzeitig steigt bei Spielen aber etwas die Latenz an, da die Monitore dafür an das Mainboard müssen und das Bild von der GPU dann geroutet werden muss.

Das stimmt allerdings auch! Und jedesmal umstellen müssen wenn man dann doch die kurzen Latenzen fürs Spielen haben will wird auch schnell lästig.

Und, eines von den vielen Dingen die mir beim Lesen Deines detaillierten Artikel auch wieder in den Sinn gekommen ist: wie wohl die meisten unter uns habe ich (im Normalfall) eben nur eine dGPU zur selben Zeit. Und die muß dann eben ein echter Alleskönner sein, und das hat Nvidia deutlich besser drauf als AMD; leider. "Vor Jahren"™ hätte ich das Gefrickel mit Treibern, Software usw selbst auf Vordermann zu bringen vielleicht noch gemacht, aber jetzt ist es mir die Zeit dafür nicht mehr wert. Mit einer Nvidia Karte ist die Wahrscheinlichkeit, daß sie genau das tut was man damit machen will, einfach größer. Allerdings lässt Nvidia sich das auch entsprechend bezahlen. Wenn AMD da gleichziehen kann, wird's dann vielleicht doch wieder eine Radeon.

kiffmet · 28. Juli 2023

@DevPandi
Danke für den detaillierten Test!
Hier mal meine Gedanken bezüglich RDNA3:

Das Verhalten, dass der Takt in Compute deutlich höher liegt, als in 3D Workloads, gibt es seit Vega. Dort waren es auch gerne mal 100-200Mhz mehr - bei einem überraschend geringen Stromverbrauch - sobald die 3D Engines dazu kamen, begann die Architektur Strom zu ziehen, als gäbe es kein Morgen.

Dass bei der Nutzung von FSR und PT der durchschnittliche Takt ansteigt, ist insofern nicht verwunderlich, alsdass der Compute-Anteil am Gesamtworkload größer wird.

Der Command Processor könnte auch beteiligt sein, taktet dieser doch bereits aus Energieeffizienzgründen niedriger, als die Shader, und hat gleichzeitig durch die Steigerung an CUs und Prim. Units mehr Stress - dieser wird bei Compute-Invocations übrigens durch die ACEs umgangen.

Was bei PT dazu kommt, ist, dass selbst bei Nvidia (ohne SER, in Cyberpunk) nur etwas mehr, als ein Drittel der ALUs effektiv genutzt wird, da es sich um hochgradig divergenten und konditionalen Code handelt - es kommt also zu "Lane Masking", einer sequenziellen Abarbeitung der Branches, und häufigen Fällen, wo sich kein ganzzahliges vielfaches von 32 bzw. 64 Elementen an Arbeit an die SMs/WGPs verteilen lässt.

Die TMUs/RT-Kerne und ROPs sind alle stark vom Speichersubsystem abhängig - evtl. liegt hier der Wurm begraben, v.a. nachdem RDNA3 in diesem Bereich ja doch sehr große, architektonische Änderungen erfahren hat.

Ein weiterer Hinweis für derartige Probleme liefert der Entwicklungszweig der Linux-Kernel-Treiber. Besonders die Fixes für den DCN sind Aufschlussreich, und nebenbei eine Erklärung für den hohen Idle-Verbrauch, insbesondere im Multimonitorbetrieb - SOC, IF und IMC scheinen Probleme damit zu haben, das Clock- und Powergating zu aktivieren;

auch die Berechnung der benötigten, internen u. externen Bandbreite für bestimmte Auflösungen/Refresh Rates und Monitorkonstellationen scheint noch nicht in allen Fällen zu funktionieren, wie auch die firmwarebasierte Anpassung des Speichertaktes und Besonderheiten, die sich durch FreeSync ergeben.

Core, SOC und IF P-States sollte an sich die Firmware regeln; hier gibt es keine geringe Anzahl an diskreten Punkten mehr, sondern eine Kurve, anhand derer dutzende P-States generiert werden, was für alle praktischen Belange einem Kontinuum entspricht.

Was obendrauf noch dazu kommen könnte ist, dass eines, oder mehrere dieser Elemente eine unerwartet hohe Floor-Voltage benötigt - in dem Fall ist der einfachste Workaround das Abscheiden des linken Teils der Kurve, was den hohen Takt u. Verbrauch bei künstlich limitierter Framerate erklären kann. Zwischen den P-States der einzelnen IP-Blöcke kann es außerdem Abhängigkeiten geben - wenn der DCN hier schon Probleme hat, dann könnte dies auch auf andere Elemente zutreffen.

DevPandi · 29. Juli 2023

kiffmet schrieb:
Dort waren es auch gerne mal 100-200Mhz mehr - bei einem überraschend geringen Stromverbrauch - sobald die 3D Engines dazu kamen, begann die Architektur Strom zu ziehen, als gäbe es kein Morgen.

Nur können wir GCN/Vega hier nicht als Vergleichsbasis nehmen, sondern müsste uns eher RX 5000er und die 6000er als Referenzpunkt.

kiffmet schrieb:
Dass bei der Nutzung von FSR und PT der durchschnittliche Takt ansteigt, ist insofern nicht verwunderlich, alsdass der Compute-Anteil am Gesamtworkload größer wird.

FSR würde ich an der Stelle auch etwas ausklammern aus der Betrachtung, PT ist hier die interessantere Betrachung, weil hier die fast vollständig heraus genommen werden. Hier steigt der Takt eben deutlich an und hier ist die interessante Betrachtung folgende - hätte ich ggf. besser heraus arbeiten müssen:

Sobald man RT aktiviert, sinkt der Takt ein Stück, was man auch damit erklären kann, dass die TMU stärker belastet werden, da diese die BVH-Abfragen übernehmen. Da nun mehr Last erzeugt wird, sinkt der Takt "minimal". In meinen Messungen - gerade aus dem Kopf - liege einmal 2700 an, es fällt auf 2600 runter mit RT und steigt dann auf 2950, wenn die ROPs heraus sind.

kiffmet schrieb:
Die TMUs/RT-Kerne und ROPs sind alle stark vom Speichersubsystem abhängig - evtl. liegt hier der Wurm begraben, v.a. nachdem RDNA3 in diesem Bereich ja doch sehr große, architektonische Änderungen erfahren hat.

Das ist durchaus eine weitere Möglichkeit, meine Vermutung schließt deine Vermutung nicht aus, sondern geht eventuell auch noch mal ein Stück weiter.

Nur müssen wir hier dann betrachte: Warum fällt der Takt massiv ab, sobald die ROPs verwendet werden - auch im Zusammenhang mit dem Speichersubsystem, während es bei einer relativ starken Last auf den TMU und RT-Kernen nicht so ist? Ich bin da gerade Spitzfindig.

Der releveante Punkt für mich ist - und ich hab es auch mit Direct2D-Calls auch zumindest nachvollziehen können: Sobald man die Last auf die ROPs erhöht, steigt die Leistungsaufnahme relativ stark an und der Takt geht runter.

kiffmet schrieb:
Ein weiterer Hinweis für derartige Probleme liefert der Entwicklungszweig der Linux-Kernel-Treiber. Besonders die Fixes für den DCN sind Aufschlussreich, und nebenbei eine Erklärung für den hohen Idle-Verbrauch, insbesondere im Multimonitorbetrieb - SOC, IF und IMC scheinen Probleme damit zu haben, das Clock- und Powergating zu aktivieren;

Nun ja, die Fixes für den Linux-Kernel-Treiber und auch das, was du zum jetzigen Zeitpunkt schreibst, widersprechen meinem Verdacht nicht. Es könnten zwei Probleme sein oder nur eines. Das werden wir aber so genau nie erfahren.

Ich hatte nur die letzten Tage die nette Mitteilung, dass mein Näschen mich in die richtige Richtung geführt hat. Für eine tiefere Analyse fehlen mir sowohl die Zeit als auch die Ressourcen und ein Dev-Board und damit dann auch verbunden zum jetzige Zeitpunkt das Know-How. Das Know-How kann man sich dann mit Experimenten aneignen, aber am Dev-Board mit den passenden Schnittstellen und die entsprechende Software.

kiffmet schrieb:
Core, SOC und IF P-States sollte an sich die Firmware regeln; hier gibt es keine geringe Anzahl an diskreten Punkten mehr, sondern eine Kurve, anhand derer dutzende P-States generiert werden, was für alle praktischen Belange einem Kontinuum entspricht.

Jaein, du hast natürlich recht, dass es eigentlich keine dedizierten P-States mehr gibt, da diese eigentlich über eine Kurve fließend ineinander übergehen sollten.

Nur konnte ich genau dieses Verhalten eben nicht wirklich nachstellen auf der RX 7900 XTX und hatte entsprechende Sprünge in der Leistungsaufnahme. Was ich gemessen hatte "Overall" entsprach eher einer Kurve mit Stufen dazwischen. Innerhalb der Abschnitte hat sich die 7900 XTX auch so verhalten, wie man es erwarten würde, nur gab es dann immer wieder Spürnge (also die Stufe) in der die Leistungsaufnahme plötzlich stärker stieg, als es die jeweilige Framerate erwarten lässt.

AMD muss am Treiber für RDNA 3 weiter arbeiten, sie werden auch einige aktuelle Probleme noch in den Griff bekommen, aber nach den Erfahrungen bin ich einem "Hardwarebug" nicht mehr ganz so abgeneigt gegenüber.

AGB-Leser · 30. Juli 2023

Kranker Scheiß, aber richtig interessant.
Ich hätte mir auch gerne eine 4090 gegönnt, da hat Nvidia wieder richtig abgeliefert. AMD scheißt halt auf die Oberklasse und die letzte Optimierung, die verkaufen einfach über den Preis. Das wird eben in Mobilgeräten zum Problem (ausgenommen Tesla), aber in Konsolen halt nicht. Und was andere geschrieben haben: ja, dass professionelle Programme AMD blockieren kommt sicher nicht von fehlenden Funktionen seitens AMD.

Ich nutze aber hauptsächlich Linux und bin da eher an AMD gebunden, vor allem wenn der Rechner schon etwas älter ist, führt kein Weg an AMD zur Aufrüstung dran vorbei. Nvidias Treiber blockiert ja leider die Hardwarebeschleunigung in zB Firefox und das geht garnicht.

Danke dir für den tollen Einblick

janer77 · 1. August 2023

Kam jetzt erst zum lesen...

Schöner Test bzw. Bericht und gut zu verstehen bzw. nachvollziehbar. Spannend und neugierig auf die nächsten Abschnitte machend geschrieben! Und das ganze belegt mit Werten, die die Vermutungen untermauern. Gefällt mir! Glückwunsch unter weiter so!

Majestro1337 · 16. August 2023

Danke @DevPandi für den Test und die ausführliche Erörterung der Schwachstellen von RDNA3.
Ich war kurz davor nur eine 7900XTX + Eiswolf 2 zuzulegen, aber der Artikel hat mich jetzt umdenken lassen.
Zwar spiele ich die meiste Zeit DCS World und die 16 GB vram meiner aktuellen 6900xt reichen nicht für die vielen Texturen (ja, ich will gefälligst auf high spielen!) damit die nicht ständig hässlich reinploppen und die 24 GB wären ein segen, aber ich spiele auch gerne Indie Spiele die definitiv nur Teillast verursachen und hab keine Lust da unmengen Energie zu verschwenden. Nicht bei dem Preis. Sind mir einfach zu viele Kompromisse.
Ich warte also ab und hoffe Mal, dass sich sich die Gerüchte um den gecancelten top chip bei RDNA4 nicht bewahrheiten.

DevPandi · 21. August 2023

So, jetzt hatte ich auch mal wieder Zeit alle Kommentare zu lesen.

spw schrieb:
Die 4090 ist viel zu teuer für das Gesamtpaket.

Das kommt darauf an, wie du an die Sache gehst und was für dich wichtig ist. Da ich die Karte nun auch beruflich verwende, dann relativiert sich das etwas. Eine RTX 6000 kostet - quasi Vollausbau - ca. 6000 - 7000 €. Benötigt man die Rechenleistung in KI und Co, dann ist die 4090 sogar relativ günstig.

spw schrieb:
Ja es gibt derzeit 2x 7900Xt für eine 4090

Aktuell - also heute - kostet eine 7900 XT im Schnitt ca. 800 €, also 1600 €. Dafür gibt es schon gute RTX 4090. Die 7900 XT ist in FHD 27 % langsamer, in WQHD sind es bereits 42 % und UHD sind es 53 %. Nimmt man eine optimale Skalierung an - also ca. 90 % - dann kommt man hier am Ende auf ca. 24 % Vorsprung in UHD und bei WQHD von 33 %.

Die 7900 XT alleine benötigt ca. 320 Watt, wir kommen also auf 640 W. Die 4090 rennt aktuell im Mittel bei 400 - 420 W bei den Spielen und reizt die 450 fast nicht aus. Ein Gespann von 7900 XT benötigt dann 50 % mehr Energie. Das ist nicht unbedingt gut.

Da CrossFire und Co aber in der Regel nicht perfekt skalieren, kann man eher mal eine Spanne von 50 - 90 % ansetzen und dann sind die zwei 7900 XT nicht mehr so interessant.

bad_sign schrieb:
Es wäre schon cool, wenn in ein paar Jahren sich jemand von AMD meldet und auf die Probleme im Detail eingehen würde.

Das werden sie in der Form wohl nicht wirklich machen, denn man könnte ihnen daraus einen Strick drehen und viele Kunden der 7900 XTX und 7900 XT könnten auf Nachbesserung bestehen.

eastcoast_pete schrieb:
Und die muß dann eben ein echter Alleskönner sein, und das hat Nvidia deutlich besser drauf als AMD;

Zum jetzigen Zeitpunkt: Ja. Man wird mal sehen müssen, wie sich ROCm "for Windows" dann schlägt.

eastcoast_pete schrieb:
"Vor Jahren"™ hätte ich das Gefrickel mit Treibern, Software usw selbst auf Vordermann zu bringen vielleicht noch gemacht, aber jetzt ist es mir die Zeit dafür nicht mehr wert.

Wenn man die Zeit hat und das Interesse, macht das Spaß, wenn man aber für was anderes bezahlt wird, dann ist Nvidia aktuell die bessere alternative.

Majestro1337 schrieb:
Ich war kurz davor nur eine 7900XTX + Eiswolf 2 zuzulegen, aber der Artikel hat mich jetzt umdenken lassen.

Was durchaus auch eine gute Wahl ist.

Majestro1337 schrieb:
aber ich spiele auch gerne Indie Spiele die definitiv nur Teillast verursachen und hab keine Lust da unmengen Energie zu verschwenden.

Das ist genau der Punkt, an dem ich jetzt das erste Mal auch geschluckt habe. Ich war mir dessen so nicht bewusst am Anfang. Das gerade bei Indiespielen und Co aber gerne mal 100 - 150 W durch die Grafikkarte geht, statt vielleicht 50 - 100 W. Das ist zwar auf die Stromkosten gesehen ein Witz, aber gerade im Sommer, wenn man doch mal spielen will - ich bin jetzt gerade krank, da wird es einem schnell langweilig - macht sich das schon bemerkbar in der Wohnung.

Majestro1337 schrieb:
Ich warte also ab und hoffe Mal, dass sich sich die Gerüchte um den gecancelten top chip bei RDNA4 nicht bewahrheiten.

Ich denke, AMD wird sich 2025 auch eher mit einem 5080 anlegen, als der 5090. In dem Bereich kann man "mehr" verdienen. Wenn AMD für sich die Schallmauer bei 999 $ setzt, dann ist das gut.

Sollte es so kommen, wie manche andeuten, dann könnte es auch passieren, dass AMD eine Grafikkarte mit GCD + MCD bis ca. 999 $ ansetzt und die 5090 ggf. mit GCD + GCD + MCD "angreift". AMD müsste dann gar keinen Top-Chip mehr erstellen.

Man wird hier abwarten müssen, was nun wirklich kommt. Aber das wird schon werden.

AGB-Leser · 21. August 2023

Egal wie, Hauptsache mehr als 16GB Arbeitsspeicher und eine gute integrierte Interpolation, da die Entwickler immer weniger Zeit für eine richtige Programmierung haben

Ultharandor · 26. Oktober 2023

Für mich eher traurig ist das die ADA Karten die noch einigermaßen bezahlbar sind auch ungefähr meine Ziel FPS erreichen mit
12GByte VRAM schon leicht veraltet sind.
Mit 16 GByte wären 4070 und 4070Ti die Karten meiner Wahl.

exbmu · 27. Oktober 2023

Wirklich geiler Test, ich hatte auch eine Asus 7900XTX drin für zwei Wochen, statt ner MSI 3080 und Sie musste retour, zu Hoch der Verbrauch, vor allem beim Konsum von Youtube.

Was auch wirklich stört und nirgends erwähnt wurde, bei Multi-Monitor usage, wenn der Treiber "baden" geht sind die ganzen Fenster wie wild durcheinander gewürfelt irgendwo am Desktop verstreut. Passiert nie bei Nvidia. NIE.

Da ich selbst auf einem Monitor 1440p Spiele aber "dicke" Solo-Games lieber am Oled auf 4k 120hz Spielen möchte gibt es fast keinen Ausweg für mich und meine Wünsche und Ich muss wohl eine 4090 kaufen.
Ich warte mal den Blackfriday ab, eventuell auch Q1 2024 wegen Neu Vorstellungen und Ngreedia Super refresh, maaaaal sehen

Und Danke für diesen tollen Beitrag! @DevPandi

Robman86 · 27. Oktober 2023

@DevPandi
Erstmal ein großes Kompliment für den tiefgründen Artikel / Test. 👍

DevPandi schrieb:
Das Problem ist eher die 4080 mit 1329 €, die für ihre Leistung zu teuer ist und genau hier liegt die Sternstunde für AMD

Trifft aber maximal zu, wenn man die Grafikkarte auch für Productivity einsetzt, oder? (im Vergleich zur 4090)

Ich habe mir mal die letzten Spiele-Tests von Computerbase angeschaut und führe die auf, wo eine 4080 und 4090 mit getestet wurden (Upscaling kam stets zum Einsatz, was ja aber auch Sinn macht):

Lords oft he Fallen
4090: 81,9 fps
4080: 64,0 fps (21,9% weniger)

Assassin`s Creed Mirage (edit: ohne Upscaling)
4090: 100,1 fps
4080: 79,7 fps (20,4% weniger)

Cyberpunk 2077: Phantom Liberty:
4090: 80,7 fps
4080: 64,4 fps (20,2% weniger)

Starfield
4090: 86,0 fps
4080: 69,1 fps (19,7% weniger)

Durchschnitt: 20,6% @ UHD & DLSS verringere Leistung (edit: Mirage wurde ohne Upscaling getestet, was das Ergebnis natürlich nicht verschlechtert, im Gegenteil!)

Sicherlich weniger, als die meisten so im Kopf haben. In geringeren Auflösungen ist der Unterscheid möglicherweise noch geringer - habe ich mir jetzt nicht angeschaut - zumindest ohne Upscaling dürfe es definitiv so sein.

Nun zu den Preisen:

Preise FE:
4090: 1.799 Euro
4080: 1.329 Euro (26,1% günstiger)

Preise Custom Modelle (Geizhals Stand Heute)
4090: ab 1.779,99 Euro
4080: ab 1.180,48 Euro (33,7% günstiger)

Fazit:
Wenn es lediglich um Gaming geht, bietet die 4080 das bessere Preisleistungs-Verhältnis. Möglicherweise war das nicht schon von Anfang so, weiß ich jetzt nicht, jetzt aber definitiv.
Natürlich gibt es so einige, die stets einfach das beste kaufen. Ich kann das verstehen und jedem das seine (auch ich hatte schon eine 4090 weil ich zu Anfang nicht widerstehen konnte).
Grundsätzlich ist ja aber eigentlich auch bekannt, dass das schnellste Produkt nicht dafür berühmt ist, gleichzeitig das beste Preisleistungs-Verhältnis zu bieten.
Ganz nüchtern betrachtet ist somit für die meisten die 4080 für UHD das "bessere" Produkt, DLSS sei Dank (bei UHD finde ich selbst das DLSS "Perfomance" Profil sehr sehr gut, ich kann - vor allem beim aktiven Spielen - da keine/kaum Unterschiede erkennen. Und "Balanced" als Zwischenstufe zwischen "Quality" und "Perfomance" steht ja auch noch zur Auswahl).
Mit der 4080 ist man gleichzeitig auch in der Lage, alle Spiele, die man in UHD mit >= 120 fps spielen "sollte" (Shooter u. ä.), mit diesen fps auch zu spielen. Alle Spiele natürlich nicht, aber das klappt selbst mit der 4090 nicht durchgängig (auch nicht mit DLSS Perfomance). Beispiel Lords of the Fallen mit Unreal Engine 5 usw. - hier muss man wohl auf eine 5090 o. ä. warten.

edit:
Die Benchmarks sind ohne Ray-Tracing. Mit Ray-Tracing ist das Verhältnis (P/L) wieder relativ identisch, da hier die 4090 minimal stärker ist. Computerbase hat aber stets recht "starkes" Ray-Tracing aktiviert. Ich beispielsweise nutze meistens nur einen Teilbereich davon, und dann auch meist "Perfomance" statt "Quality" (sofern die Ray-Tracing-Abstufungen in dem Spiel so heißen). Es kommt also total drauf an.
Und man muss auch sagen, dass als DLSS Stufe "Quality" benutzt wurde, sprich 2560x1440. Bei "Balanced" oder "Perfomance" (sogar nur 1920x1080) könnte es auch wieder ein paar Prozentpunkte zu Gunsten der 4080 gehen, zumal wir uns allgemein näher am CPU-Limit befinden.
Wie man sich am Ende auch entscheidet - beides sehr gute GPUs. Die 4080 scheint jedoch das minimal bessere P/L zu bieten (wenn man es auf Gaming bezieht und bei Nutzung von Upscaling/DLSS). Insbesondere bei den Custom Modellen kann man sehr viel sparen.

Suche

Leserartikel Kühler- gegen Steckergate: DevPandis Hin und Her

spw

Lt. Junior Grade

bad_sign

Rear Admiral

eastcoast_pete

Commander

kiffmet

Lt. Commander

DevPandi

Mangoverputzer*in

AGB-Leser

Rear Admiral

janer77

Rear Admiral Pro

Majestro1337

Commander Pro

DevPandi

Mangoverputzer*in

AGB-Leser

Rear Admiral

Ultharandor

Ensign

exbmu

Cadet 3rd Year

Robman86

Lt. Junior Grade

Ähnliche Themen