News Radeon-Gerüchte: So könnten die Navi-5-Chips mit UDNA aussehen

Bierliebhaber · 28. August 2025

Spannend, wie viele einfach von 1 CU gleich 1 Leistung ausgehen und nicht mit einrechnen, dass man auch pro CU deutlich mehr Leistung rausholen kann... Auf CB sollte man doch zumindest schon mal was von sowas wie "Taktraten" gehört haben.

Es ist völlig absurd zu spekulieren ob man mit einer RDNA5/UDNA mit 96CUs mit der 4090 mithalten kann, schon eine RDNA4 könnte das, wenn die Skalierung halbwegs ok wäre. Wenn jetzt eine CU wirklich doppelt so breit ist wäre es denke ich auch schwach von AMD wenn man "nur" mit der 5090 gleichzieht. Wenn nVidia dagegen wie bei Blackwell wieder nur minimale Leistungssprünge fertig bringt ist die Frage wohl eher ob eine 6090 mit einer 96CU-UDNA mithalten kann...

Und wenn eine 6080 wieder nur minimal mehr bringt als eine 5080 dürfte es wirklich auf ein Duell ganz oben hinauslaufen.

Letztendlich entscheiden wieder Verbrauch und Effizienz. Was die Top-GPUs bei dann 600W oder mehr liefern wird den meisten egal sein, aber was die 300W-Klasse kann wird spannend zu sehen sein.

Chismon schrieb:
Wenn es so käme auf Basis dieser Gerüchte, dann dürfte das für jede Menge lange Gesichter sorgen, denn die wenigsten werden sich eine sehr teure (abgespeckte) AT 0 Prosumer/Ultra-High-End Karten zum Gaming von AMD für einen entsprechend hohen Preis anschaffen wollen.

Und ob sich eine Generation lohnt entscheidet sich ausschließlich am Preis der Top-GPU? Wenn man eine abgespeckte AT0 mit 64CUs zum Preis der 9070XT mit vielleicht 50% Mehrleistung bringen würde passt das doch, und für 400€ dann ein AT2 mit Vollausbau mit der Performance der 9070XT, das wäre fein...

ETI1120 · 28. August 2025

Quidproquo77 schrieb:
Die Softwareseite muss langfristig genauso glänzen wie die HW Seite.
Die ROCm plattform muss endlich mal mit mehr Doku aufwarten, stabiler werden und im Vergleich zu CUDA aufholen. Die toolchain bzw. frameworkkompatibilität ist halt eingeschränkt.

Das ist zu Pauschal.

Der Punkt ist, dass Nvidia über mehr als 20 Jahre hinweg Hardware und Software Hand in Hand entwickelt hat.

CUDA wurde weil Nvidia keine Konkurrenz hatte zum Quasi Standard für GPU Programmierung.

AMD hat ROCm gestartet um einen HPC Software Stack für die Datacenter HPC GPUs aufzubauen.

Als der HPC Stack so langsam Form angenommen hat wurde AI zum alles herrschenden Thema. Ganz so wie es Nvidia sich erhofft hat.

Für AMD hat es allerdings bedeutet, dass der Fokus von HPC auf AI wechsel musste.

Auf der anderen Seite hat AMD das Tempo bei der Softwareentwicklung massiv hochgefahren. Klar hat Nvidia einen großen Vorsprung. Aber seit einem halben Jahr überwiegen eindeutig die Stimmen die die schnellen Fortschritte bei ROCm hervorheben.

Quidproquo77 schrieb:
Das wird das primäre Problem beim Absatz sein, die Hardware selber wohl weniger.

Das Problem beim Absatz ist in erster Linie dass Nvidia als der Anbieter von AI Hardware angesehen wird. Dann kommt der Vorsprung bei der Netzwerktechnik von Nvidia. Nvidia dominiert beim Scale Up und beim Scale Out. Dafür müsste AMD UALink und UltraEthernet pushen.

Erst an dritter Stelle kommt die Software.

Quidproquo77 schrieb:
AMD ist eigentlich nirgends die erste Wahl.

Was nicht verwunderlich ist weil Nvidia seit 25 Jahren zielstrebig auf die aktuelle Situation hingearbeitet hat.

Aber zum Glück von AMD kann man in der Branche Nvidia noch weniger als Intel leiden.

Quidproquo77 schrieb:
Sicher, aber vielleicht gibt es für bessere Latenzen ja auch ein HBM Modell für die Instinct Serie.

Die Datacenter GPUs werden immer eine eigene Serie bleiben.

Es geht bei UDNA um die Abstimmung zwischen Hardware und Software und um ein einheitliches Programiermodell.

Aber nicht um dieselbe Hardware für Gaming und Datacenter GPUs.

Quidproquo77 schrieb:
Die GPU chiplets scheint man aber fürs erste aufgegeben zu haben.

Nein
Die Datacenter GPUs bestehen aus Chiplets.

Und AT3 und AT4 sind Chiplets. Außerdem geistern ein Grafik Memory Die und ein Multimedia und IO Die durch die Gerüchte wabern.

Wenn nächste Jahr EPYC rauskommt wissen wir auch mehr. Vom Prinzip her sollte Fanout passen. Aber für wirklich große Packages hat Fanout erhebliche Nachteil. Dass alle CCDs direkt am IOD liegen würde auch die großen Nachteile von CoWoS kompensieren.

Quidproquo77 · 28. August 2025

ETI1120 schrieb:
Die Datacenter GPUs bestehen aus Chiplets.

Aus mehreren GPU chiplets?

ETI1120 · 28. August 2025

DevPandi schrieb:
Wir werden jetzt allerdings abwarten müssen, was kommt.

Da haben wir keine Wahl. Vor allem weil wir nicht sehen was sind die geleakten Infos und was haben Kepler und MLID reininterpretiert.

Bei beiden fehlt das technische Verständnis um Infos richtig zu interpretieren.

Interessant ist dass alle davon ausgehen dass die hier besprochene Dies GFX13 sind und die MI400 GFX12.5 ist.

Ergänzung (28. August 2025)

Quidproquo77 schrieb:
Aus mehreren GPU chiplets?

8 GPU Chiplets

Ergänzung (28. August 2025)

Bierliebhaber schrieb:
Spannend, wie viele einfach von 1 CU gleich 1 Leistung ausgehen und nicht mit einrechnen, dass man auch pro CU deutlich mehr Leistung rausholen kann... Auf CB sollte man doch zumindest schon mal was von sowas wie "Taktraten" gehört haben.

Eigentlich sollten wir von RDNA 3 gelernt haben dass man alle Zahlen so lange ignoriert bis etwas glaubwürdiges zur Die Size bekannt wird.

Frequenzen sind das eine. Das andere ist wie gut die Performance über den Zuwachs an Shadern skaliert.

Gerade bei RDNA 4 gibt es Hinweise dass sie nicht gut skaliert.

Also Ball flach halten und auf weitere Informations Häppchen warten.

DevPandi · 28. August 2025

Quidproquo77 schrieb:
Aus mehreren GPU chiplets?

Ja, seit CDNA 2 schon.

CDNA 2 als MI200 bestand aus zwei GPU-Chiplets - ähnlich dem, was Nvidia jetzt bei Blackwell gemacht hat. MI300 (CDNA 3) besteht aus 2 Base-Tiles und bis zu 8 GPU-Chiplets - XCD in dem Fall genannt.

https://www.amd.com/content/dam/amd...-docs/white-papers/amd-cdna-3-white-paper.pdf

ETI1120 · 28. August 2025

DevPandi schrieb:
CDNA 2 als MI200 bestand aus zwei GPU-Chiplets - ähnlich dem, was Nvidia jetzt bei Blackwell gemacht hat. MI300 (CDNA 3) besteht aus 2 Base-Tiles und bis zu 8 GPU-Chiplets - XCD in dem Fall genannt.

Bei der MI250 sind zwar 2 GPU Chiplets in einem Package, aber es sind logisch gesehen auch 2 GPUs.

Erst die MI300 kann je nach Konfiguration als eine oder mehrere GPUs agieren.

Quidproquo77 · 28. August 2025

Bin mit den Serverarchitekturen echt schon länger nicht mehr up-to-date gewesen, danke.

Bierliebhaber · 28. August 2025

ETI1120 schrieb:
Eigentlich sollten wir von RDNA 3 gelernt haben dass man alle Zahlen so lange ignoriert bis etwas glaubwürdiges zur Die Size bekannt wird.

Frequenzen sind das eine. Das andere ist wie gut die Performance über den Zuwachs an Shadern skaliert.

Frequenzen war ja nur das einfachste Beispiel dafür dass CUs eben ganz unterschiedlich viel leisten können.

Und natürlich können wir die Zahlen ignorieren, was konkretere Leistungsabgaben angeht. Wenn man aber anhand von 7800XT und 9070(XT) hochrechnet dürfte eine 9080XT oder so mit 96 CUs ungefähr auf dem Niveau einer 4090 liegen. Anzunehmen, dass UDNA mit 96 CUs dann nur auf dem Niveau einer 4090 liegen würde würde bedeuten dass AMD die Leistung pro CU gar nicht steigern könnte, was bei doppelter Breite und der zu erwartenden Größe bei 512Bit SI ein absolutes Fiasko wäre. Und angesichts der geringen Leistungssteigerung durch die 5090 würde mich überraschen wenn so ein Monsterchip "nur" ein Gegenspieler der 5090 wäre. Denn dann hätte man einfach einen verdoppelten Navi48 bringen können, der wäre auch nicht langsamer und deutlich billiger zu entwickeln.

Wie gesagt, geht mir nur um die Annahmen hier dass UDNA pro CU im Vergleich zu RDNA4 nicht zulegt und man am Ende irgendwo bei 4090 oder 5080 liegt, was ich für ausgeschlossen halte, weil so eine Karte für AMD völliger Schwachsinn wäre, bei den Entwicklungskosten und den Produktionskosten dank 512 Bit SI. Denke man kann durchaus ein gutes Stück mehr Leistung als eine 5090 erwarten. Wie viel wird man durch das neue Design dann eh erst mit den Reviews sehen.

Tigerfox · 28. August 2025

Bierliebhaber schrieb:
Wie gesagt, geht mir nur um die Annahmen hier dass UDNA pro CU im Vergleich zu RDNA4 nicht zulegt und man am Ende irgendwo bei 4090 oder 5080 liegt, was ich für ausgeschlossen halte, weil so eine Karte für AMD völliger Schwachsinn wäre, bei den Entwicklungskosten und den Produktionskosten dank 512 Bit SI. Denke man kann durchaus ein gutes Stück mehr Leistung als eine 5090 erwarten. Wie viel wird man durch das neue Design dann eh erst mit den Reviews sehen.

Denke ich zwar auch, aber man muss auch berücksichtigen, dass die Leistung nicht linear mit der Anzahl Ausführungseinheiten wächst (sieht man ja auch an 4090 und 5090, die sind in Games auch weit weg von 60% bzw 100% schneller als 4080S bzw. 5080) und das insbesondere AMD historisch schlecht darin ist, das Potential von großen Chips auf die Straße zu bringen, siehe R600 und jüngst Vega sowie Navi21 und Navi31.

Wenn nicht der Produktionsprozeß extreme Fortschritte macht, dürfte der Takt einer GPU mit 3x so vielen Ausführungseinheiten wie bei Navi48 und einem doppelt so dicken SI auch deutlich niedriger liegen.

RealMax123 · 28. August 2025

Nighteye schrieb:
Wenn Nvidia und AMD sich noch fein absprechen, können sie die Preise der Mittelklasse Karten dann noch schön oben halten. Dann wirds RTX 6070ti nur für 1200€ geben, und RTX 6060ti und RX10060XT (40 CU) für 700€. Win Win für Nvidia und AMD. Lose für den Preisleistungs Gamer.

Aber das ist nur eine Verschwörungstherorie, an die ich auch nicht glauben will.

Ich hoffe AMD wird die RX10060XT (40 CU,s) Aggressiv für 400€ vermarkten, um Nvidia Preisdruck zu machen.
Auch weil Intels neue Arc wohl auch in der Leistungsklasse mitspielen wird.

ETI1120 schrieb:
@Quidproquo77 Keine Frage das Interface ergibt Sinn. Aber ergibt eine so Fette GPU für AMD Sinn? Wie will AMD so was verkaufen?

Als Server GPU ergibt GDDR7 keinen Sinn. Als Gaming GPU viel zu groß und den Zugang zu den Professionellen Märkte hat AMD noch nicht.

Marketingtechnisch könnte ich es mir so vorstellen:

AT0:
A-Sortierung: 96 CUs (8x12), 512 Bit VRAM Interface, 32GB VRAM als RX 10080XT für 1.649€ bis 1.799€
B-Sortierung: 80 CUs (8x10), 512 Bit VRAM Interface, 32GB VRAM als RX 10080 für 1.279€ bis 1.399€
C-Sortierung: 72 CUs (6x12), 384 Bit VRAM Interface, 24 GB VRAM als RX 10700 XT für 729€ bis 849€
D-Sortierung: 60 CUs (6x10), 384 Bit VRAM Interface, 24 GB VRAM als RX 10700 XT GRE für 599€ bis 699€

AT2:
A-Sortierung: 48 CUs (4x12), 256 Bit VRAM Interface, 16GB VRAM als RX 10700 für 449€ bis 519€
B-Sortierung: 40 CUs (4x10), 256 Bit VRAM Interface, 16GB VRAM als RX 10700 GRE für 349€ bis 419€
C-Sortierung: 36 CUs (3x12), 192 Bit VRAM Interface, 12GB VRAM als RX 10060 XT für 279€ bis 329€
D-Sortierung: 30 CUs (3x10), 192 Bit VRAM Interface, 12GB VRAM als RX 10060 für 219€ bis 259€

Nighteye · 28. August 2025

RealMax123 schrieb:
AT2:
A-Sortierung: 48 CUs (4x12), 256 Bit VRAM Interface, 16GB VRAM als RX 10700 für 449€ bis 519€
B-Sortierung: 40 CUs (4x10), 256 Bit VRAM Interface, 16GB VRAM als RX 10700 GRE für 349€ bis 419€
C-Sortierung: 36 CUs (3x12), 192 Bit VRAM Interface, 12GB VRAM als RX 10060 XT für 279€ bis 329€
D-Sortierung: 30 CUs (3x10), 192 Bit VRAM Interface, 12GB VRAM als RX 10060 für 219€ bis 259€

Wäre ein Traum.
Da würde ich wirklich zuschlagen und meine RX6800 ersetzen mit so einer 40 CU 16GB Karte für 350 Tacken.

ETI1120 · 28. August 2025

Bierliebhaber schrieb:
Frequenzen war ja nur das einfachste Beispiel dafür dass CUs eben ganz unterschiedlich viel leisten können.

Es ist nun Mal eine Tatsache das GPUs beim Gaming nicht linear Skalieren.

Zusätzlich ist es schwerer bei großen GPUs hohe Frequenzen zu erreichen als bei kleinen GPUs.

Und dann weiß man nicht ob man Äpfel mit Äpfel oder Äpfel mit Birnen vergleicht.

Bierliebhaber schrieb:
Und natürlich können wir die Zahlen ignorieren, was konkretere Leistungsabgaben angeht. Wenn man aber anhand von 7800XT und 9070(XT) hochrechnet dürfte eine 9080XT oder so mit 96 CUs ungefähr auf dem Niveau einer 4090 liegen.

Man kann viel hochrechnen.

50 % mehr CUs reichen nicht um die 39 % Rückstand auf die 4090 wettzumachen. Das kann man ganz einfach an der Skalierung von der 9060XT auf die 9070XT sehen.

Bierliebhaber schrieb:
Anzunehmen, dass UDNA mit 96 CUs dann nur auf dem Niveau einer 4090 liegen würde würde bedeuten dass AMD die Leistung pro CU gar nicht steigern könnte, was bei doppelter Breite und der zu erwartenden Größe bei 512Bit SI ein absolutes Fiasko wäre.

MLID und Kepler haben offensichtlich dieselben Infos im ChipHell Forum gesehen.
MLID erzählt etwas von 192 CUs und Kepler erzählt etwas von 96 CUs, sagt aber dass die RDNA5 CUs einem RDNA4 WGP entsprechen. Entsprechendes gilt auch für AT3 und AT4.

Und die Geschichte mit den 128 Shadern je CU erinnert mich viel zu arg an RDNA 3, als dass ich auch nur eine Sekunde damit verschwende über irgendeine Performance nachzudenken.

Bierliebhaber schrieb:
Und angesichts der geringen Leistungssteigerung durch die 5090 würde mich überraschen wenn so ein Monsterchip "nur" ein Gegenspieler der 5090 wäre.

Und genau das ist das eigentliche Problem. Wer soll dieses Monster kaufen?

Nvidia kann sich den Spaß leisten, weil Nvidia viele GB202 in Profikarten verkaufen kann. Diese Option steht AMD nicht offen.

Ergänzung (29. August 2025)

RealMax123 schrieb:
Marketingtechnisch könnte ich es mir so vorstellen:

Und? Ist das irgendwie von Belang, wenn noch gar ist welche Dies AMD tatscächlich auflegt, welche Spezifikationen diese haben und was RDNA5 tatsächlich mitbringt?

DevPandi · 31. August 2025

Artikel-Update: Die Gerüchte gehen weiter. Ein ebenso für authentische Leaks bekannter User im Chiphell-Forum behauptet, dass die nächste Radeon-Generation mit UDNA über 128 Stream-Prozessoren (FP32-ALUs) pro Compute Unit (CU) verfügt. Das wären doppelt so viel wie bei den Vorgängern. Ausgehend von 96 CUs beim Flaggschiff (AT0) wären das 12.288 ALUs, während die RX 7900 XTX mit 96 CUs nur auf die Hälfte von 6.144 ALUs kommt.

Analog dazu würden AT2 auf 5.120 ALUs, AT3 auf 3.072 ALUs und AT4 auf 1.536 ALUs kommen. Auch diese Informationen sind allerdings noch nicht bestätigt.

[Tabelle: Zum Betrachten bitte den Artikel aufrufen.]

t3chn0 · 31. August 2025

Ich würde mir sowas sehr wünschen. Die RDNA4 Karten sind super geworden. Auf dieser Basis könnte man mit FSR4.1 in Kombination so richtig hart an Nvidia knabbern.

Von Low End bis Enthusiast Grade Karten, wäre mega.

Dende236 · 31. August 2025

Oh man.. das kann doch, mit den Gerüchten, nur in die Hose gehen.
Schon wieder höher, schneller, weiter.
Und am Ende sind wieder alle enttäuscht, wenn's keine doppelte 5090 Leistung zum halben Preis geben wird🙄

Boulettendieb · 31. August 2025

Schade dass es noch so weit hin ist, bis die ersten gefakten Benchmarkvergleiche auf YouTube aufploppen.

Elandion · 31. August 2025

Das hatte kepler schon letzte Woche.
(Hervorhebung von mir)

Yeah, MI400 has the WGP-sized CU with WGP mode and also wave64 support deprecated, and I think this carries over to gfx13.

https://forums.anandtech.com/threads/lpddr6-q3-2025-mother-of-all-cpu-upgrades.2617537/post-41496801

herrStreusalz · 31. August 2025

Hoffen wir mal

Ich sag' RTX 5080 Performance für 1000€ und 32GB GDDR7 VRAM

Nighteye · 31. August 2025

Irgendwie sehr seltsam.
Da werden Recheneinheiten verdoppelt, die man theoretisch schon bei RDNA 2-4 verdoppeln hätte können.
Also wozu dieser Schritt ? Ich vermute das dient eher Ai weil es halt ein Hybrid GPU Chip sein soll.
Wäre die alte Architektur da mit so einem Flaschenhals gewesen, würde AMD,s Architektur ja super gewesen sein weil FPS pro Watt auf Nvidia level. Kann mir daher keinen Flaschenhals vorstellen.

Mysteriös

CDLABSRadonP... · 31. August 2025

Dende236 schrieb:
Oh man.. das kann doch, mit den Gerüchten, nur in die Hose gehen.
Schon wieder höher, schneller, weiter.
Und am Ende sind wieder alle enttäuscht, wenn's keine doppelte 5090 Leistung zum halben Preis geben wird🙄

Naja, langsam wäre es natürlich auch mal Zeit für doppelte 5090 Performance für 1000€ bei ~250W. Nicht vergessen, uns wurden mit Ampere und Blackwell jetzt bereits zwei normale Generationsfortschritte ersatzlos geklaut. Selbst die gute Ada hat schließlich gegenüber Turing bloß das geliefert, was bereits Ampere hätte bringen sollen.

Wieder Boden gut machen wird aber erst dann möglich werden, wenn Multi-GCD-GPUs funktionieren. Und da kommt eben AMD ins Spiel und zwar besonders mit UDNA: Denn bei CDNA funktionieren Multi-GCD/XCD-GPUs bereits seit CDNA2, seit CDNA3 auch noch mit V-Cache. Dort ist es aber eben auch leider leichter...

News Radeon-Gerüchte: So könnten die Navi-5-Chips mit UDNA aussehen

Commander

Commodore

Commodore

Commodore

Mangoverputzer*in

Commodore

Commodore

Commander

Commander

Lieutenant

Lt. Commander

Commodore

Mangoverputzer*in

Fleet Admiral

Ensign

Boulettendieb

Gast

Cadet 2nd Year

Lt. Junior Grade

Lt. Commander

Vice Admiral