GPU-Gerüchte: RTX 4090 und RX 7900 sollen (fast) 100 TFLOPs erreichen

Update 2 Michael Günsch (+1)
352 Kommentare
GPU-Gerüchte: RTX 4090 und RX 7900 sollen (fast) 100 TFLOPs erreichen

Die Gerüchteküche brodelt immer heißer, wenn es um die kommende GPU-Generation von AMD und Nvidia geht. Mit neuer Architektur, noch mehr Recheneinheiten und hohem Takt stehen jetzt sogar 100 TFLOPs Rechenleistung im Raum. Ein Überblick über die derzeit vermuteten Spezifikationen.

Neue Gerüchte im Tagesrhythmus

Die Website WCCFTech hat eine aktuelle Diskussion der berüchtigten Twitter-Leaker @kopite7kimi und @greymon55 mit bisherigen Hinweisen und Vermutungen kombiniert, um die mutmaßlichen Spezifikationen der kommenden GeForce RTX 4090 (AD102) von Nvidia und der Radeon-RX-7900-Serie (Navi 31) zusammenzustellen. Ein massiver Leistungssprung und die Marke von 100 TFLOPs Rechenleistung bei FP32 sind neue Aspekte der Spekulation. VideoCardz steigt mit ein und ergänzt um weitere Details.

GeForce RTX 4090 (Ti) mit AD102

Der potenziellen GeForce RTX 4090 soll die AD102-GPU aus der neuen Ada-Architektur zugrunde liegen. Dem Chip werden 18.432 FP32-Einheiten (Cuda Cores) nachgesagt. Nimmt man diese Anzahl als Basis für 100 TFLOPs, ergibt sich ein GPU-Takt von etwa 2,7 GHz (VideoCardz), WCCFtech rechnet wiederum mit 2,85 GHz für 105 TFLOPS. Allerdings ist analog zum Vorgänger GeForce RTX 3090 davon auszugehen, dass einige Recheneinheiten deaktiviert sind und der Vollausbau einer möglichen RTX 4090 Ti vorbehalten bleibt. Dann wären noch höhere Taktraten nötig, um 100 TFLOPs zu erreichen.

Rund 100 TFLOPs würden eine Steigerung der FP32-Rechenleistung um den Faktor 2,5 gegenüber dem aktuellen Flaggschiff bedeuten: Die RTX 3090 Ti (Test) kommt auf 40 TFLOPs.

Parallel soll die TDP auf hohe 600 Watt ansteigen. Erst kürzlich gab es aber bereits Gerüchte zu einer neuen „Titan“-Lösung die dann den GPU-Vollausbau mit doppeltem Speicher (48 GB) und einer TDP von extrem hohen 900 Watt aufweisen soll.

Die neue Architektur soll zudem eine massive Steigerung beim Cache mitbringen: AD102 wird ein L2-Cache mit 96 MB nachgesagt, beim GA102 der RTX 3090 (Ti) ist dieser nur 6 MB groß. Keine Veränderung wird beim Speicher mit 24 GB GDDR6X an einem 384 Bit Speicherinterface erwartet.

Radeon RX 79xx mit Navi 31 im Doppelpack

Bei Navi 31 mit neuer RDNA-3-Architektur wird ein Multi-Chip-Module aus zwei GPUs erwartet. Beide sollen zusammen 15.360 FP32-Einheiten besitzen und bei einem Takt von rund 3,0 GHz eine Rechenleistung von etwa 92 TFLOPs erreichen. Das wäre mehr als eine Vervierfachung gegenüber der Radeon RX 6900 XT (Test), wohlgemerkt aber mit zwei Compute- statt einem Chip.

AMDs sogenannter Infinity-Cache soll von 128 MB auf 256 MB oder sogar 512 MB anwachsen, er könnte in einem eigenen Chip stecken. Zur Größe des L2-Cache gibt es keinen Hinweis. Ebenso herrscht Unklarheit beim Speicherausbau und der Leistungsaufnahme.

Vorerst sind die Eckdaten, wenn auch schlüssig, bei beiden mit Vorsicht zu genießen, da eine Bestätigung dafür fehlt. Da die Vorstellung voraussichtlich erst im dritten oder vierten Quartal 2022 erfolgt, muss darauf auch noch länger gewartet werden.

Update

Die auch in dieser Meldung noch verarbeiteten Informationen zur groben Konfiguration der AMD-RDNA-3-GPUs, die seit Monaten in der Gerüchteküche kursieren, wurden im Laufe des Montags von zahlreichen Leakern, die sie bis dato selbst propagiert hatten, als nicht korrekt gebrandmarkt. Sowohl Greymon55 als auch Kepler ließen quasi zeitgleich wissen, dass Navi 31 als Top-Konfiguration nicht über 15.360, sondern nur 12.288 Shader verfügen werde – 20 Prozent weniger als bis dato berichtet. Auch Navi 32 soll mit 8.192 Shadern 20 Prozent kleiner ausfallen, als es Leaker in der Vergangenheit verlauten ließen.

Dabei hätten die vor einem Jahr erstmals in der Gerüchteküche gehandelten Eckdaten intern definitiv einmal zur Debatte gestanden, letztendlich sei der „Tape Out“, also die Abgabe der Chip-Baupläne an die Fertigung, aber mit kleineren GPUs erfolgt. AMD könnte diese Entscheidung getroffen haben, um mehr GPUs auf einem Wafer belichten zu können, oder um die Wahrscheinlichkeit, dass ein Chip einen Defekt aufweist, der zu Ausschuss führt, zu reduzieren – oder aufgrund einer Kombination aus beiden Aspekten.

Solange der kleinere Chip durch höhere Taktraten dieselbe Leistung erreichen kann als der größere, spricht aus Sicht der Leistung nichts gegen eine solche Entscheidung, wenngleich Leistung über Takt statt Leistung über mehr Ausführungsheiten in der Regel einen höheren Stromverbrauch zur Folge hat.

Navi 31 mit 75 und nicht 92 TFLOPs

Zur Leistung, dem ursprünglichen Aufhänger dieser Meldung, gab es am Montag dann ebenfalls noch ein Update. Hatte es zum Wochenende noch geheißen, Navi 31 solle 92 TFLOPs FP32-Leistung erreichen, ruderte Greymon55 als Quelle für diese Information im Nachgang der Bekanntgabe der „neuen“ technischen Eckdaten zurück: Er habe die 92 TFLOPS nicht aus Industriekreisen erfahren, sondern selbst hergeleitet, als der den neuen Ziel-Takt von 3,0 GHz erfuhr, aber noch nicht von den 20 Prozent weniger Shadern wusste.

So heißt es inzwischen, das Ziel für Navi 31 sei nicht 92 sondern nur 75 TFLOPs gewesen, was sich mit der großen GPU bei mit rund 2,4 GHZ, bei der kleinen wiederum mit rund 3,0 GHz realisieren lässt. 3,0 GHz erreicht auch RDNA 2 bereits.

GA102 (RTX 3090 Ti) AD102 (RTX 4090 (Ti)) Navi 31 (RX 79xx), bis 2. Mai Navi 31 (RX 79xx), ab 2. Mai Navi 21 RX (6900 XT)
Architektur Ampere Ada RDNA3 RDNA 2
GPUs 1 1 2 1
Fertigung Samsung 8N TSMC N5 TSMC N5/N6 TSMC N7
GPU-Fläche (geschätzt) 628 mm² ~600 mm² ~800 mm² (kombiniert) 519 mm²
FP32-Einheiten 10.752 18.432 15.360 12.288 5.120
GPU-Takt 1,86 GHz ~ 2,7 GHz ~ 3,0 GHz ~3,0 GHz 2,3 GHz
FP32-Performance 40 TFLOPS ~ 100 TFLOPs ~ 92 TFLOPs 75 TFLOPS 21 TFLOPS
Speicher 24 GB GDDR6X 24 GB GDDR6X TBC GB GDDR6 16 GB GDDR6
Speicherbus 21 Gbps 384-bit 21 Gbps 384-bit ? Gbps 256-bit 256 Bit
Cache 6MB (L2 Cache) 96MB (L2 Cache) 256 oder 512MB Infinity Cache 128 MB Infinity Cache
TDP 450 W 600 W ? 350 W
Release Q1 2022 Q3/Q4 2022 Q3/Q4 2022 Q4 2021

Den kolportierten 100 TFLOPS bei Nvidia Ada stehen damit vorerst 75 TFLOPS bei RDNA 3 gegenüber, in der aktuellen Generation sind es 40 TFLOPS (RTX 3090 Ti) gegen 21 TFLOPS (RX 6900 XT).

Ein Leak bleibt ein Leak

Was der Montag einmal mehr eindrucksvoll gezeigt hat: Nur weil Informationen von unzähigen Leakern über Monate als verlässlich eingestuft wurden, muss das nicht bedeuten, dass diese Informationen noch immer dem aktuellen Entwicklungsstand entsprechen. Bei RDNA 3 kommt offensichtlich erschwerend hinzu, dass über die Umsetzung der Multi-Chip-Modul-Varianten Navi 31 und Navi 32 noch immer nur wenig bekannt ist. Das Bild bleibt unscharf, egal wie viele Shader und TFLOPS aktuell in der Gerüchteküche gehandelt werden.

Auch die kommenden „News“ zu den Next-Gen-GPUs sollten daher mit äußerster Vorsicht betrachtet werden.

Update

Auch RedGamingTech hat die neuen mutmaßlich korrekten Spezifikationen für Navi 31 und Navi 32 bestätigt. Das heißt nicht, dass sie abschließend zutreffend sind, aber es sind die Eckdaten, die glaubwürdige Quellen in der Industrie zurzeit verlauten lassen. Dass darüber hinaus noch eine größere Variante existiert, schließt er derzeit aus: 12.288 Shader sind das Topmodell.

Aus wie vielen Chips bestehen Navi 31 und Navi 32?

RedGamingTech erweitert die aktuelle Diskussion darüber hinaus um einen Aspekt, der bei Navi 31 und Navi 32 mit an Sicherheit grenzender Wahrscheinlichkeit erstmals bei einer Gaming-Grafikkarte von Relevanz sein wird: Die Zusammensetzung der gesamten GPU aus mehreren einzelnen Chips.

Denn während RDNA 2 (RX 6000) und aller Voraussicht nach auch Navi 33 auf einem einzigen „monolithischen“ Chip basieren, so wie es Nvidia Ampere (RTX 3000) tut und auch Nvidia Ada (RTX 4000) nachgesagt wird, sollen Navi 31 und Navi 32 auf mehreren Chips basieren. Nicht öffentlich bekannt ist, wie viele Chips von welchem Typ zum Einsatz kommen.

Die Gerüchte um den Multi-Chip-Aufbau gehen bis in den Sommer 2021 zurück. Damals hieß es, Navi 31 würde sich aus zwei Graphics Compute Dies (GCD, übernimmt das Rendering) und einem Memory Controller Die (MCD), der den Grafikspeicher adressiert und den Infinity Cache beinhaltet, zusammensetzen.

Nur ein statt zwei GCDs

RedGamingTech will aus verlässlicher Quelle nun erfahren haben, dass sowohl Navi 32 als auch Navi 31 nur auf einem GCD und dafür mehreren MCDs basieren. AMDs Ansatz bei RDNA 3 wäre damit ein gänzlich anderer als bei Instinct MI200 mit einer GPU auf basis von zwei kompletten GPU-Dies.

Möglich wäre, dass ein MCD über ein 64 Bit breites Speicherinterface und 128 MB Infinity Cache verfügt. Vier MCDs bei Navi 31 würden damit die bereits mehrfach kolportierten 512 MB Infinity Cache und das bekannte 256 Bit breite Speicherinterface bedeuten, bei Navi 32 könnten drei MCDs wiederum ein 192 Bit breites Interface und 384 MB großen Cache bedeuten. Zu Navi 31 kursieren aber auch ein 384 Bit breites Interface und weniger Infinity Cache in Industriekreisen.

Grundsätzlich wird, auch mit Blick auf Ryzen und Epyc, davon ausgegangen, dass AMD auch bei GPUs ein modulares System anstrebt. D.h. identische Chiplets lassen sich auf verschiedenen Produkten in unterschiedlichen Konfigurationen kombinieren. Mit nur einem GCD würden Navi 31 und Navi 32 beim zentralen Element zwar noch auf verschiedene Chips setzen, der MCD wäre allerdings bereits identisch – und zu Anfang könnte Navi 32 auch einen beschnittenen GDC von Navi 31 nutzen.

RedGamingTech hat in der Vergangenheit bereits mit sich als richtig herausstellenden Leaks auf sich Aufmerksam gemacht. Er war zum Beispiel der erste, der im Vorfeld der Vorstellung von RDNA 2 vom großen Infinity Cache berichtet hatte.