Nvidia Blackwell: Erste Gerüchte wollen grob die GeForce RTX 5090 umreißen

19.9.2023 9:34 Uhr

Bild: Nvidia

Bis zum Verkaufsstart des kolportierten Next-Gen-Topmodells GeForce RTX 5090 werden aller Voraussicht nach noch eineinhalb Jahre ins Land ziehen; erst Anfang 2025 soll es soweit sein. Nichtsdestoweniger steigt die Schlagzahl neuer Gerüchte zu Nvidias Blackwell-Architektur aber schon jetzt stetig an. Ein Überblick.

Nvidia Blackwell für HPC und Gaming

Dass die derzeit für Nvidias Gaming-Grafikkarten der Serie GeForce RTX 4000 genutzte GPU-Architektur Ada Lovelace erst im Jahr 2025 einen Nachfolger erhalten soll, ist soweit bekannt und entspricht nach wie vor dem aktuellen Kenntnisstand. Inwiefern es sich bei „Ada Lovelace Next“ aber tatsächlich um die in der Gerüchteküche schon seit 2021 gehandelte Blackwell-Architektur handelt und wie diese konkret aussehen wird, war bislang weitestgehend unbekannt. Und selbstverständlich bleiben Gerüchte angesichts des großen zeitlichen Abstands zum Release nach wie vor unscharf, beziehen sich aber immer häufiger auf greifbare Kennzahlen.

Zeiträume zwischen neuen GPU-Architekturen und den „80er-Karten“

Architektur	Erstes Produkt	Wartezeit	GeForce x80	Wartezeit
Blackwell*	Anfang 2025*	27–30 Monate*	?
Ada Lovelace	Oktober 2022	29 Monate	November 2022	26 Monate
Ampere	Mai 2020	20 Monate	September 2020	24 Monate
Turing	September 2018	28 Monate	September 2018	28 Monate
Pascal	Mai 2016	27 Monate	Mai 2016	20 Monate
Maxwell	Februar 2014	23 Monate	September 2014	30 Monate
Kepler	März 2012	–	März 2012	–
*basierend auf Gerüchten

So deuten aktuelle Gerüchte zunächst einmal darauf hin, dass Nvidia nach zwei parallelen Architekturen, also Hopper und Ada Lovelace, in der kommenden Generation wieder auf eine einzige Architektur setzen wird: Nvidia Blackwell, benannt nach dem amerikanischen Mathematiker David Blackwell. Dabei sollen die oberen beiden GPU-Ausbaustufen GB100 und GB102 bei HPC-Beschleunigern zum Einsatz kommen, wohingegen die GPUs GB202, GB203, GB205, GB206 und GB207 – unter anderem – für GeForce-Grafikkarten designiert seien, wie VideoCardz mit Verweis auf X-Nutzer @kopite7kimi zusammenfasst. Die GeForce RTX 5090 als Gaming-Topmodell würde entsprechend auf den GB202 setzen.

After the dramas of GA100 and GH100, it seems that GB100 is finally going to use MCM.
— kopite7kimi (@kopite7kimi) September 18, 2023

Während der große GB100 als Multi-Chiplet-Module konzipiert sein soll, also wie beispielsweise auch AMDs Instinct MI300 mit mehreren GPU-Dies auf einem Package umgesetzt werde, ist beim GB202, den anderen kleineren Ausbaustufen und damit mutmaßlich auch GeForce RTX 5000 bislang nicht davon die Rede. AMD setzt auch für Gaming-Grafikkarten schon teilweise auf Chiplets, konkret bei Navi 31 und Navi 32, also Radeon RX 7900 XTX (Test) bis Radeon RX 7700 XT (Test).

Nach Ada Lovelace nicht nochmal Ampere 3.0

Bei Nvidia Blackwell für Spieler stellt sich an nächster Stelle die Frage, über wie viele Graphics Processing Cluster, Streaming-Multiprozessoren und letztlich FP32-Ausführungseinheiten der GB202 und die GeForce RTX 5090 verfügen werden. Laut @kopite7kimi soll der GB202 bei den übergeordneten GPCs und Texture Processing Clusters nahe an Ada Lovelace bleiben. Der AD102 stellt maximal 12 GPCs mit jeweils 6 TPCs bestehend aus 2 SMs bereit, was in Summe bis zu 144 Streaming-Multiprozessoren erlaubt. Die GeForce RTX 4090 (Test) als aktuelles Gaming-Topmodell verfügt wiederum über „nur“ 128 SMs. Es ist nicht unwahrscheinlich, dass Nvidia selbst noch nicht final entschieden hat, über welchen Chip-Ausbau die GeForce RTX 5090 letztendlich verfügen soll, den Gerüchten zufolge wird es bei dieser Kennzahl aber kaum Wachstum geben.

Die AD102-Konfiguration der RTX 4090 (Bild: Nvidia)

Allerdings werde Blackwell mit „signifikanten Änderungen“ beim Aufbau der einzelnen Recheneinheiten aufwarten, heißt es nun. Das käme nicht überraschend, hat Nvidia mit Ada Lovelace doch weitestgehend den Ampere-Aufbau beibehalten – die maßgeblichen GPU-Verbesserungen begrenzten sich auf den wesentlich größeren L2-Cache, die RT-Kerne und die Tensor Cores, nicht aber den grundlegenden Aufbau.

Gerüchte werfen mehr Fragen auf als sie beantworten

Wie diese Anpassungen aber im Detail aussehen sollen, bleibt unbekannt respektive Gegenstand bloßer Spekulationen. Zuletzt hatte Nvidia mit dem Schritt von Turing zu Ampere die einzelnen SMs von 4 × 16 FP32-ALUs und 4 × 16 INT32-ALUs auf 4 × 32 FP32-ALUs umgebaut, wobei je 16 davon auch INT32-Operationen durchführen können. Ada Lovelace behielt diesen Aufbau bei, Hopper hingegen verfügt über deutlich breiter aufgestellte Streaming-Multiprozessoren, die in jeder der vier Shader-Partitionen neben 32 FP32-ALUs zusätzlich 16 INT32-ALUs und 16 FP64-ALUs bieten. Es ist davon auszugehen, dass sich GB100 und GB102 in dieser Hinsicht von den GB20x-Ausbaustufen unterscheiden werden, um den abweichenden Anforderungen gerecht zu werden.

SM-Blockdiagramm – Turing (Bild: Nvidia)

SM-Blockdiagramm – Ada Lovelace — SM-Blockdiagramm – Turing (Bild: Nvidia)

Aus dem Chiphell-Forum kommen nun erste Angaben zur Mehrleistung, die der kolportierte GB202-Vollausbau gegenüber der GeForce RTX 4090 an den Tag legen solle – allerdings lediglich formuliert in prozentualem Zuwachs, ohne Details und Kennzahlen respektive Spezifikationen zu nennen.

Gerüchte zur GeForce RTX 5090 vs. RTX 4090

50 Prozent größerer Maßstab (gemeint sind mutmaßlich Shader)
52 Prozent höhere Speicherbandbreite
78 Prozent mehr Cache
100 Prozent mehr ROPs (Raster Operation Units)
15 Prozent höhere Taktraten
70 Prozent höhere Leistung

Sollte Nvidia die Anzahl der GPCs, TPCs und SMs tatsächlich nicht skalieren, so würden 50 Prozent mehr Ausführungseinheiten den Einsatz eines dritten FP32-Clusters pro Shader-Partition nahelegen. Das wiederum erscheint aber unwahrscheinlich, weil die bei Nvidia-GPUs seit vielen Jahren konstante Warp-Größe von 32 Threads bei 48 Shadern pro Partition ein Auslastungsproblem beschwören würde. Hier erscheinen die Angaben widersprüchlich und würden eher Sinn ergeben, wenn Nvidia für Blackwell mit mehr SMs pro TPC oder respektive und mehr TPCs pro GPC plant. Oder aber mit im Vergleich zum AD102 weniger SMs, die dafür aber mit gleich 64 ALUs pro Partition daherkommen. Ohnehin stellt sich die Frage, welche Operation die zusätzlichen ALUs unterstützen würden; hier liefern die bisherigen Gerüchte gar keine Anhaltspunkte.

Und auch 78 Prozent mehr Cache werfen Fragen auf, würde die beim Schritt von TSMC 4N zu einem 3-nm-Node fehlende SRAM-Skalierung doch dazu führen, das ein abermals größerer Bereich des GPU-Chips für den Cache reserviert werden müsste, ohne dass dieser von der neueren und teureren Fertigung profitieren würde.

SRAM-Speicherzellen werden nicht mehr kleiner (Bild: WikiChip)

Die um 52 Prozent gesteigerte Speicherbandbreite wiederum wäre über den Einsatz des neuen GDDR7-Grafikspeichers vergleichsweise einfach realisierbar; statt der von Nvidia bislang maximal verwendeten GDDR6X-Ausbaustufe mit 22,4 Gbps bei der GeForce RTX 4080 (Test) sind mit GDDR7 bis zu 32 Gbps möglich. Die GeForce RTX 4090 mit einer Netto-Speicherbandbreite von 1.008 GB/s verfügt über 21 Gbps schnelle GDDR6X-Module an 384 Bit. Allerdings war in der Gerüchteküche auch bereits von einem enorm breiten 512-Bit-Speicherinterface die Rede. Da auch Nvidia zuletzt stärker auf mehr Cache in der GPU statt auf besonders breite Speicherinterface gesetzt hatte, ist das aber mehr als fraglich.

Theoretische Speicherbandbreiten bei 32 Gbps schnellem GDDR7

Speicherinterface	Speicherbandbreite	Mögliche VRAM-Konfigurationen
128 Bit	512 GB/s	8 oder 16 GB
192 Bit	768 GB/s	12 oder 24 GB
256 Bit	1.024 GB/s	8, 16 oder 32 GB
320 Bit	1.280 GB/s	10, 20 oder 40 GB
384 Bit	1.538 GB/s	12, 24 oder 48 GB
448 Bit	1.792 GB/s	20 oder 40 GB
512 Bit	2.048 GB/s	16, 32 oder 64 GB

Samsung hat bereits GDDR7-Module mit 36 Gbps angekündigt. Es ist allerdings davon auszugehen, dass zum Start der neuen Speicher-Generation lediglich Module mit maximal 32 Gbps zur Verfügung stehen werden. Die Angabe vom um 15 Prozent gestiegenen Takt passt derweil zu TSMCs Prognosen für die 3-nm-Fertigung.

Ein vager Ausblick auf die GeForce RTX 5090

All diese Angaben beziehen sich dabei auf das Topmodell der nächsten Generation; Angaben zu kleineren Ausbaustufen fehlen bislang gänzlich. VideoCardz hat die Gerüchte in die entsprechenden Spezifikationen der kolportierten GeForce RTX 5090 übersetzt und diese in einer Tabelle zusammengetragen.

Erste Gerüchte zur GeForce RTX 5090 (Bild: VideoCardz)

Grundsätzlich erscheint eine auf diese Art und Weise konfigurierte Grafikkarte sowohl möglich als auch sinnvoll. Eben genau auf diesen Aspekten könnten die Gerüchte als lediglich vermeintlich durchgestochene Informationen wiederum basieren. Rund eineinhalb Jahre vor dem Erscheinen einer neuen GPU-Generation sind jegliche Gerüchte zu jener mit äußerster Skepsis zu betrachten – zumal GeForce RTX 4000 erst vor rund einem Jahr gezeigt hat, wie deutlich sich finale Produkte von ihren lange prognostizierten Spezifikationen unterscheiden können.

Der wöchentliche Podcast CB-Funk lässt sich nicht nur über den eingebetteten Podigee-Player abspielen, sondern auch bequem direkt in den Podcast-Apps eurer Wahl abonnieren und hören. Verfügbar ist der ComputerBase-Podcast auf Spotify, Apple Podcasts, Google Podcasts, Amazon Music und Deezer.

Hinweis: Das Titelbild dieser Meldung zeigt Hopper H100 auf einem SXM-Modul.