GTC 2026

Nvidia-Roadmap: Feynman nutzt GPU-Die-Stacking, Custom HBM und Rosa-CPU

Nicolas La Rocco
13 Kommentare
Nvidia-Roadmap: Feynman nutzt GPU-Die-Stacking, Custom HBM und Rosa-CPU

Nvidia hat sich zur GTC 2026 mittels Roadmap erneut freiwillig in die Karten blicken lassen. Die öffentliche Pläne reichen abermals bis Feynman, dort hat Nvidia jetzt GPU-Die-Stack­ing, Custom HBM und die Rosa-CPU bestätigt. Und für den Scale-up bei Rubin und Feynman können neben Kupfer auch optische Verbindungen genutzt werden.

Die Nvidia-Datacenter-Roadmap mit dem Ausblick auf Rubin Ultra und Feynman hat ihren Ursprung in der GTC 2025. Seitdem hat Nvidia die Roadmap immer wieder in stetig aktualisierter Form auf Konferenzen gezeigt, zuletzt auf der GTC Washington im Oktober 2025. Zur GTC 2026 folgten nun weitere Einblicke in die bevorstehenden Plattformen.

Rubin Ultra geht auf vier Dies pro GPU-Package

Bekannt war bereits, dass auf Rubin erst einmal Rubin Ultra folgen wird, bevor Feynman an der Reihe ist. Rubin Ultra verdoppelt Rubin, indem Nvidia von zwei auf vier GPU-Dies für jedes Chip-Package wechselt. 16 Stapel HBM4e mit insgesamt 1 TB pro Package sieht Nvidia für Rubin Ultra vor. Nvidia gibt die Rechenleistung eines GPU-Packages mit 100 PetaFLOPS (FP4) an. Mit Rubin Ultra geht zudem eine neue LPU aus der Groq-Partnerschaft einher. Die LP35 soll die aktuelle LP30 ablösen und dabei neben FP8 erstmals auch Support für NVFP4 mitbringen.

Nvidia-Roadmap bis Feynman
Nvidia-Roadmap bis Feynman

Kyber steigert den Scale-up, Oberon bleibt aber verfügbar

Rubin Ultra ist die Generation, mit der Nvidia vom derzeitigen Oberon- zum neuen Kyber-Rack wechseln will – zumindest optional, wenn ein noch dichter gepacktes Rack mit vertikaler Ausrichtung der Blades gefragt ist. Oberon bleibt aber auch künftig eine Option, wie die Platzierung auf der Roadmap auch noch in Richtung Feynman zeigt.

Scale-up mit Kupfer oder optischer Verbindung

Oberon ist das aktuell von Nvidia genutzte Rack-Design. Bereits diese Variante ermöglicht einen dicht gepackten Scale-up von derzeit bis zu 72 GPUs und 36 GPUs – daher auch der Name NVL72. Gezählt werden seit Anfang des Jahres wieder die GPU-Packages, nicht die GPU-Dies. Nvidia hatte hier abgeleitet von den Dies nämlich auch schon mal den Namen NVL144 vorgesehen, da ein GPU-Package bei Blackwell und Rubin aus zwei GPU-Dies besteht. Die neue (eigentlich alte) Namensgebung gilt auch für Kyber.

Oberon skaliert bei Rubin Ultra auf NVL576

Bei Oberon verbindet eine „Kupfer-Wirbelsäule“ rückseitig die Compute-Hardware mit den NVLink-Switches. Zur GTC nannte Jensen Huang aber auch optische Verbindungen als Option für den Scale-up. Statt von NVL72 ist dann von NVL576 die Rede, weil sich 576 GPUs zu einer Domain zusammenschließen lassen, die wie eine einzelne, massive GPU agiert. Von einem Scale-up im Rack kann dann allerdings nicht mehr die Rede sein, weil keine 576 GPUs in ein Oberon-Rack passen. Das zeigt mit „Polyphe“ ein Prototyp von Nvidia, mit dem der optische Scale-up getestet wird. Über den Serverschrank hinaus war bei Nvidia bislang eigentlich immer vom Scale-out statt Scale-up die Rede.

Prototyp eines NVL576 mit Optics Scale-up
Prototyp eines NVL576 mit Optics Scale-up

Ein Bücherregal für AI-Hardware

Rubin Ultra bringt aber auch die Option für das neue Kyber-Rack mit. Kyber bringt die Hardware nicht mehr in untereinander liegenden Compute- und NVLink-Trays unter, die rückseitig über Kupferkabel miteinander verbunden werden, sondern in vertikal nebeneinander positionierten Blades, fast so wie bei einem Bücherregal, das Bücher nebeneinander unterbringt. Neu ist dabei, dass Compute vorne in den Blades stattfindet, während NVLink mit den Switches über eine Mid-Plane von hinten angedockt wird. Ein NVLink-Blade erstreckt sich über die Höhe von zwei Compute-Blades. Im 90-Grad-Winkel dazu sitzt die Mid-Plane.

Compute Blade (l.), Mid-Plane (m.) und NVLink Blade (r.)
Compute Blade (l.), Mid-Plane (m.) und NVLink Blade (r.)

Das schafft Platz für noch mehr Komponenten im Rack, sodass hier die Bezeichnung NVL144 genutzt wird. Gemeint sind 144 GPU-Packages mit dann bis zu 576 GPU-Dies für Rubin Ultra. Für das Kyber-Rack will Nvidia zur Einführung der neuen Rack-Architektur mit Rubin Ultra zunächst auf den Scale-up mit Kupfer setzen. Optische Verbindungen sind testweise erst einmal nur für Oberon vorgesehen, bevor sich das mit Feynman dann jedoch auch für Kyber ändern wird. Oberon ist hierfür zunächst der Testballon.

Feynman setzt auf GPU-Die-Stack­ing

Feynman ist die für 2028 angesetzte GPU-Architektur, bei der Nvidia nicht mehr wie bei Rubin oder Rubin Ultra auf zwei respektive vier nebeneinander gelegte GPU-Dies setzen wird, sondern zum „Die Stacking“ wechselt, um mehrere GPU-Dies übereinander zu stapeln. Wie genau das technisch umgesetzt wird und was sich dafür bei Fertigung und Packaging ändern muss, hat Nvidia zur Konferenz noch nicht verraten. Bekannt ist außerdem, dass nach HBM4 bei Rubin und HBM4e bei Rubin Ultra mit Feynman dann ein Wechsel zu „Custom HBM“ erfolgen soll.

Feynman setzt auf GPU-Die-Stacking und Custom HBM
Feynman setzt auf GPU-Die-Stacking und Custom HBM

Oberon bleibt, dann aber nicht mehr mit optischem Scale-up

Auch Feynman wird weiterhin eine Oberon-Option bieten. Das ging aus den letzten Roadmap-Veröffentlichungen noch nicht hervor, dort sah bislang alles nach Kyber ab Rubin Ultra aus. Nvidia wird die aktuelle, ältere Rack-Architektur somit fortführen, aber mit neuer Compute-Hardware anbieten, sodass auch Upgrades möglich sind. Die Option auf den Scale-up mit optischen Verbindungen fällt dann aber weg. Diese hebt sich Nvidia bei Feynman exklusiv für Kyber auf. Dort lässt sich ein optischer statt Kupfer-Scale-up von NVL144 auf NVL1152 vollziehen, also 1.152 GPUs innerhalb einer Domain.

Eine neue CPU benannt nach Rosalind Franklin

Nvidia hat zur GTC zudem erstmals eine neue CPU für Feynman bestätigt: Rosa. Bislang war für Feynman noch die aktuelle Vera-CPU auf der Roadmap zu finden. Vermutlich handelte es sich bei Vera um einen Platzhalter, bis Nvidia öffentlich über Rosa reden kann. Der Name leitet sich von der britischen Biochemikerin Rosalind Franklin ab. Technische Details waren zur GTC noch kein Thema. Es dürften erneut Custom-Arm-Kerne mit SMT zum Einsatz kommen, so wie es bei Vera mit Olympus-Kernen der Fall ist.

ComputerBase hat Informationen zu diesem Artikel von Nvidia unter NDA im Vorfeld und im Rahmen einer Veranstaltung des Herstellers in San Jose, Kalifornien erhalten. Die Kosten für An-, Abreise und fünf Hotelübernachtungen wurden vom Unternehmen getragen. Eine Einflussnahme des Herstellers oder eine Verpflichtung zur Berichterstattung bestand nicht. Die einzige Vorgabe aus dem NDA war der frühestmögliche Veröffentlichungszeitpunkt.

Nvidia GTC 2026 (16.–19. März 2026): Alle 9 News auf der Themenseite!
  • Nvidia-Roadmap: Feynman nutzt GPU-Die-Stacking, Custom HBM und Rosa-CPU
  • GX240 Compute Blade: HPE packt 16 × Vera in ein Blade für 640 CPUs pro Rack
  • Nvidia DGX Station: GB300 mit 288 GB HBM3e für den Desktop ist jetzt bestellbar
  • +6 weitere News