Details zu Vega : AMD nennt 12,5 TFLOPs, „NCUs“ und 512 GB/s

Details zu Vega: AMD nennt 12,5 TFLOPs, „NCUs“ und 512 GB/s

„Radeon Instinct“ ist der Name für AMDs neue Deep-Learning-Produktreihe bestehend aus Hardware und Software. Das Flaggschiff „MI25“ setzt auf die neue Vega-GPU. AMD gibt in diesem Zusammenhang auch die ersten offiziellen Details zur zukünftigen High-End-GPU bekannt. ComputerBase hat sie analysiert.

Die ersten GPUs sind wenige Wochen alt

Es sind erste Eckdaten, die Raja Koduri, Leiter von AMDs Radeon Technologies Group, auf dem AMD Technology Summit in den USA präsentiert hat. Ihm zufolge sind die ersten funktionierenden Vega-GPUs vor „wenigen Wochen“ aus der Fertigung gekommen und damit ist aktuell noch viel Optimierungsarbeit notwendig. Dennoch sind die ersten Karten bereits lauffähig, wie AMD auf der Pressekonferenz anhand eines funktionierenden Systems mit Radeon Instinct MI25 gezeigt hat.

Raja Koduri und die MI25 mit Vega
Raja Koduri und die MI25 mit Vega

NCU: Ein Hinweis auf neue Compute Units?

Wichtig war Koduri festzuhalten, dass Vega über „NCU“ verfügt, ohne auf die Hintergründe einzugehen. Aber auch so scheint die Bedeutung auf der Hand zu liegen: AMD nennt die einzelnen ALUs bei den aktuellen GCN-GPUs „Compute Unit“, abgekürzt „CU“. Die Gerüchte sprechen bei Vega schon lange von einer deutlich überarbeiteten Architektur, sodass NCU wahrscheinlich für „Next CU“ oder „New CU“ steht.

Die Bezeichnung der Grafikkarte als „MI25“ bestätigt das indirekt. Die Nummern bei den Radeon-Instinct-Modellen beschreibt die gerundete maximale Rechenleistung. So bietet die MI6 5,7 TFLOPs und die MI8 8,2 TFLOPs bei FP32. MI25 deutet also auf etwa 25 TFLOPs hin. Da es höchst unwahrscheinlich bis unmöglich erscheint, dass AMD bei Vega die Rechenleistung gegenüber Fiji verdreifacht hat, deutet dies auf ein Feature hin, das die neue GPU der PlayStation 4 Pro bereits bietet, und laut Sony ursprünglich aus dem Vega-Chip stammt: Die PS4 Pro kann pro Takt nicht nur eine, sondern gleich zwei FP16-Berechnungen auf den FP32-ALUs ausführen. Etwas, das ansonsten nur die GP100-GPU von Nvidia beherrscht. Die Architektur hinter Vega muss sich also geändert haben.

Vega beherrscht die doppelte FP16-Performance

Die 25 Teraflops FP16-Performance würden also automatisch 12,5 TFLOPs FP32-Leistung bedeuten. Das wären 45 Prozent mehr als die Fiji-GPU auf der Radeon R9 Fury X bietet. Die nackte Zahl hat aufgrund der wahrscheinlich größeren Architekturveränderungen allerdings relativ wenig Aussagekraft. Die GeForce GTX Titan X auf Pascal-Basis schafft rund elf TFLOPs FP32, wobei eine teildeaktivierte GPU genutzt wird. Vollaktiviert würde der GP102 bei 1,5 GHz auf 11,5 TFLOPs kommen, für 12,5 TFLOPs wäre ein Takt von etwa 1,65 GHz notwendig.

Wie die 12,5 TFLOPs der Vega-GPU zu Stande kommen, ist noch nicht geklärt. Die derzeitigen Gerüchte sprechen bei Vega 10, dem Flaggschiff, von erneut 4.096 Shadereinheiten. Wenn dies den Tatsachen entspricht, müsste der Takt bei 1.525 MHz liegen (wenn AMD nicht auf- oder abgerundet hat). Dies wäre deutlich höher als bei der Polaris-Generation derzeit möglich wäre, wenn auch noch nicht auf dem Niveau von Nvidias Pascal-GPUs, die mit teils extremen 2.000 MHz arbeiten.

Ein mysteriöser „HBM Cache“ wird genannt

Die Präsentationsfolie nennt noch zwei weitere Details wie „High Bandwidth Cache and Controller“. Auch hier blieb Koduri Details schuldig, aber AMD hatte für Vega bereits offiziell HBM2 bestätigt, sodass vieles dafür spricht, dass die GPU einen HBM-Controller haben wird. Hinter„High Bandwith Cache“ bleibt trotzdem ein Fragezeichen, wobei es technisch möglich ist, dass HBM auch als Cache benutzt wird – wenn auch mit deutlich geringerer Performance als ein klassischer L2- oder gar L1-Cache.

AMD gibt für die MI25 eine Leistungsaufnahme von weniger als 300 Watt an und die offiziellen Spezifikationen der zwei anderen Radeon-Instinct-Produkte deuten darauf hin, dass die angegebene Leistungsaufnahme sehr nahe an der Realität liegt – denn hier gibt es bereits Vergleichswerte zu Polaris und Fiji auf anderen Modellen. Auch Nvidia gibt für die Tesla P100 auf Basis der teildeaktivierten GP100-GPU eine TDP von 300 Watt an.

Die MI25 bietet eine Speicherbandbreite von 512 GB/s

Das letzte Detail über Vega ist einem AMD-Mitarbeiter dann eher ungewollt über die Lippen gerutscht: Beim Thema Speicher sprach er von 512 GB/s auf der MI25 - also demselben Wert, den die MI8 mit Fiji bietet. Und das lässt weitere Spekulationen zu. Demnach könnte Vega also über vier HBM-Stacks verfügen, die mit den halben 500 MHz arbeiten würden. Alternativ sind zwei HBM-Stacks mit dem vollen Takt von 1.000 MHz möglich. Während dies auf die Performance keine Auswirkungen hätte, wäre das beim Speicherausbau der Fall. Mit zwei Stacks sind 8, 16, 32 sowie 64 Gigabyte technisch möglich, mit vier Stacks dagegen die doppelten 16, 32, 64 und 128 Gigabyte. Die jeweils zwei letztgenannten Fälle sind derzeit nicht möglich, da zumindest offiziell weder Hynix, noch Samsung aktuell HBM2 mit 16 oder 32 Gigabyte pro Stack produzieren.

Update 22:48 Uhr  Forum »

Als Demonstration „des ultimativen Gaming-PCs für das Jahr 2017“ hat AMD zum Abschluss des Live-Streams zu Zen alias Ryzen die Kombination aus Ryzen und Vega im DLC Rogue One für Star Wars: Battlefront gezeigt. In Ultra HD bei nicht näher spezifizierten Details läuft das Spiel im Weltraum bei über 60 FPS.

Start Wars: Battlefront DLC Rogue One mit 60+ FPS in Ultra HD
Start Wars: Battlefront DLC Rogue One mit 60+ FPS in Ultra HD