Ampere: Nvidia bringt A100 mit 80 GB HBM2e als PCIe-Karte

Nicolas La Rocco
37 Kommentare
Ampere: Nvidia bringt A100 mit 80 GB HBM2e als PCIe-Karte
Bild: Nvidia

Nvidia bietet die „A100 Tensor Core GPU“ auf Basis der Ampere-Architektur fortan auch im PCIe-Format mit 80 statt 40 GB Speicher an. Von dem doppelt so großen Speicher sollen Käufer beim KI-Training vor allem bei besonders großen Modellen profitieren. Support für die Karte gibt es von zahlreichen Unternehmen im Server-Umfeld.

Nach der A100 als SXM4 sowie PCIe und der A100 80GB als SXM4 ist die heute vorgestellte A100 80GB PCIe die vierte Umsetzung der „A100 Tensor Core GPU“.

HBM2e sorgt für 1,9 TB/s Speicherbandbreite

Die „A100 80GB GPU“ besitzt einen zur „A100 Tensor Core GPU“ vergleichbaren Aufbau, da sich die Veränderungen an der Hardware auf den Speicher beschränken. Bei diesem wechselt Nvidia nach dem SXM4-Modul jetzt auch für die PCIe-Karte von HBM2 zu HBM2e. Bei HBM2e besteht ein Speicherstack aus bis zu acht übereinander gestapelten 16-Gbit-Chips, sodass mit einem Stack bis zu 16 GB statt der 8 GB bei HBM2, der schon bei Volta zum Einsatz kam, möglich sind. Wie bei der „A100 Tensor Core GPU“ sind vermeintlich sechs HBM2e-Stacks rund um die GPU versammelt, tatsächlich handelt es sich aber um fünf Stacks zu je 16 GB, woraus sich die insgesamt 80 GB ergeben, und einen Dummy-Stack, um den Anpressdruck des großen passiven Kühlers auszugleichen. Mit fünf Speicherstacks kommt Nvidia diesmal auf 1.935 GB/s statt 2.039 GB/s (SXM4).

Von dem verdoppelten Speicher sollen beim KI-Training vor allem besonders große Modelle profitieren. Schon zur Vorstellung von Ampere hieß es, die Architektur sei für den exponentiell wachsenden Ressourcenbedarf des Trainings neuronaler Netze und das Inferencing im Datacenter entwickelt worden. Beispiele für den Einsatz der 80-GB-Variante liefert der Artikel zur Ankündigung des gleich bestückten SXM4-Moduls.

Passive Karte nutzt Luftstrom im Server

ComputerBase hat von Nvidia bestätigt bekommen, dass die A100 80GB PCIe mit 300 Watt spezifiziert ist. Das sind 50 Watt mehr als bei der A100 PCIe, während bei den SXM4-Modulen keine TDP-Unterscheidung zwischen 40 GB und 80 GB herrscht. Trotz reduzierter TDP wirbt Nvidia mit denselben Leistungsangaben, dabei handelt es sich aber um Peak-Werte.

Die A100 80GB PCIe kommt als zwei Slot hohe, vermeintlich passiv gekühlte Karte daher, die aber vom Luftstrom im Server aktiv gekühlt wird. Unterstützer der Karte im Server-Umfeld sind die Anbieter Atos, Cisco, Dell Technologies, Fujitsu, H3C, HPE, Inspur, Lenovo, Penguin Computing, QCT und Supermicro. Auch Cloud-Anbieter wie Amazon Web Services, Microsoft Azure und Oracle Cloud Infrastructure sind mit von der Partie.

A100 80GB PCIe A100 80GB A100 PCIe A100 Tesla V100 Tesla P100
GPU GA100 GV100 GP100
Architektur Ampere Volta Pascal
Fertigung TSMC N7 TSMC 12FFN TSMC 16FF
Transistoren 54,2 Mrd. 21,1 Mrd. 15,3 Mrd.
GPU Die Size 826 mm² 815 mm² 610 mm²
Board PCIe SXM4 PCIe SXM4 SXM2 SXM
TDP 300 Watt 400 Watt 250 Watt 400 Watt 300 Watt
SMs 108 80 56
TPCs 54 40 28
FP32 Cores/SM 64
FP32 Cores/GPU 6.912 5.120 3.584
FP64 Cores/SM (exkl. Tensor) 64
FP64 Cores/GPU (exkl. Tensor) 3.456 2.560 1.792
INT32 Cores/SM 64 NA
INT32 Cores/GPU 6.912 5.120 NA
Tensor Cores/SM 4 8 NA
Tensor Cores/GPU 432 640 NA
GPU Boost Clock 1.410 MHz 1.530 MHz 1.480 MHz
Peak FP16 Tensor TFLOPS
(mit FP16 Accumulate)
312/624* 125 NA
Peak FP16 Tensor TFLOPS
(mit FP32 Accumulate)
312/624* 125 NA
Peak BF16 Tensor TFLOPS
(mit FP32 Accumulate)
312/624* NA
Peak TF32 Tensor TFLOPS 156/312* NA
Peak FP64 Tensor TFLOPS 19,5 NA
Peak INT8 Tensor TOPS 624/1.248* NA
Peak INT4 Tensor TOPS 1.248/2.496* NA
Peak FP16 TFLOPS (Non-Tensor) 78 31,4 21,2
Peak BF16 TFLOPS (Non-Tensor) 39 NA
Peak FP32 TFLOPS (Non-Tensor) 19,5 15,7 10,6
Peak FP64 TFLOPS (Non-Tensor) 9,7 7,8 5,3
Peak INT32 TOPS 19,5 15,7 NA
Texture Units 432 320 224
Speicher HBM2e HBM2
Speicherinterface 5.120 Bit 4.096 Bit
Speichergröße 80 GB 40 GB 16/32 GB 16 GB
Speichertakt 1.512 MHz 1.594 MHz 1.215 MHz 877,5 MHz 703 MHz
Speicherbandbreite 1.935 GB/s 2.039 GB/s 1.555 GB/s 900 GB/s 720 GB/s
* Mit Sparsity-Beschleunigung