Ampere: Nvidia bringt A100 mit 80 GB HBM2e als PCIe-Karte
Nvidia bietet die „A100 Tensor Core GPU“ auf Basis der Ampere-Architektur fortan auch im PCIe-Format mit 80 statt 40 GB Speicher an. Von dem doppelt so großen Speicher sollen Käufer beim KI-Training vor allem bei besonders großen Modellen profitieren. Support für die Karte gibt es von zahlreichen Unternehmen im Server-Umfeld.
Nach der A100 als SXM4 sowie PCIe und der A100 80GB als SXM4 ist die heute vorgestellte A100 80GB PCIe die vierte Umsetzung der „A100 Tensor Core GPU“.
HBM2e sorgt für 1,9 TB/s Speicherbandbreite
Die „A100 80GB GPU“ besitzt einen zur „A100 Tensor Core GPU“ vergleichbaren Aufbau, da sich die Veränderungen an der Hardware auf den Speicher beschränken. Bei diesem wechselt Nvidia nach dem SXM4-Modul jetzt auch für die PCIe-Karte von HBM2 zu HBM2e. Bei HBM2e besteht ein Speicherstack aus bis zu acht übereinander gestapelten 16-Gbit-Chips, sodass mit einem Stack bis zu 16 GB statt der 8 GB bei HBM2, der schon bei Volta zum Einsatz kam, möglich sind. Wie bei der „A100 Tensor Core GPU“ sind vermeintlich sechs HBM2e-Stacks rund um die GPU versammelt, tatsächlich handelt es sich aber um fünf Stacks zu je 16 GB, woraus sich die insgesamt 80 GB ergeben, und einen Dummy-Stack, um den Anpressdruck des großen passiven Kühlers auszugleichen. Mit fünf Speicherstacks kommt Nvidia diesmal auf 1.935 GB/s statt 2.039 GB/s (SXM4).
Von dem verdoppelten Speicher sollen beim KI-Training vor allem besonders große Modelle profitieren. Schon zur Vorstellung von Ampere hieß es, die Architektur sei für den exponentiell wachsenden Ressourcenbedarf des Trainings neuronaler Netze und das Inferencing im Datacenter entwickelt worden. Beispiele für den Einsatz der 80-GB-Variante liefert der Artikel zur Ankündigung des gleich bestückten SXM4-Moduls.
Passive Karte nutzt Luftstrom im Server
ComputerBase hat von Nvidia bestätigt bekommen, dass die A100 80GB PCIe mit 300 Watt spezifiziert ist. Das sind 50 Watt mehr als bei der A100 PCIe, während bei den SXM4-Modulen keine TDP-Unterscheidung zwischen 40 GB und 80 GB herrscht. Trotz reduzierter TDP wirbt Nvidia mit denselben Leistungsangaben, dabei handelt es sich aber um Peak-Werte.
Die A100 80GB PCIe kommt als zwei Slot hohe, vermeintlich passiv gekühlte Karte daher, die aber vom Luftstrom im Server aktiv gekühlt wird. Unterstützer der Karte im Server-Umfeld sind die Anbieter Atos, Cisco, Dell Technologies, Fujitsu, H3C, HPE, Inspur, Lenovo, Penguin Computing, QCT und Supermicro. Auch Cloud-Anbieter wie Amazon Web Services, Microsoft Azure und Oracle Cloud Infrastructure sind mit von der Partie.
A100 80GB PCIe | A100 80GB | A100 PCIe | A100 | Tesla V100 | Tesla P100 | |
---|---|---|---|---|---|---|
GPU | GA100 | GV100 | GP100 | |||
Architektur | Ampere | Volta | Pascal | |||
Fertigung | TSMC N7 | TSMC 12FFN | TSMC 16FF | |||
Transistoren | 54,2 Mrd. | 21,1 Mrd. | 15,3 Mrd. | |||
GPU Die Size | 826 mm² | 815 mm² | 610 mm² | |||
Board | PCIe | SXM4 | PCIe | SXM4 | SXM2 | SXM |
TDP | 300 Watt | 400 Watt | 250 Watt | 400 Watt | 300 Watt | |
SMs | 108 | 80 | 56 | |||
TPCs | 54 | 40 | 28 | |||
FP32 Cores/SM | 64 | |||||
FP32 Cores/GPU | 6.912 | 5.120 | 3.584 | |||
FP64 Cores/SM (exkl. Tensor) | 64 | |||||
FP64 Cores/GPU (exkl. Tensor) | 3.456 | 2.560 | 1.792 | |||
INT32 Cores/SM | 64 | NA | ||||
INT32 Cores/GPU | 6.912 | 5.120 | NA | |||
Tensor Cores/SM | 4 | 8 | NA | |||
Tensor Cores/GPU | 432 | 640 | NA | |||
GPU Boost Clock | 1.410 MHz | 1.530 MHz | 1.480 MHz | |||
Peak FP16 Tensor TFLOPS (mit FP16 Accumulate) |
312/624* | 125 | NA | |||
Peak FP16 Tensor TFLOPS (mit FP32 Accumulate) |
312/624* | 125 | NA | |||
Peak BF16 Tensor TFLOPS (mit FP32 Accumulate) |
312/624* | NA | ||||
Peak TF32 Tensor TFLOPS | 156/312* | NA | ||||
Peak FP64 Tensor TFLOPS | 19,5 | NA | ||||
Peak INT8 Tensor TOPS | 624/1.248* | NA | ||||
Peak INT4 Tensor TOPS | 1.248/2.496* | NA | ||||
Peak FP16 TFLOPS (Non-Tensor) | 78 | 31,4 | 21,2 | |||
Peak BF16 TFLOPS (Non-Tensor) | 39 | NA | ||||
Peak FP32 TFLOPS (Non-Tensor) | 19,5 | 15,7 | 10,6 | |||
Peak FP64 TFLOPS (Non-Tensor) | 9,7 | 7,8 | 5,3 | |||
Peak INT32 TOPS | 19,5 | 15,7 | NA | |||
Texture Units | 432 | 320 | 224 | |||
Speicher | HBM2e | HBM2 | ||||
Speicherinterface | 5.120 Bit | 4.096 Bit | ||||
Speichergröße | 80 GB | 40 GB | 16/32 GB | 16 GB | ||
Speichertakt | 1.512 MHz | 1.594 MHz | 1.215 MHz | 877,5 MHz | 703 MHz | |
Speicherbandbreite | 1.935 GB/s | 2.039 GB/s | 1.555 GB/s | 900 GB/s | 720 GB/s | |
* Mit Sparsity-Beschleunigung |