Nvidia DGX-2: NVSwitch verbindet 16 GV100-GPUs für 81.920 Shader

27.3.2018 20:57 Uhr

Bild: Nvidia

Nvidia hat auf der GTC einen speziellen Chip namens NVSwitch vorgestellt, mit dem 16 GV100-GPUs miteinander verbunden werden können, um die Rechenleistung zu erhöhen. Bei NVSwitch handelt es sich um ein Interconnect Fabric, das mit 900 GB/s fünf Mal so viel Bandbreite wie der aktuell beste PCIe-Switch aufweisen soll.

Switch mit 2 Mrd. 12-nm-Transistoren

NVSwitch basiert auf der professionellen NVLink-2-Verbindung, die mit dem GV100 beziehungsweise der Tesla V100 im Jahr 2017 eingeführt worden war. Der zwei Milliarden Transistoren schwere und im 12-nm-Prozess bei TSMC gefertigte NVSwitch lässt es zu, dass jede GV100-GPU auf den Speicher aller anderen 15 GV100-GPUs zugreifen kann.

Nvidia DGX-2 mit NVSwitch und 16 GV100-GPUs (Bild: Nvidia)

Zwei PFLOPS mit dem 400.000-USD-System

NVSwitch wird in dem Nvidia-System DGX-2 eingesetzt. Das DGX-2 setzt auf 16 Tesla V100 mit je 32 Gigabyte, die Nvidia ebenfalls heute vorgestellt hat. Insgesamt ergibt sich ein GPU-Cluster mit 81.920 ALUs und einem 512 Gigabyte großen HBM2-Speicher. Die Rechenleistung ist mit 2 PFLOPS für die Tensor-Cores angegeben, die Speicherbandbreite mit 14,4 Terabyte pro Sekunde. 10 Kilowatt soll das System in seinem proprietären Gehäuse aufnehmen, das außer den 16 Nvidia-GPUs zwei Intel Xeon-Platinum-CPUs von unbekanntem Typ, 1,5 Terabyte Systemspeicher und 30 Terabyte NVMe-SSDs beinhaltet. Nvidia spricht von „der weltweit größten GPU“.

Nvidia gibt für das AI-Training des DGX-2 eine zehnfach bessere Performance als mit dem Vorgänger DGX-1 an, was unter anderem auch dem doppeltem Speicher der GV100-GPU zu verdanken ist. Etwa 400.000 US-Dollar wird das System kosten, wenn es im dritten Quartal verfügbar sein wird.