News EuroHPC „Leonardo“: Ampere macht aus 200 PetaFLOPS rund 10 ExaFLOPS

SV3N

Redakteur
Teammitglied
Dabei seit
Juni 2007
Beiträge
13.874

He4db4nger

Captain
Dabei seit
Feb. 2007
Beiträge
3.919
Techp*rn vom Feinsten :)
 

nr-Thunder

Lt. Commander
Dabei seit
Sep. 2009
Beiträge
1.270

cele

Lt. Junior Grade
Dabei seit
Jan. 2015
Beiträge
286

PS828

Commodore
Dabei seit
Juni 2019
Beiträge
4.396
Das heißt da kommen diese A100 Dinger mit EPYC CPUs+ Ampere GPUs zum Einsatz?

Da ist mächtig Leistung dahinter. Ziemlich beeindruckend
 

Makso

Commander
Dabei seit
Okt. 2006
Beiträge
2.760
A100 sind doch AMD CPUs oder?
 

Alpha.Male

Lieutenant
Dabei seit
Mai 2011
Beiträge
596

mgr R.O.G.

Lt. Junior Grade
Dabei seit
Jan. 2008
Beiträge
404
But can Lederjacke Ampere liefern? 👀

Im Ernst, 10 ExaFlops 😮
 

nullPtr

Lt. Junior Grade
Dabei seit
März 2011
Beiträge
423
@SV3N Der Artikel sollte klarer unterscheiden. Im ersten Paragraph werden von ExaFLOPS und weiter unten von PetaFLOPS gesprochen. Dabei sind zwei ziemlich verschiedene Größen gemeint: NVidia spricht von FP16-FLOPS. Die Top500 nutzt FP64-FLOPS als Metrik.
 

Coeckchen

Lieutenant
Dabei seit
Juli 2018
Beiträge
962
Solang nix Deutlich überragenderes kommt wird es eben standart bleiben :D
Crysis war Technisch ein Meilenstein und was Physik angeht bieten heutige Shooter meistens nichtmal 10% Dessen. Die KI war überragend für den Zeitpunkt teils sogar bis heute und es gab sogar Multi Core Support^^

Es war in so vielem so viel besser als andere shooter zu der Zeit, sonst würde heute keiner davon Reden, so wie vom Rest wie UT3, Enemy Terretory: Qake wars, Medal of Honor Airborne und viele mehr.

Und ich Empfand dieses spiel damals als 16 Jähriger als extrem Immersiv. Ich hab bis auf Halo, Rust und Arma keinen Shooter länger gespielt :D. Ich kann mich noch erinnern als man mit diesem Heliflieger abgesetzt wird und in Artilleriebeschuss gerät, was für ein Mittendrin gefühl :D
Und die Musik war auch sehr Passend.

Dazu hab ich noch Hunderte Stunden im Editor versenkt :D Man konnte damit soooo viel machen.

Das einzig Schlechte an Crysis is Crysis 2 und 3 :D
 

seth777

Cadet 3rd Year
Dabei seit
Okt. 2020
Beiträge
61
Finde es jaemmerlich das einzig in der EU nichts zustande gebracht wird von wegen Super Skalar Computer,
nein wir brauchen Nvidia, Intel und Amd.

Achso ARM als Lizenzgeber ging ja auch an ein US Unternehmen, genauer Nvidia.
Wir in der EU haben wirklich nur Waschlappen in diesem Bereich. 🤦‍♂️
 

nullPtr

Lt. Junior Grade
Dabei seit
März 2011
Beiträge
423
@seth777 Selbst wenn ARM damals nicht an die Japaner und jetzt nicht an die Amerikaner verkauft worden wäre, wäre es heute kein Unternehmen aus der EU mehr. So wie's aussieht, sogar bald aus einem Drittstaat ohne Handelsabkommen. :-|
Außerdem kann man bei ARM (im Gegensatz zu den anderen genannten Firmen) keine fertigen Chips kaufen. Das ist wohl wohl auch eine Hürde. Im Kern gebe ich dir aber recht.
 

Skysnake

Ensign
Dabei seit
Feb. 2012
Beiträge
203
Das heißt da kommen diese A100 Dinger mit EPYC CPUs+ Ampere GPUs zum Einsatz?

Da ist mächtig Leistung dahinter. Ziemlich beeindruckend
Nein, steht doch im Artikel.

Atos BullSequana XH2000
HPE Apollo 6500

Das sind custom systeme die auf die größe von 1-3 Racks ausgelegt sind. Also eigene MAinboards, eigene Chassis, eigene Power distribution eigene Kühlung etcpp. Bei Atos Bull könnte man auch ein von Ihnen entwickeltes Netzwerk (Bull BXI) nehmen oder halt wie hier Mellanox. Das wird von HPE auch verwendet werden in der Apollo Serie.
 

ascer

Captain
Dabei seit
Juni 2008
Beiträge
3.418
@SV3N Der Artikel sollte klarer unterscheiden. Im ersten Paragraph werden von ExaFLOPS und weiter unten von PetaFLOPS gesprochen. Dabei sind zwei ziemlich verschiedene Größen gemeint: NVidia spricht von FP16-FLOPS. Die Top500 nutzt FP64-FLOPS als Metrik.
@mgr R.O.G. @nullPtr @SV3N
Man sollte das noch genauer spezifizieren, es sind nämlich auch nicht beliebige FP16 Ops, die NVIDIA hier referenziert!

Bei 14k A100 kommt man Richtung 10 ExaFlops nur mit TF16, das sind die TensorFloat FP16 Ops und selbst dann auch nur mit Sparsity, ohne Sparsity wären wir bei der halben Leistung (und die Regel in der Praxis ist eher, dass die Masse an Berechnungen nicht sparse sind).

Außerdem steht im NVIDIA Whitepaper zum A100 ganz klar:
Es müssten in einem Lastszenario also alle 14k A100 parallel boosten und das über einen langen Zeitraum, damit die volle Leistung auch wirklich dauerhaft für KI-Experimente zur Verfügung steht.

Wenngleich die Leistung trotzdem brachial ist, so kann ich zumindest von Volta & Turing aus der Praxis berichten: die tatsächliche Performance liegt bei KI-Experimenten deutlich unter dem Peak. Das liegt alleine schon daran, dass die Peak-Leistung nur die theoretisch möglichen Ops misst. In der Praxis hängt das aber natürlich sehr stark an Daten-Input, Netzwerkgeschwindigkeit, konkreter Simulation (gibt es überhaupt genug Ops, die gerade derart parallelisiert werden können?) usw.

Die A100 TensorCores beschleunigen TF16 ja so stark, weil ein TensorCore 256 FP16 FMA (fused multipy add) Ops pro Takt berechnen kann, was effektiv in einer 8x4x8 MixedPrecision Matrix mündet. Was aber, wenn ein Rechenschritt im KI-Modell >256 FMA Ops benötigt und/oder mehr als 8x4x8. Das passiert in der Praxis durchaus und dann passiert das gleiche wie bei Parallelisierung auf CPUs -> nicht alle TensorCores können 100% ausgelastet werden und manche idle'n auch mal, weil sie auf die Ergebnisse von anderen warten, die mehr als 1 Takt für die Berechnung brauchen.
 
Top