News Supercomputer: Leibniz-Rechenzentrum testet ARM-Server für BEAST

SV3N

Redakteur
Teammitglied
Dabei seit
Juni 2007
Beiträge
12.635
Das Leibniz-Rechenzentrum hat einige ARM-Server vom Typ HPE Cray CS500 bestellt und evaluiert diese im Hinblick auf den kommenden Supercomputer BEAST hinsichtlich ihrer Leistung und Effizienz gegenüber etablierten x86-Prozessoren und professionellen Beschleunigern. Die ARM-Technik stammt vom schnellsten Supercomputer der Welt.

Zur News: Supercomputer: Leibniz-Rechenzentrum testet ARM-Server für BEAST
 

Skysnake

Ensign
Dabei seit
Feb. 2012
Beiträge
192
Also die gleichen Server sind es nicht. Cray darf/kann kein TOFUD Interconnect anbieten sondern nimmt da Mellanox oder OPA was über PCI-E Angebunden ist.

Für kleine Installationen nicht so relevant, aber an sich schon ein gravierender Unterschied. Zudem hat man das Cray Software Environment. Das ist also insgesamt schon eine andere Maschine. Nur die CPU ist sehr ähnlich/die Gleiche. Wobei ich mir da nicht sicher bin, bei dem Announcement meine ich mich zu erinnern hies es das es da auch kleinere Unterschiede gibt.
 

Conqi

Commander
Dabei seit
Dez. 2011
Beiträge
2.082
@LamaMitHut Ganz so einfach ist es dann leider auch nicht. ASML baut vielleicht die Belichtungsmaschinen, aber damit ist es noch lange nicht getan. Auf TSMC wird man vermutlich trotzdem angewiesen sein, selbst wenn man einen Chip entwickelt hat. Das sind immerhin keine Amerikaner.
 

RaptorTP

Fleet Admiral
Dabei seit
Jan. 2006
Beiträge
11.908
Ich so: Keks Hersteller benötigt nen Supercomputer ?! FAIL xD
 

Fab

Cadet 4th Year
Dabei seit
Sep. 2013
Beiträge
104
Vielleicht auch ein Punkt den man sehen muss ist der Stromverbrauch. X86 vs. ARM. Und auch Kühlung darf man auch nicht vergessen. Weniger Strom bei gleicher oder mehr Leistung ist doch meist auch weniger Abwärme.
 

Oberst08

Lieutenant
Dabei seit
Sep. 2007
Beiträge
670
Vielleicht auch ein Punkt den man sehen muss ist der Stromverbrauch. X86 vs. ARM. Und auch Kühlung darf man auch nicht vergessen. Weniger Strom bei gleicher oder mehr Leistung ist doch meist auch weniger Abwärme.
Ja natürlich, nur darf man nicht von einem Smartphone SOC auf einen ARM Server schließen. Es gibt durchaus effizientere Server als Fugaku. ARM ist nicht gleich effizienter.
 

icemanspirit

Cadet 3rd Year
Dabei seit
Aug. 2019
Beiträge
50
@SV3N bei den Beschleunigern mogelt das LRZ aber leicht..

Die 64 GPUs sind in einer eigenen GPU-Cloud, was von aussen nicht offen ersichtlich ist. Es gibt zudem noch zwei DGX Systeme. Beide aber nicht fuer heterogenes Computing aufgesetzt/angedacht. Die GPU-Cloud kann man nur in Einzelinstanzen nehmen und nicht zusammenschalten und die DGX Systeme sind immer ausgebucht.
 

Novasun

Lt. Commander
Dabei seit
Okt. 2011
Beiträge
1.041
BEAST - wirklich - da hat ja wer in Bayern Eier aus Stahl.... Aber hey - das muss das Selbstverständnis sein. Wir wollen ein BEAST bauen... Also dann mal teu teu teu...
 

Flare

Lt. Commander
Dabei seit
Aug. 2010
Beiträge
1.318
Egal wie hoch die maximal erreichbare Effizienz bei für die Architektur und Vernetzung optimale Software und Workload ist, das kann sich bei minimal anderem Workload drastisch ändern und die Gesamtkonstruktion nach stark ineffizient bis total sinnlos verschieben.
Ich vermute, dass ARM-Server in Kombination mit Beschleunigern und optimaler Vernetzung x86 in weiten Teilen ersetzen könnten. Das hat aber bei weniger gut über die ARM-Nodes skalierbaren Workloads schnell eine Ende falls dann die Beschleuniger nicht ausgelastet werden können weil die Vernetzung oder die ARM-Architektur bremst und stattdessen stärkere Kerne und weniger weitläufige Vernetzung angebracht wäre.
Es gibt für jede Gesamtarchitektur guten und schlechten Workload.
 

smalM

Captain
Dabei seit
Aug. 2007
Beiträge
3.530
@Flare
Ich vermute, dass ARM-Server in Kombination mit Beschleunigern und optimaler Vernetzung x86 in weiten Teilen ersetzen könnten. Das hat aber bei weniger gut über die ARM-Nodes skalierbaren Workloads schnell eine Ende falls dann die Beschleuniger nicht ausgelastet werden können weil die Vernetzung oder die ARM-Architektur bremst und stattdessen stärkere Kerne und weniger weitläufige Vernetzung angebracht wäre.
Der Witz am Fogaku ist doch gerade, daß da nur ARM-Nodes vorhanden sind – da ist kein einziger Beschleuniger drin, ausschließlich ARM-Cores.
 

icemanspirit

Cadet 3rd Year
Dabei seit
Aug. 2019
Beiträge
50
Der Witz am Fogaku ist doch gerade, daß da nur ARM-Nodes vorhanden sind – da ist kein einziger Beschleuniger drin, ausschließlich ARM-Cores.
+ das vermutlich derzeit beste HPC Interconnect was es gibt, welches in Kombination mit dem lokalen HBM2 Speicher eine Speicherbandbreite ermoeglicht, die man nirgendwo anders finden kann (wobei die Japaner auch historisch gesehen immer extrem gute Interconnects gebaut haben). Es gibt wohl auch noch einen grossen Push innerhalb von Riken die jetzige Effizienz von ~80% auf die 90% des Vorgaengers zu erhoehen.

Dazu muss man auch sagen, dass die Vektorerweiterung auf dem Fujitsu A64FX (SVE) gerade die Matrizeneinheiten auf Beschleunigern, von manchen Herstellern auch "Tensor Cores" genannt, redundant machen sollten.
 

MountWalker

Fleet Admiral
Dabei seit
Juni 2004
Beiträge
12.838
Zitat von News:
Die daraus resultierende European Processor Initiative (EPI) und das französische Unternehmen SiPearl sollen einen europäischen ARM-Prozessor für das High Performance Computing (HPC) Projekt der EU entwickeln.
Warum muss ein mit öffentlichen EU-Geldern finanzierter HPC-Prozessor eigentlich die ARM-ISA verwenden? Hatte die EU nicht einmal beschlossen, überall, wo es möglich ist, offene Technologiestandards einzusetzen? Gerade bei einem EU-Prozessor wäre dann doch von MIPS über OpenPower bis RISC-V alles sinnvoller als ARM. Und OpenPower böte auch Vector-Extensions (wie ARM und X86), die man bei HPC vielleicht haben möchte.
 

smalM

Captain
Dabei seit
Aug. 2007
Beiträge
3.530
@MountWalker
Es ist eh nur ein Projekt um Steuergelder abzugreifen, also ist die ISA sowas von egal.

@icemanspirit
Ich kann mich nicht erinnern, daß SVE hardwarebeschleunigte Matrizenberechnungen durchführt. Das ist doch, auch für SIMD, erst für ARMv8.6-A vorgesehen?
 

icemanspirit

Cadet 3rd Year
Dabei seit
Aug. 2019
Beiträge
50
Ich kann mich nicht erinnern, daß SVE hardwarebeschleunigte Matrizenberechnungen durchführt. Das ist doch, auch für SIMD, erst für ARMv8.6-A vorgesehen?
Ich hatte den Architektur Deep-Dive in diese Richtung ausgelegt mit seinen zwei 512-bit FMAs und dies als Teil der hinzugefuegten Fujitsu HPC ISA Erweiterung angesehen. Ich glaube worauf Du anspielst ist GEMM (General Matrix Multiply) oder?
 

smalM

Captain
Dabei seit
Aug. 2007
Beiträge
3.530
@icemanspirit
Bzgl. GEMM, ja.
Ich gestehe, daß ich nicht weiß, ob Fujitsu da Funktionalität hinzugefügt hat, deshalb habe ich ja auch gefragt. Ich kenne nur das Arm-Dokument "The ARM Scalable Vector Extension" von 2017 und das, so weit ich mich erinnere, kennt keine Matrizenberechnungen.
An die Dokumentation von SVE2 kommt man ja einfach so leider nicht dran; Du hast das nicht zufällig zur Hand? :D
 

Skysnake

Ensign
Dabei seit
Feb. 2012
Beiträge
192
@icemanspirit

Also ob tofud der beste aktuelle Interconnect ist würde ich mal bezweifeln. Klar die Latenzen sind schon echt niedrig aber dafür ist es nen 6d Mesh-Torus. Hat also deutlich mehr Shops als Aries oder Slingshot. Zudem sinkt die effektive Bandbreit bei der Topologie wenn man weiter Routen muss.

Also ich bin mir da bei den Riesen Kisten echt nicht sicher ohne Vergleichstests gesehen zu haben.
 
Top