News Neoverse V2: Arm-Plattform soll Genoa und Sapphire Rapids schlagen

nlr

Redakteur
Teammitglied
Registriert
Sep. 2005
Beiträge
9.982
Arm hat mit der Neoverse V2 eine neue Plattform für Server als Nachfolger der Neoverse V1 angekündigt. Konkurrierende x86-Designs von AMD und Intel will der IP-Entwickler damit bei Leistung pro Thread und Leistung pro Sockel hinter sich lassen. Erster Abnehmer von Neoverse V2 ist Nvidia mit der Grace-CPU und bis zu 144 Kernen.

Zur News: Neoverse V2: Arm-Plattform soll Genoa und Sapphire Rapids schlagen
 
  • Gefällt mir
Reaktionen: aid0nex, BrollyLSSJ, DirtyHarryOne und 5 andere
Pictures or it didnt happen....
 
  • Gefällt mir
Reaktionen: Booby, aid0nex, nyster und 7 andere
Seitens AMD soll Bergamo die ARM Konkurrenz sein. Dann heißt es 128 vs 144 Cores.
 
  • Gefällt mir
Reaktionen: nyster, Makso, Mcr-King und eine weitere Person
Anhand prognostizierter Werte für Genoa mit 96 Kernen/192 Threads und Sapphire Rapids mit 56 Kernen/112 Threads sieht Arm den Grace CPU Superchip von Nvidia bei der Integer-Leistung pro Thread und Sockel weit vor der Konkurrenz.
Lasst mich raten, die Konkurrenz prognostiziert das ganz anders...
 
  • Gefällt mir
Reaktionen: nyster, Vasilev, wannabe_nerd und 3 andere
Die Daten sehen natürlich wie immer vielversprechend aus. Vor allem wenn man 2023/24 schon mit PCIe 6.0 und CXL 3.0 auffährt und Intel / AMD vlt. um ein zwei Jahre zuvor kommt.

Am interessantesten für mich ist aber weiterhin SVE2 und irgendwann SVE3 - Hier sehe ich ARM vor x86 die mit AV2, AVX512 etc. weniger elegante Lösungen anbieten.

Was fehlt ist die Unterstützung seitens der Anwendungen/Software… Dies ist halt immer ein Henne - Ei Problem.
 
Zuletzt bearbeitet:
Naja Marketing halt. Es ist ja nicht so das ARM nicht mithalten kann. Aber wenn es heutzutage mithält dann ist die Stromverbrauch nicht so toll und seitens AMD kommt jetzt auch eine Effizenzvariante für Clouds.
 
Auch wenn Skepsis angebracht ist, unrealistisch ist das Ergebnis definitiv nicht. Beweist ja Japan wunderbar bei den TOP500, was aus ARM rauszuholen ist.
 
das mag ich immer so an ARM server CPUs, erst große sprüche zu produkten der konkurenz die noch nichtmal draußen sind und dann hört man nie wieder was davon. ;)

egal. mal sehen was draus wird und ob es hier nicht wieder nur um paar einzelfälle für spezifische situationen geht
 
  • Gefällt mir
Reaktionen: nyster, Qyxes, FR3DI und eine weitere Person
Wenn IONOS jetzt schon für €1 einen VPS anbieten kann, könnte das mit ARM nochmal günstiger oder weiter verbreitet werden.

Ideal wenn man nicht viel Rechenleistung benötigt.
 
So sahen fast alle Benchmarks beim Vorgänger aus :
Screenshot 2022-09-15 at 20-20-46 Ampere Altra vs. Intel Xeon vs. AMD EPYC Preliminary Test - ...png

Da hat ARM aber echt gut aufgeholt, wenn ihre neue Architektur die Konkurrenz auf die Plätze verweisen kann, obwohl noch kein einziger dieser Prozzis auf dem Markt ist.

Hut ab!

(vllt haben sie Leistung pro Thread pro Watt genommen, das sähe dann deutlich besser aus :D )
 
  • Gefällt mir
Reaktionen: Unnu, nyster, Rassnahr und 2 andere
Genoa und SPR in Effizienz zu schlagen könnte ganz leicht umsetzbar sein, einfach den IO Teil drastisch verkleinern.
Die >100 PCIe Lanes saufen ordentlich und LPDDR5 vs DDR5 wird auch stark bemerkbar sein.
Wird spannend
 
Matthias B. V. schrieb:
Die Daten sehen natürlich wie immer vielversprechend aus. Vor allem wenn man 2023/24 schon mit PCIe 6.0 und CXL 3.0 auffährt.
Das ist der wohl einfachste Teil der gesamten Vorstellung. Wenn der Wille da ist, kann man immer die neuesten Standards mitnehmen. Dafür braucht es keine beeindruckende Architektur oder ähnliches.
 
Neodar schrieb:
Wie heißt das Unternehmen denn nun? "Arm" oder "ARM"?
Laut Homepage;
Copyright © 1995-2022 Arm Limited (or its affiliates). All rights reserved.

Laut Wikipedia;
Das Unternehmen ARM Limited ist ein britischer, zur japanischen Softbank gehörender Anbieter von IP-Lösungen im Bereich Mikroprozessoren.

Da soll Verwirrung aufkommen!:daumen:

Ansonsten mal wieder Prahlerei? Waeren ja nicht die ersten, die damit um Aufmerksamkeit versuchen zu betteln.

Gruss Fred.
 
Ein neues Jahr, eine neue "ARM wird x86 überflüssig machen"-Meldung. Gehört ja schon zur Tradition, groß Dinge zu versprechen die dann ausschließlich in SEHR ausgewählten Szenarien ansatzweise erreicht werden können.

Gute Nachrichten für die, die diese Szenarien produktiv einsetzen :)
 
  • Gefällt mir
Reaktionen: Unnu und nyster
PS828 schrieb:
egal. mal sehen was draus wird und ob es hier nicht wieder nur um paar einzelfälle für spezifische situationen geht
Hat ARM ja eigentlich schon selbst genannt: Cloud-Anwendungen.
Dementsprechend auch die gewählten benchmarks.
Cloud ist der Bereich in dem ARM-Architektur schon vor zehn Jahren theoretisch Vorteile vorhergesagt wurden, weswegen auch AMD einen ARM-basierten Chip entwickeln wollte.

Nicht vergleichbar mit anderen Anwendungsfällen.
 
Also als echte Alternative sehe ich ATM erst wenn sie in allen Tests vorne liegen,vorher sehe ich diese nicht als ernste Konkurrenz an.
Bei Leistung pro Watt kann aber ATM sehr gut mit halten und gewiss auch schlagen, weil das nichts über die reale Leistung ausagt. Bei reiner also multocore leustung wird das dann freilich schwierig werden. Aber was ist wenn man nur 1 xeon oder 1 epic cpu nimmt, da sieht es dann für ARM nicht mehr ganz so schlecht aus.
 
SoDaTierchen schrieb:
Ein neues Jahr, eine neue "ARM wird x86 überflüssig machen"-Meldung. Gehört ja schon zur Tradition, groß Dinge zu versprechen die dann ausschließlich in SEHR ausgewählten Szenarien ansatzweise erreicht werden können.

Gute Nachrichten für die, die diese Szenarien produktiv einsetzen :)
Es hat dich keiner geschrieben dass x86 überflüssig gemacht wird - nur even dass ARM neue Architekturen bringt die never und mehr Konkurrenzfähigkeit herstellen und Stück für Stück irgendwann Marktanteile gewinnen.

Stetig Tropfen höhlt den Stein - und irgendwann wird genügend Masse da sein sodass auch Software und Anwendungen auf ARM optimiert werden und man außerhalb von Legacy nicht auf x86 - und somit auf 2 [ 3 ] Anbieter - angewiesen ist.
Ergänzung ()

CDLABSRadonP... schrieb:
Das ist der wohl einfachste Teil der gesamten Vorstellung. Wenn der Wille da ist, kann man immer die neuesten Standards mitnehmen. Dafür braucht es keine beeindruckende Architektur oder ähnliches.
Nein aber man hat ja bei vielen anderen Herstellern gesehen wie man sowas manchmal unnötig in die Länge zieht…
 
Du wirst erstaunt wieviel Software schon für ARM optimiert sind. Aber die Konkurenz schläft nicht. Für die Cloud will ja zum Beispiel AMD die Zen4C rausbringen für pure Effizenz, vielleicht kombinieren sie es auch mit LPDDR5X. x86-Architektur sind ja auch heutzutage RISC wie bei ARM, nur der X86 Instruction Set ist noch CISC.

Ich sehe schon den rießigen Potential was Grace hat, aber Leistung kostet halt Strom. Zumindest weiß ich noch das es schon Blade präsentiert worden sind mit einer Grace-CPU und 1 TByte LPDDR5X mit 500Watt angegeben sind.

Und bei Nvidia wird DGX (Deep Learning) nächste Zeit auch nicht umgestellt. Da siehst du ein Anwedungsfall wo man bei x86 bleibt.

Abwarten, aber durch die Konkurenz bleibt AMD und Intel unter Druck in Zukunft effiziente Lösungen anzubieten!
 
Ich habe mich gewundert, was die Schautafeln von ARM eigentlich darstellen sollen.

  • Ampere Altra und Amazons Graviton3 basieren auf Neoverse V1.
  • NeoVerse V1 wird doppelt so hoch dargestellt wie Traditionell (x86-64). Entgegen der bisherigen Benchmarks !einself!
  • Neoverse V2 (Grace Hopper Superchip) bleibt etwa auf Höhe von V1.
  • Warum wird BFLOAT16 und INT8 hervorgehoben?

Lösung:

ARMs Benchmark bezieht sich auf einen einzelnen Spezialfall.

Dieser Spezialfall wurde in MatLab dargestellt.
Es geht um die Frage, wie bei DeepLearning (MachineLearning et al) der Berg an Daten reduziert werden kann, der durch die Erfassung immer anfällt.
Kompression fällt raus, da die Daten verarbeitet werden.

Der Ansatz lautet:

Reduktion der Abbildung von reellen Zahlen (u.a. Fließkommazahlen z.B. 0,004638672).
Es wird nur der relevante Wertebereich betrachtet (liegt im Beispiel von ARM zwischen 2^-3 und 2^-12).
0,004638672 / 2^-12 = 19
So wird aus einem 32/64bit Wert ein 8bit Integerwert mit einem 12bit Skalierungsfaktor.
Der INT8 Wert (hier die 19) wird im Convolution Layer oder der Quantisierungsmatrix zu Darstellung gespeichert.
Eine solche Matrix aus 8bit Werten ist deutlich kleiner als die gleiche Darstellung mit 32 oder 64bit Float.

Inwiefern hilft das?
Bei der Quantisierung entsteht Rauschen, also Werte die ermittelt wurden aber nicht benötigt werden. Die Reduzierung auf die wichtigen Werte verkürzt die Rechenzeit und senkt den Speicherbedarf.
JEDER Prozessor kann diese Berechnung durchführen. Das ist nicht "ARM only".

Es handelt sich um eine extreme eingegrenzte Anwendung, denn:

  • Es gibt keinen generischen Skalierungsfaktor.
  • Wie verhält es sich mit Skalierungsfaktoren > 2^-16 ??
  • Der Skalierungsfaktor muss für jeden Fall neu bestimmt werden.
  • Dieser Aufwand ist größer als die Einsparung bei Verwendung von INT8.
  • Bis zur Reduktion auf INT8 muss mit FLOAT32 oder höher das Trainingsmaterial erfasst werden sonst kann der optimale Wertebereich nicht errechnet werden.
  • Hat man die Hürde genommen, reduziert sich die Menge der Daten auf ein Viertel. Das spart Speicher und Rechenzeit.

Sieht man sich nochmal den Abstand von Grace Hopper zu AWS Graviton3 an, dann wird der eigentliche Zuwachs etwa korrekt dargestellt. Grace Hopper kommt mit einer Masse an FP32/64 Einheiten. Ohne diese Beschleuniger fällt Neoverse V2 nochmal zurück.

Schlußwort:

Ich muss jetzt ehrlich sagen, dass mich diese Harry-Potter-Diagramme von ARM ankotzen. So dummdreist geht nicht einmal Intel vor, und die waren bisher der ungekrönte König der irreführenden Diagramme.
 
  • Gefällt mir
Reaktionen: Dgini
Zurück
Oben