News Arm Lumex CSS Platform: Neue C1-Kerne führen SME2 für AI direkt auf der CPU ein

nlr

Redakteur
Teammitglied
Registriert
Sep. 2005
Beiträge
11.161
Die Arm Lumex CSS Platform führt das C1-CPU-Cluster als Nachfolger der bisherigen Cortex-Kerne ein. Dabei setzt Arm durch die Bank auf die Scalable Matrix Extension 2 (SME2) für schnelles und effizientes AI direkt auf der CPU. Vier neue Kerne, ein neuer Interconnect und mehr schrauben die Leistung hoch und den Verbrauch runter.

Zur News: Arm Lumex CSS Platform: Neue C1-Kerne führen SME2 für AI direkt auf der CPU ein
 
  • Gefällt mir
Reaktionen: DynamaxX, flo.murr, N3utr4l1s4t0r und 17 andere
DAS ist Berichterstattung pur, 24/7 👍


Computerbase zu jeder Tages- und Nachtzeit an der Speerspitze der Technews 😍💪🏼
 
  • Gefällt mir
Reaktionen: flo.murr, BacShea, Husky90 und 14 andere
Toller Artikel. Ich muss sagen ich hab ein paar Sachen überflogen, aber ich finde es gut, dass es trotzdem alles so detailliert geschrieben steht.

Genau für eine solche Arbeit zahle ich mein Abo gerne


Bezüglich des Themas KI, macht das wirklich so viel Sinn es in die Kerne zu integrieren, statt es extern zu haben? Oder ist es wie bei MS Office einfach nur ein Grund die Kosten hoch zu schrauben?
 
  • Gefällt mir
Reaktionen: flo.murr, zhompster, Jan und eine weitere Person
7H0M45 schrieb:
Bezüglich des Themas KI, macht das wirklich so viel Sinn es in die Kerne zu integrieren, statt es extern zu haben?
ARM hat es auf der Folie im Artikel eigentlich schon gut dargestellt... solange die CPU schnell und effizient genug ist, will man eigentlich alles auf der CPU direkt laufen lassen, man wechselt nur auf zusätzliche Beschleuniger wenn man muss. SME2 ist dafür eine sehr gute Idee, taugt es doch nicht nur für AI, sondern auch für alles andere an rechenlastigen Aufgaben.
 
  • Gefällt mir
Reaktionen: fef_ on_berg, zhompster, Viper816 und eine weitere Person
Wow, das sind eine Menge Informationen zum lesen.

Danke für die Aufarbeitung.

Zum einen ist es schon der Hammer, dass die bei manchen Kernen noch 30% Leistung/Effizienz bei gleicher Fertigung rausholen. Zum anderen ist die Verlagerung grundlegender AI Funktionen auf die CPU aus Gründen der Latenz Imho sowieso die Zukunft

Die Zukunft wird auf jeden Fall immer schwieriger für AMD und Intel und x86.

Für uns bleibt es spannend...
 
  • Gefällt mir
Reaktionen: flo.murr, fef_ on_berg, zhompster und eine weitere Person
Wirklich interessant. Man merkt dass ARM Druck macht und sich mit der neuen Aufstellung auf in PC und Server nochmal stärker präsentieren will…

Kann uns nur zum Vorteil geraten!

Bin gespannt wann und wie vor allem Apple / Qualcomm / NVIDIA diese IP bei sich verarbeiten. MediaTek wird wie immer einfach den Standard übernehmen…
 
  • Gefällt mir
Reaktionen: fef_ on_berg, Viper816 und Jan
Wenn ARM so weiter macht dann haben wir in 20 Jahren Gaming PCs die so gross sind wie ne Packung Cigs. :smokin:
 
  • Gefällt mir
Reaktionen: Jan
Mal sehen was davon in tatsächlicher Leistung ankommt. Der Aufwand mit dem hier potentiell Kapital für KI Bullshit verbrannt wird ist schon beeindruckend. Ich bin gespannt welche tollen Apps uns mit lokalen Killeranwendungen beglücken werden. Ein Hype ohne Nachfrage beim Endkunden.
 
  • Gefällt mir
Reaktionen: icetom, Corpus Delicti und Xedos99
Ich will das ding in Geräten sehen und dann Praktische Tests. Mal sehen wann auch die Softwareseite mit Arm aufgeholt hat. Dann wird es wirklich spannend ob eines das andere verdrängt oder ob beides co existiert
 
15-640.06be36e5.jpg

Bei ARM bedeutet "High-end": Das zweit kleinste Modell, oder halt die Out of Order Sparvariante. :freak:

Für eine Firma, die IP-Blöcke verkauft, ist das Namensschema und die technische Tiefe der Folien echt mau.


SME auf der CPU, es gibt also DSPs/NPUs für Matrixoperationen, die GPU und die CPU. Da haben die Softwareentwickler sicher total Bock potentiell für alle Targets zu entwickeln. Zudem es meines Wissens im Umfeld von ARM + Partnern kein einheitliches Framework gibt.
Der Overhead von der CPU auf einen anderen IP-Block zu wechseln ist dabei seit über einer Dekade auch nichtmehr so hoch. Es ist ja alles Unified Memory und an Daten muss da nichts kopiert werden (auf Ebene des RAMs).
Ergänzung ()

Matthias B. V. schrieb:
Bin gespannt wann und wie vor allem Apple / Qualcomm / NVIDIA diese IP bei sich verarbeiten. MediaTek wird wie immer einfach den Standard übernehmen…
Apple hat beim M4 bereits ARMv9.2-A im Einsatz inkl. SME2. Wobei seit dem Apple M1 die AMX Matrixerweiterung bereits auf dem Silizium sitzt, nur nicht offiziell[1] und nach [2] ist Apple AMX und SME nicht das Selbe.

Qualcomm streitet sich noch mit ARM, ob/wann ARMv9 in deren Designs landet bleibt abzuwarten. (aber ich habe den Streit zwischen Qualcomm und ARM auch länger nicht mehr verfolgt)

[1] https://github.com/corsix/amx
[2] https://arxiv.org/pdf/2409.18779
 
Zuletzt bearbeitet:
Piktogramm schrieb:
Zudem es meines Wissens im Umfeld von ARM + Partnern kein einheitliches Framework gibt.
App-Entwickler sollen ja KleidiAI targeten, dann soll alles easy direkt laufen.
 
@nlr

"einheitliches Framework" war der Rahmen. Nach [1] ist das ein AI Framework für ARM CPUs. Daher ist das Ding nicht geeignet ARM Ethos (NPU) oder ARM Mali/Immortalis (GPU) anzusprechen. Ganz zu schweigen davon, dass der Spaß auf IP von Dritten läuft. Es ist schlicht eine Insellösung für ARM CPUs. Wobei selbst CPUs mit SME2 prinzipbedingt beim Durchsatz und Effizienz immer Nachteile haben werden gegen GPUs/NPUs. Wobei auf Smartphones grob alles an Multimediakram sowieso über DSP/NPU bzw. GPU läuft. KI Interferenz auf der CPU bedeutet also ein Kontextwechsel zur CPU, anstatt den Kontext auf dem dafür spezialisiertem IP-Block zu belassen. Bei allem was ein Notebook oder größer ist gibt es deidzierte Hardware, deren Bandbreite jeden modernen CPU-Cluster überflügelt.


Als groben Vergleich eines "einheitlichen Frameworks" mal Microsofts ONNX
  • Läuft unter Windows, Linux Distributionen, Android
  • x86 und ARM CPUs
  • Bei Beschleunigern wird DirectML (DirectX kompatible Lösungen u.a. Qualcomm, AMD, Nvdia), ROCm (AMD GPU + NPU), CUDA (Nvidia GPU/Tensor), ObenVINO (Intel)
Das leuchtet mir jetzt nicht ein, wieso KleidiAI ein sinnvolles Ziel sein sollte.

[1] https://github.com/ARM-software/kleidiai
 
Jetzt wissen wir auch was die 3 Kerne mit dem Codenamen Alto im Dimensity 9500 sind.
War auch nötig ne Zwischenversion zu haben. Die 7xx Kerne sind immer mehr zum low-cost verkommen, da area efficiency im Vordergrund steht und der x925 hat so einen großen Sprung gemacht (sowohl bei Performance als auch Fläche). Jetzt noch mal so einen Sprung und die Teile werden riesig sein so dass den außer im high-end keiner einsetzen wird.
Ein Premium Core mit dann etwa X4 Performance könnte mal wieder Schwung in die Mittelklasse bringen. Da hängen wir seit Jahren bei etwa A77 Performance.
 
  • Gefällt mir
Reaktionen: Haldi und guggi4
Mal schauen ob ARM damit einen Versuch wagen wird in den Desktop für Privatnutzer vorzudringen.
 
Haldi schrieb:
Die Hardware dazu haben sie ja nun...
Jetzt müssten sie nur noch passende AI Software haben ^^


mit Apple verwechselt sorry.
Früh am Morgen.
Mir passiert sowas eher später am Abend/Nacht😀. Und, wenn KIs "halluzinieren" dürfen, kann Mensch sich auch mal irren 😜. Das muss drin sein!
Ergänzung ()

@nlr : Allgemein wird's jetzt richtig spannend - auch weil ARM zeigen will, daß sie durchaus große und starke Kerne "können".
Frage: Hat ARM irgendwas zu Programmierhilfen für SMEs erzählt? Denn SVEs, ursprünglich ja von Fujitsu und ARM zusammen für die A64FX Kerne (in Rikens Fugaku Supercomputer) entwickelt, haben den Ruf, für Entwickler eher kompliziert und sperrig zu sein. Sieht man auch darin, daß nur wenige Programme SVE nutzen. Bietet ARM hier Ressourcen, die es einfacher machen, SMEs aufzurufen?
 
Zuletzt bearbeitet:
Egal wie man zum AI-Thema steht, dass AI-Performance bei der Hardware-Entwicklung eine gewisse Prio hat, ist auf jeden Fall eine gute Sache. Kommen wirds, ob man nun will, oder nicht, aber wenn schon, dann lieber lokal als auf dem Server von kalifornischem Unternehmen XY.

anexX schrieb:
Wenn ARM so weiter macht dann haben wir in 20 Jahren Gaming PCs die so gross sind wie ne Packung Cigs. :smokin:
Leistungstechnisch ist ein High-End Smartphone auch heute schon ein Low- bis Mid-Tier Gaming-PC, Problem ist eher Kompatibilität und Verfügbarkeit. RE, AC, Death Stranding und ähnliche sind ja gute Beispiele.

Piktogramm schrieb:
Als groben Vergleich eines "einheitlichen Frameworks" mal Microsofts ONNX
  • Läuft unter Windows, Linux Distributionen, Android
  • x86 und ARM CPUs
  • Bei Beschleunigern wird DirectML (DirectX kompatible Lösungen u.a. Qualcomm, AMD, Nvdia), ROCm (AMD GPU + NPU), CUDA (Nvidia GPU/Tensor), ObenVINO (Intel)
Das leuchtet mir jetzt nicht ein, wieso KleidiAI ein sinnvolles Ziel sein sollte.
Aber so wie ich das verstehe sind das ja keine Alternativen, sondern spielen zusammen:
1757522960010.jpeg
 
  • Gefällt mir
Reaktionen: Piktogramm
Zurück
Oben