Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden. Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
NewsArm Lumex CSS Platform: Neue C1-Kerne führen SME2 für AI direkt auf der CPU ein
Die Arm Lumex CSS Platform führt das C1-CPU-Cluster als Nachfolger der bisherigen Cortex-Kerne ein. Dabei setzt Arm durch die Bank auf die Scalable Matrix Extension 2 (SME2) für schnelles und effizientes AI direkt auf der CPU. Vier neue Kerne, ein neuer Interconnect und mehr schrauben die Leistung hoch und den Verbrauch runter.
Toller Artikel. Ich muss sagen ich hab ein paar Sachen überflogen, aber ich finde es gut, dass es trotzdem alles so detailliert geschrieben steht.
Genau für eine solche Arbeit zahle ich mein Abo gerne
Bezüglich des Themas KI, macht das wirklich so viel Sinn es in die Kerne zu integrieren, statt es extern zu haben? Oder ist es wie bei MS Office einfach nur ein Grund die Kosten hoch zu schrauben?
ARM hat es auf der Folie im Artikel eigentlich schon gut dargestellt... solange die CPU schnell und effizient genug ist, will man eigentlich alles auf der CPU direkt laufen lassen, man wechselt nur auf zusätzliche Beschleuniger wenn man muss. SME2 ist dafür eine sehr gute Idee, taugt es doch nicht nur für AI, sondern auch für alles andere an rechenlastigen Aufgaben.
Zum einen ist es schon der Hammer, dass die bei manchen Kernen noch 30% Leistung/Effizienz bei gleicher Fertigung rausholen. Zum anderen ist die Verlagerung grundlegender AI Funktionen auf die CPU aus Gründen der Latenz Imho sowieso die Zukunft
Die Zukunft wird auf jeden Fall immer schwieriger für AMD und Intel und x86.
Mal sehen was davon in tatsächlicher Leistung ankommt. Der Aufwand mit dem hier potentiell Kapital für KI Bullshit verbrannt wird ist schon beeindruckend. Ich bin gespannt welche tollen Apps uns mit lokalen Killeranwendungen beglücken werden. Ein Hype ohne Nachfrage beim Endkunden.
Ich will das ding in Geräten sehen und dann Praktische Tests. Mal sehen wann auch die Softwareseite mit Arm aufgeholt hat. Dann wird es wirklich spannend ob eines das andere verdrängt oder ob beides co existiert
Bei ARM bedeutet "High-end": Das zweit kleinste Modell, oder halt die Out of Order Sparvariante.
Für eine Firma, die IP-Blöcke verkauft, ist das Namensschema und die technische Tiefe der Folien echt mau.
SME auf der CPU, es gibt also DSPs/NPUs für Matrixoperationen, die GPU und die CPU. Da haben die Softwareentwickler sicher total Bock potentiell für alle Targets zu entwickeln. Zudem es meines Wissens im Umfeld von ARM + Partnern kein einheitliches Framework gibt.
Der Overhead von der CPU auf einen anderen IP-Block zu wechseln ist dabei seit über einer Dekade auch nichtmehr so hoch. Es ist ja alles Unified Memory und an Daten muss da nichts kopiert werden (auf Ebene des RAMs).
Ergänzung ()
Matthias B. V. schrieb:
Bin gespannt wann und wie vor allem Apple / Qualcomm / NVIDIA diese IP bei sich verarbeiten. MediaTek wird wie immer einfach den Standard übernehmen…
Apple hat beim M4 bereits ARMv9.2-A im Einsatz inkl. SME2. Wobei seit dem Apple M1 die AMX Matrixerweiterung bereits auf dem Silizium sitzt, nur nicht offiziell[1] und nach [2] ist Apple AMX und SME nicht das Selbe.
Qualcomm streitet sich noch mit ARM, ob/wann ARMv9 in deren Designs landet bleibt abzuwarten. (aber ich habe den Streit zwischen Qualcomm und ARM auch länger nicht mehr verfolgt)
"einheitliches Framework" war der Rahmen. Nach [1] ist das ein AI Framework für ARM CPUs. Daher ist das Ding nicht geeignet ARM Ethos (NPU) oder ARM Mali/Immortalis (GPU) anzusprechen. Ganz zu schweigen davon, dass der Spaß auf IP von Dritten läuft. Es ist schlicht eine Insellösung für ARM CPUs. Wobei selbst CPUs mit SME2 prinzipbedingt beim Durchsatz und Effizienz immer Nachteile haben werden gegen GPUs/NPUs. Wobei auf Smartphones grob alles an Multimediakram sowieso über DSP/NPU bzw. GPU läuft. KI Interferenz auf der CPU bedeutet also ein Kontextwechsel zur CPU, anstatt den Kontext auf dem dafür spezialisiertem IP-Block zu belassen. Bei allem was ein Notebook oder größer ist gibt es deidzierte Hardware, deren Bandbreite jeden modernen CPU-Cluster überflügelt.
Als groben Vergleich eines "einheitlichen Frameworks" mal Microsofts ONNX
Läuft unter Windows, Linux Distributionen, Android
x86 und ARM CPUs
Bei Beschleunigern wird DirectML (DirectX kompatible Lösungen u.a. Qualcomm, AMD, Nvdia), ROCm (AMD GPU + NPU), CUDA (Nvidia GPU/Tensor), ObenVINO (Intel)
Das leuchtet mir jetzt nicht ein, wieso KleidiAI ein sinnvolles Ziel sein sollte.
Jetzt wissen wir auch was die 3 Kerne mit dem Codenamen Alto im Dimensity 9500 sind.
War auch nötig ne Zwischenversion zu haben. Die 7xx Kerne sind immer mehr zum low-cost verkommen, da area efficiency im Vordergrund steht und der x925 hat so einen großen Sprung gemacht (sowohl bei Performance als auch Fläche). Jetzt noch mal so einen Sprung und die Teile werden riesig sein so dass den außer im high-end keiner einsetzen wird.
Ein Premium Core mit dann etwa X4 Performance könnte mal wieder Schwung in die Mittelklasse bringen. Da hängen wir seit Jahren bei etwa A77 Performance.
Mir passiert sowas eher später am Abend/Nacht😀. Und, wenn KIs "halluzinieren" dürfen, kann Mensch sich auch mal irren 😜. Das muss drin sein!
Ergänzung ()
@nlr : Allgemein wird's jetzt richtig spannend - auch weil ARM zeigen will, daß sie durchaus große und starke Kerne "können".
Frage: Hat ARM irgendwas zu Programmierhilfen für SMEs erzählt? Denn SVEs, ursprünglich ja von Fujitsu und ARM zusammen für die A64FX Kerne (in Rikens Fugaku Supercomputer) entwickelt, haben den Ruf, für Entwickler eher kompliziert und sperrig zu sein. Sieht man auch darin, daß nur wenige Programme SVE nutzen. Bietet ARM hier Ressourcen, die es einfacher machen, SMEs aufzurufen?
Egal wie man zum AI-Thema steht, dass AI-Performance bei der Hardware-Entwicklung eine gewisse Prio hat, ist auf jeden Fall eine gute Sache. Kommen wirds, ob man nun will, oder nicht, aber wenn schon, dann lieber lokal als auf dem Server von kalifornischem Unternehmen XY.
anexX schrieb:
Wenn ARM so weiter macht dann haben wir in 20 Jahren Gaming PCs die so gross sind wie ne Packung Cigs.
Leistungstechnisch ist ein High-End Smartphone auch heute schon ein Low- bis Mid-Tier Gaming-PC, Problem ist eher Kompatibilität und Verfügbarkeit. RE, AC, Death Stranding und ähnliche sind ja gute Beispiele.
Piktogramm schrieb:
Als groben Vergleich eines "einheitlichen Frameworks" mal Microsofts ONNX
Läuft unter Windows, Linux Distributionen, Android
x86 und ARM CPUs
Bei Beschleunigern wird DirectML (DirectX kompatible Lösungen u.a. Qualcomm, AMD, Nvdia), ROCm (AMD GPU + NPU), CUDA (Nvidia GPU/Tensor), ObenVINO (Intel)
Das leuchtet mir jetzt nicht ein, wieso KleidiAI ein sinnvolles Ziel sein sollte.