Notiz CPU-Gerüchte: Apple soll an M1-Prozessor mit 32 Kernen arbeiten

Autokiller677 schrieb:
Die aktuelle Architektur im M1 zieht einen Teil ihrer Performance auch aus der sehr niedrigen Latenz zum RAM, weil der direkt auf dem Package mit angebunden ist. Und dazu ein Shared-Speicher zwischen allen Modulen ist.

Da wieder auf getrennten RAM zu gehen - und eventuell auch noch abgetrennten GPU-Speicher - würde bedeuten, dass Programme auf zwei unterschiedliche Speicherarchitekturen optimiert werden müssen.

Vielleicht geht es nicht anders. In allen Macs eine Speicher-Architektur wäre aber schöner und für die Programmierer einfacher.

Das ist die Frage, die ich mir auch stelle. Hybrid-Lösung?

Interessant ist, dass die M1 weniger RAM als x86 Systeme benötigen, da die Daten effizienter verarbeitet werden.
 
Autokiller677 schrieb:
Da wieder auf getrennten RAM zu gehen - und eventuell auch noch abgetrennten GPU-Speicher - würde bedeuten, dass Programme auf zwei unterschiedliche Speicherarchitekturen optimiert werden müssen.

Vielleicht geht es nicht anders. In allen Macs eine Speicher-Architektur wäre aber schöner und für die Programmierer einfacher.
Überschätzt du nicht, wie viele Low-Level Optimierungen in den meisten Desktopprogrammen stecken? Meistens wird die Selbe codebasis ja ohnehin über viele, viele HW-Generationen weiterentwickelt (oft auch noch cross platfomr). Von ein paar extrem performancekritischen Stellen dürfte da (wenn überhaupt) nichts auf genau einen Latenz oder Speicherbandbreitenwert optimiert werden.
Separater Grafikspeicher ist zwar sicherlich relevanter aber außerhalb von Spielen vermutlich auch eher nur was, was von der Gui Bibliothek wegabstrahiert wird.
 
bensen schrieb:
Das ist doch abwegig. Da braucht man nicht großartig optimieren. Wir stellst du dir das vor? 32 Kerne + dicke GPU wird sicher kein einzelner Die.

Hab ich das behauptet? Nein.
Ich sagte nur, dass es wünschenswert wäre, damit man nicht verschiende Speicherarchitekturen adressieren muss. Apple könnte möglicherweise versuchen, da dran zu bleiben - z.B. zumindest 16 / 32GB RAM mit im Package lässt oder so.

Das die 2TB RAM mit ins Package packen, sehe ich auch nicht. Habe ich aber auch nie behauptet.
 
Egal wie es kommt, es profitiert am Ende nicht nur Apple, sondern der Kunde.

Ich persönlich bin überzeugt davon, dass der M1 eine Ära einleitet. Jeder, der die neuen Chips mal live erlebt hat, wird das unterschreiben.
 
  • Gefällt mir
Reaktionen: kaji-kun
Miuwa schrieb:
Überschätzt du nicht, wie viele Low-Level Optimierungen in den meisten Desktopprogrammen stecken? Meistens wird die Selbe codebasis ja ohnehin über viele, viele HW-Generationen weiterentwickelt (oft auch noch cross platfomr). Von ein paar extrem performancekritischen Stellen dürfte da (wenn überhaupt) nichts auf genau einen Latenz oder Speicherbandbreitenwert optimiert werden.
Separater Grafikspeicher ist zwar sicherlich relevanter aber außerhalb von Spielen vermutlich auch eher nur was, was von der Gui Bibliothek wegabstrahiert wird.

Naja, es geht ja um dem MacPro. Performancekritisch ist also genau die Region, wo wir unterwegs sind.

Aber ja: Das wird meist nicht jeder Entwickler in seinem Programm selbst erledigen, sondern in irgendwlechen Libraries und SDKs wegabstrahiert. Aber diese Sachen fallen ja auch nicht vom Himmel, sondern müssen geschrieben werden.

Zumal es beim Grafikspeicher auf dem MacPro weniger um Spiele, sondern um Compute gehen wird. Und da ist die Abstraktionstiefe meist nicht sooo groß, da ist man auch als "High-Level" Entwickler schnell mal dabei zu überlegen, ob man einen Datensatz jetzt im GPU Memory ablegt oder oder bei der CPU lässt und wie und wann man denn hin- und herkopiert. Da habe ich von Kollegen schon einigen Jubel gehört, dass zumindest die Kopiererei jetzt mit Smart Access Memory (und den andes gebrandeten Klonen davon) weniger wird.

Ein komplett gleichwertig zu GPU und CPU angebundener Speicher ist da für manche Compute-Sachen schon nett. Natürlich nicht für alles, gibt auch wieder Fälle, wo einfach die Rechenleistung der Flaschnehals ist und die Kopiererei nur Peanuts ausmacht.
 
AMD hat zumindes mal die letzten 6 Jahre (mit CEO Lisa Su) Jahre lang an dem Erfolg gearbeitet, den sie jetzt zu recht feiern. Sicher, Apple hat ganz ganz ganz andere Geldmittel. Aber Geld allein ist eben auch ncht immer alles in so einem hochtechnischen Bereich. Sonst hätte intel ja bereits längst eine Gegenwehr aufgestellt. Am Geld lags aber offensichtlich nicht, dass intel aus seinen 5nm und 3nm Träumen ganz schnell erwacht ist und froh ist, jetzt endlch funktionierendes 10nm anbieten zu können. Und bei Apple sehe ich eben auch, dass der große Visionär und Stratege bereits seit fast 10 Jahren fehlt und bahnbrechende Innovationen zunehmend Mangelware im Apfelland sind. Man wird sehen. Aber die Messlatte für HEDD-PCs oder Server liegt bei intel wie bei AMD auf beeindruckend hohem Niveau.
 
  • Gefällt mir
Reaktionen: Maxxx800
[F]L4SH schrieb:
Liefe das nicht auf einen 800mm^2 5nm Die hinaus?


800mm² (AltGr+2) ist noch nicht wirklich viel.

btt:

Der "on-die" Ram könnte am Ende wirklich als "Chip-Ram" oder "konventioneller Ram" in die Geschichte eingehen. Natürlich, ohne das Spielchen mit himem.sys (*edit highmem ist natürlich falsch) oder Fast Ram Gedöns.

mfg

p.s.

Volker schrieb:
Bei fast 70 Prozent Adblockern unter den eingeloggten Usern hier

Das ist ja fast erschreckender, als dass ihr nur 1.5k Pro-User habt. Die Content Leecher und Geiz ist geil Mentalität, hört irgend wo niemals auf :(

Da ich vom ersten Tage an, ein "Pro-User" bin, darf ich das sagen. :evillol:
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Smartbomb, mm19 und AlphaKaninchen
ridgero schrieb:
4 Performance Cores vom M1 brauchen 12 Watt unter voller Last, die 4 Low Power Cores brauchen zusammen 1 Watt.
Das PowerTarget im Mac Mini scheint eher bei ~28W zu liegen
https://www.anandtech.com/show/16252/mac-mini-apple-m1-tested
bzw. hat der selbe Autor mit CPU+GPU 32,6W Package Power erreicht und bei reiner CPU-Last 21W

Dickere Appe Chips werden tendenziell also auch einen hohen Bedarf an elektrischer Energie und entsprechende Kühlung haben. Vor allem benötigen dicke Designs zunehmend komplexere Buse zur Kommunikation und meist auch mehr Ebenen bei Caches (oder absurd komplexe Caches)

Autokiller677 schrieb:
Die aktuelle Architektur im M1 zieht einen Teil ihrer Performance auch aus der sehr niedrigen Latenz zum RAM, weil der direkt auf dem Package mit angebunden ist. Und dazu ein Shared-Speicher zwischen allen Modulen ist.

Da wieder auf getrennten RAM zu gehen - und eventuell auch noch abgetrennten GPU-Speicher - würde bedeuten, dass Programme auf zwei unterschiedliche Speicherarchitekturen optimiert werden müssen.

Vielleicht geht es nicht anders. In allen Macs eine Speicher-Architektur wäre aber schöner und für die Programmierer einfacher.
LPDDR Bringt normalerweise keine besseren Latenzen mit sich und auch die Entfernung von SoC zum Ram macht das Kraut nicht fett. 20cm Signal durch Kupfer bedeutet ~7*10-10s (0,7ns) je Strecke. Zufällige Zugriffe auf den RAM liegen jedoch im Bereich 100ns.
1607359006278.png

Quelle: https://www.anandtech.com/show/16252/mac-mini-apple-m1-tested

Und Speicherarchitekturen sind den meisten Programmierern egal. Sowas abstrahieren moderne Programmiersprachen und Compiler weg. Wobei diese mit dem Ziel arbeiten, dass kritische Pfade in Programmen nach Möglichkeit komplett aus den L1 Instruction Cache laufen und bei Daten nach Möglichkeit alles aus L1 Data und dem L2 Cache kommt. Alles was aus höheren Cacheebenen oder gar dem Arbeitsspeicher kommt versaut die Performance. Das sind also keine Ziele beim Optimieren, falls doch mal jemand so tief runter geht.

Sieht man auch ganz gut am Diagramm, L1 Cache schafft ~1ns oder kürzer, und schon der L2 ist mit ~6ns deutlich langsamer und die ~100ns vom Ram sind schlicht absurd (schlecht).
 
  • Gefällt mir
Reaktionen: smalM
[F]L4SH schrieb:
Für ein Profigerät müsste man vermutlich weitere Instruktionen (AVX und co.) hinzufügen
Das ist ein ARM Chip also wenn SVE und das hat der M1 glaub schon... wurde immerhin mit ARMv8.2 eingeführt und der M1 ist ARMv8.6
 
  • Gefällt mir
Reaktionen: [wege]mini
AlphaKaninchen schrieb:
Das ist ein ARM Chip

Ob es Sinn ergibt, einen RISC Chip mit CISC Befehlen zu versehen, muss man natürlich dann immer von Fall zu Fall entscheiden.

Bei Apple wissen sie aber auf jeden Fall, was sie machen.

mfg
 
  • Gefällt mir
Reaktionen: AlphaKaninchen
ridgero schrieb:
Interessant ist, dass die M1 weniger RAM als x86 Systeme benötigen, da die Daten effizienter verarbeitet werden.
ist halt Shared, macht eine Xbox oder PS4/5 auch so, nur PCs größtenteils nicht weil keine (AMD) APU...
Ergänzung ()

Hayda Ministral schrieb:
Nicht on die! On Package!
On die wäre Ja noch schöner... :daumen:
 
AlphaKaninchen schrieb:
Das ist ein ARM Chip also wenn SVE und das hat der M1 glaub schon... wurde immerhin mit ARMv8.2 eingeführt und der M1 ist ARMv8.6
SVE ist optional und bei allem was ich weiß hat der M1 maximal 128bit breite ALUs, was sehr auf NEON hindeutet und nicht auf SVE.

[wege]mini schrieb:
Ob es Sinn ergibt, einen RISC Chip mit CISC Befehlen zu versehen, muss man natürlich dann immer von Fall zu Fall entscheiden.
Jene die CPUs entwerfen wissen, dass die pure Lehre von CISC/RISC auch mit den puren Nachteilen dieser Ansätze einhergehen. Entsprechend nähern sich x86 und ARM eher MISC (M für Mixed) an.

@ridgero @AlphaKaninchen
Tendenziell brauch ARM als RISC eigentlich etwas mehr Ram. Das Macs mit RAM effizienter umgehen ist dann eher ein Feature vom MAC OS. Tendenziell nutzen auf dem MAC mehr Programme "shared libraries" anstatt jede Bibliothek selbst mitzubringen und in den Ram zu laden. Zusätzlich nutzt MacOS Kompression vom Ram.
Da hätte Windows potential...
 
  • Gefällt mir
Reaktionen: [wege]mini und AlphaKaninchen
Autokiller677 schrieb:
Hab ich das behauptet? Nein.
Wie soll das sonst gehen?
Verschiedenen Dies mit Zugriff auf gemeinsamen Speicher?

Ich sagte nur, dass es wünschenswert wäre, damit man nicht verschiende Speicherarchitekturen adressieren muss. Apple könnte möglicherweise versuchen, da dran zu bleiben - z.B. zumindest 16 / 32GB RAM mit im Package lässt oder so.
Was soll der nutzen sein? Das macht nur Sinn, wenn der Speicher in Package viel schneller wäre.
 
bensen schrieb:
Was soll der nutzen sein?

Dies on Package zu verbinden bedeutet höhere Geschwindigkeit und/oder geringeren Energiebedarf pro Bit. Sehr gut zu beobachten bei HBM, bei Intels Dinosaurier CPU mit angeflanschter AMD-GPU, bei Embedded Systemen, bei AMDs ZEN....
 
  • Gefällt mir
Reaktionen: AlphaKaninchen
ridgero schrieb:
4 Performance Cores vom M1 brauchen 12 Watt unter voller Last, die 4 Low Power Cores brauchen zusammen 1 Watt.
Der M1X soll 8 Performance Cores haben, dh. kumulativ 25 Watt für eine 12 Core CPU unter Volllast. Das wäre absolut crazy.
Der M1 braucht maximal ca. 21 W für die CPU-Cluster; dabei werden alle Cores voll ausgefahren und gemessen direkt auf dem SoC. Ein "M1X" könnte also für die CPU-Cluster schon mal auf 42 W kommen.
Die GPU des M1 verbrät bis zu 10 W; rechnen wir mit 16 GPU-Kernen im "M1X", stehen also zusätzliche 20 W auf dem Plan.
Das ist aber keine TDP welcher Art auch immer, das sind Maximalverbräuche mit synthetischer Last, im Normalbetrieb würde der SoC immer deutlich darunter bleiben.

Piktogramm schrieb:
Sieht man auch ganz gut am Diagramm, L1 Cache schafft ~1ns oder kürzer, und schon der L2 ist mit ~6ns deutlich langsamer und die ~100ns vom Ram sind schlicht absurd (schlecht).

Die L1-Latenz ist nur 3 Takte. RAM ist irgendwo bei 300 Takten. Bei 3,2 GHz.
Deshalb hat der liebe Gott ja auch erst den L2 erschaffen und schnell noch vor dem siebten Tag den SLC... :D

AlphaKaninchen schrieb:
Das ist ein ARM Chip also wenn SVE und das hat der M1 glaub schon... wurde immerhin mit ARMv8.2 eingeführt und der M1 ist ARMv8.6
Der M1 ist gesichert ARMv8.4-A mit ein paar Erweiterungen von ARMv8.5-A.
 
Zuletzt bearbeitet von einem Moderator:
Volker schrieb:
Als wenn Vega nun das Aushängeschild für beste GPU wäre. Da hängen die Früchte auch nicht mega-hoch^^
Vega ist nunmal das höchste, was es im Mac Pro gibt. Kann ich ja nichts für^^ Apple mag Nvidia ja nicht mehr.
Vega fand ich damals schon schlechter als Pascal, und RDNA1 würde ich auch nicht mal geschenkt wollen, außer in einem Mac (wo es wohl keine Absturzprobleme gibt?!)

ridgero schrieb:
Interessant ist, dass die M1 weniger RAM als x86 Systeme benötigen, da die Daten effizienter verarbeitet werden.

Nicht direkt. M1 Macbooks brauchen genau so viel Ram, wie vorher auch. Vllt sogar mehr, falls Rosetta da mehr belegt.
Aber Kompression + Swap ist dank Unified Memory einfach besser/schneller machbar.

Wenn eine Anwendung mehr als 8gb Ram belegen muss, dann reicht das auch beim M1 nicht.
 
  • Gefällt mir
Reaktionen: AlphaKaninchen
Zum Mac Pro ich glaube ja, dass die Folie vom M1 auf dem Fabric ganz groß ist ein Hinweis ist wo die Reise hingeht. Ich denke dabei n ein System wo jede Karte mehrere SoCs hat und diese dann verbunden werden ähnlich einem Super Computer...
Ergänzung ()

smalM schrieb:
Die L1-Latenz ist nur 3 Takte. RAM ist irgendwo bei 300 Takten. Bei 3,2 GHz.
Deshalb hat der liebe Gott ja auch erst den L2 erschaffen und schnell noch vor dem siebten Tag den SLC... :D
:D
 
Hayda Ministral schrieb:
Dies on Package zu verbinden bedeutet höhere Geschwindigkeit und/oder geringeren Energiebedarf pro Bit.
Es ging um on Package DRAM (oder gar PoP) zuzüglich zum externen Arbeitsspeicher.
 
Zurück
Oben