Zum Thema: Ein Tweet von Uniko Hardware:
https://x.com/unikoshardware/status/2021278790408864063
Das vollständige Leistungsprofil von Arrow Lake S, einschließlich PL2 und PL4, wurde bereits zuvor in den Medien veröffentlicht. 285 k = 8p16e auf einem einzelnen Rechenmodul. Es ist also nicht allzu weit hergeholt anzunehmen, dass das Dual-Rechenmodul ein PL2 von 500 W und ein PL4 von 800 W hat. Ich verstehe nicht, warum die Leute wegen dieser Zahlen so ausflippen und warum das überhaupt wichtig ist. 16p32e entspricht ohnehin der Workstation-/Server-Klasse.
Für den Arrow Lake gilt ohnehin:
Bild aus Tweet
stefan92x schrieb:
AMD hat halt pro CCD einen (intersected) Ringbus, an dem alle Cores hängen. Ebenso pro IOD einen Ringbus, an dem alle Kommunikationskanäle hängen. Verbunden werden diese Ringbusse über den Infinity Fabric,
Die Verbindungen zwischen den Ringbussen sind nicht
das Infinity Fabric. Sie sind nur
Bestandteil des Inifity Fabrics. Die Ringbusse im IOD und den CCDs und die Links übers Package sind alles Bestandteile des Infinity Fabric.
Bei den Zwei-Prozessor-Servern sind beide CPUs über das Infinity Fabric gekoppelt. Bei den Knoten von Frontier sind GPUs und CPU durch das Infinty Fabric gekoppelt.
Das Infinity Fabric ist eine neue Methode die AMD eingeführt hat um SoCs zu bauen. AMD hat die Arbeit am Infinity Fabric 2012 aufgenommen. Jede Komponente einer AMD CPU ist ans Infinity Fabric angeschlossen, woraus folgt: Alle Komponenten der CPU können über das Infinity Fabric miteinander kommunizieren. Was natürlich auch bedeutet, das Infinty Fabric muss die entsprechende Switches haben mit dem die Komponenten an das Infinity Fabric angeschlossen sind.
stefan92x schrieb:
und der verursacht eben Latenzen.
Die Latenzen werden AFAIU durch die ganzen Switches und Repeater (zumindest im IOD) im Inifinity Fabric verursacht. Wenn mehr Switches und mehr Repeater verbaut sind steigen natürlich auch die Latenzen.
Die SERDES an den IFoP (Infinit Fabric Link über das Package) haben zusätzliche Latenzen. Leider kann man den üblichen Latenzmessungen bei Zen 5 nicht mehr trauen. Sonst könnte man aus den Messungen für 9950X, Strix Point und Strix Halo Rückschlüsse auf die zusätzliche Latenz ziehen, die durch die SERDES verursacht wird Rückschlüsse.
Die Frage ist auch wie genau die Topologie des Infinity Fabrics tatsächlich ist. Bei den CCX bis Zen 2 mit 4 Kernen war es laut AMD Crossbar. Seit Zen 3 hat das CCX 8 CPU-Kerne und AMD sagt die Topologie wäre ein doppelter Ringbus.
Btw. Ringe skalieren nicht beliebig, jeder zusätzlich Knoten vergrößert die Latenz, weswegen Intel die E-Kerne nicht einzeln sondern in 4er Blöcken an den Ringbus hängt. IIRC werden bei Doppel-Ringen mit mehr als 10 Knoten die Latenzen problematisch.
stefan92x schrieb:
Intels Chiplet CPUs (also die Xeons) hingegen haben so etwas wie den Infinity Fabric nicht.
Intel verwendet bei den Client CPUs AFAIU auch einen Ringbus, um die Kerne zu verbinden.
Bei den Server CPUs gibt es AFAIU einige Varianten mit "Mesh"-Topologie.
stefan92x schrieb:
Die sind nach wie vor eine einzelne logische CPU, die einfach "durchgeschnitten" und durch das Packaging wieder zusammengefasst wird. Das bedeutet dann eben, dass Intel nicht frei kombinieren kann wie AMD, aber eben auch dass die einzelnen Chiplets logisch viel besser gekoppelt sind.
Auch Intel kann Kerne auf verschiedenen Dies haben, siehe die LPE Cores und die neueren Server CPUs. Nova Lake ist also nicht die erste CPU von Intel mit CPU Kernen auf verschiedenen Dies.
Auch zwischen den Kernen in CPUs von Intel gibt es Latenzen. Was nicht verwundert, die Ringbusse von Intel benötigen Switches und eventuell auch Repeater. AFAIU hat Intel bisher im Client nur die LPE Cores in einem anderen Die gehabt.
Diese Latenzen bei Intel auf einem Die sind lt. Messungen schlechter als die Latenzen von AMD im CCD und besser als die Latenzen von AMD zwischen den CCD.
- Kern A => Ringbus CCD0 => Kern B
- Kern A => Ringbus CCD0 => Port CCD0 => IFoP => Port1 IOD => Ringbus IOD => Port 2 IOD => IFoP => Port CCD1 => Ringbus CCD1 => Kern B
Messung von Anandtech.
Zu beachten ist IMO:
- Die Latenz zwischen den Threads desselben Kerns beträgt mehr als 6 ns.
- Im CCD: Die Differenz beste und schlechteste Latenz eines CCDs ist deutlich kleiner als die beste Latenz.
- CCD to CCD: Die Differenz beste und schlechtes Latenz ist praktisch dieselbe wie im CCD, seltsam
Dass bei 2. schlechtere Latenzen herauskommen, ist nicht überraschend. Aber es ist eben nicht nur die Die to Die Verbindung die sich auswirkt.
Ob Intel bei Nova Lake zwischen den Dies bessere Latenzen als AMD erreicht, bleibt abzuwarten.
foofoobar schrieb:
So pauschal sollte man diese Aussage nicht treffen:
https://github.com/nviennot/core-to-core-latency
Danke, diese Site kannte ich noch nicht.