News Intel Nova Lake: Cache-Größen der Core Ultra 400 entschlüsselt

Der L2 Cache soll nun für 2P Clusterkerne insgesamt 4 MB haben. Sehr wahrscheinlich wird dann der Hauptthread eines Games in der Praxis bei vielen Spielen davon profitieren. Dies könnte den CPU Bottleneck nach oben verschieben und insbesondere auch die 1% lows verbessern.
 
  • Gefällt mir
Reaktionen: Fallout667
lejared schrieb:
was du beschreibst, baut Intel nicht, denn die 52 Kerne werden sich auf zwei separate Dies verteilen und damit genauso wie beim großen AMD Prozessor nicht gemeinsam auf den gesamten Cache zugreifen können.
Was ich "beschreibe" ist eine CPU, bei der alle Kerne Zugriff auf einen stark vergrößerten Cache haben. Sprich, wenn man auf die "kleinen" CPUs schielt, 24 Kerne mit großen Cache, für die man keine 900€ verlangt wie die Konkurrenz derzeit.
Ergänzung ()

lejared schrieb:
Da die zusätzliche Cachegröße direkt von der Anzahl der Kerne abhängt, gehe ich nicht davon aus, dass das ein großer Unified Cache für alles ist, sondern individuelle kleine Caches die nicht von allen Kernen gemeinsam genutzt werden können.
Ich zitiere hierzu einfach Igor zum Panther Lake Test, anders wird sich der vergrößerte Cache nicht verhalten. Das ist nämlich genau das was Intel mit der letzten CPU Generation geändert hat.
Während frühere Designs wie Arrow Lake oder Lunar Lake die Effizienzkerne noch über eine separate Verbindung außerhalb des zentralen Cache-Rings anbanden, integriert Panther Lake nun alle Kerne – sowohl P- als auch E-Cores – in einen gemeinsamen L3-Cache-Ring. Diese Vereinheitlichung sorgt dafür, dass Daten, die zwischen den verschiedenen Kernarten ausgetauscht werden, nicht mehr über das SoC-Fabric laufen müssen. Dadurch sinken sowohl die Latenzen als auch der Energieverbrauch pro Zugriff.
Der L3-Cache fungiert in dieser Struktur als letzte gemeinsame Speicherstufe, die nicht nur Daten zwischenpuffert, sondern auch die Kohärenz zwischen allen Recheneinheiten sicherstellt. Wenn der Scheduler Threads zwischen P- und E-Cores verschiebt, können diese ohne vollständiges Neuladen aus dem Arbeitsspeicher fortgesetzt werden, da die relevanten Cache-Zeilen im gemeinsamen L3-Bereich erhalten bleiben. Das verbessert die Reaktionszeiten insbesondere bei Anwendungen, die häufig den Kern wechseln oder stark parallelisiert arbeiten.

Der L3 Cache war bei Intel schon praktisch immer von allen Kernen zugreifbar, selbst bei großen Server-CPUs. So können die Threads weitgehend problemlos zwischen den Kernen geschoben werden, was auch auch der treibende Faktor der hybriden Architektur ist.
Das Kohärenzsystem von Panther Lake wurde deutlich erweitert, um den gestiegenen Anforderungen einer stärker modularen Architektur gerecht zu werden. Jeder Cluster aus P- und E-Cores verfügt über eigene Coherency-Agents, die dafür sorgen, dass alle Kerne innerhalb des jeweiligen Blocks stets mit einem konsistenten Speicherabbild arbeiten. Diese lokalen Agenten übernehmen die Verwaltung der Cache-Zustände und koordinieren Lese- und Schreibzugriffe innerhalb des Clusters. Übergeordnet ist ein zentraler Home Agent angesiedelt, der die Kommunikation zwischen den Clustern sowie zwischen Compute-, GPU- und Plattformcontroller-Tile steuert. Dadurch können mehrere Recheneinheiten gleichzeitig auf denselben Speicherbereich zugreifen, ohne dass es zu Datenkonflikten oder redundanten Transfers kommt.
https://www.igorslab.de/evolution-o...rchitektur-effizienz-und-softwareintegration/
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Fallout667
ArrakisSand schrieb:
auch etwas (Trump Inside) zu finden ist,
würde ich mir den Kauf einer Intel CPU lieber gut überlegen.
Eine gute Idee. Hat aber keine Wirkung. Ich mein, man müsste ja dann eine Entscheidung außerhalb des "ich will" treffen. Also Haltung zeigen. Das geht Mal überhaupt nicht.
 
Alesis schrieb:
Eine gute Idee. Hat aber keine Wirkung. Ich mein, man müsste ja dann eine Entscheidung außerhalb des "ich will" treffen. Also Haltung zeigen. Das geht Mal überhaupt nicht.
Tatsächlich war das noch eine der intelligenteren Entscheidungen die er getroffen hat, aber ja, man könnte bis zum Auswechseln boykottieren.
Ohnehin läuft ein Intel/AMD Kauf stets in Amerikanisches Budget, eine Europäische CPU gibt's nicht wirklich. Leider.
Ergänzung ()

DevPandi schrieb:
Wenn es dann gut wird: Warum nicht!

Gnagh 27 könnte wieder teuer werden. Zum Glück steht Lohnerhöhung an. XD
Naja meine jüngste wird 10, da darf sie einen PC haben.
Bin nur am überlegen welcher Formfaktor...
Entweder ein Mini PC, oder was zum selber basteln
 
DarkStarXxX schrieb:
Dann doch lieber 24 vollwertige Kerne.
Hängt denke ich mal ganz von der Aufgabe die man dem Teil primär gibt ab. Fürs Gaming ist sowohl intels 52kerner als auch AMDs wahrscheinlicher 24kern Vollausbau komplett overkill.
Bei allem anderen wirds wohl davon abhängen womit die Arbeitslast skalliert und ob sie viel von SMT profitiert.
Wobei wir natürlich immer noch abwarten müssen wie groß die Kluft zwischen P-Kernen, E-Kernen und AMDs Zen6 Kernen sein wird.
 
mae schrieb:
Die Latenz haengt vom einzelnen Speicherzugriff ab und ist WIMRE im Durchschnitt schlechter als bei einem AMD-CCX.
AMD baut halt nach oben und nicht flach, was bei Cache Bandbreite und Latenz den negativen Größenskalierungseffekt effektiv schmälert bis fast eliminiert.
Mal sehen wie Intel das am Ende löst. Technisch 144MB flach da rein zu bauen geht, sollte pauschal aber Nachteile ggü. der kleinen Version haben.
mae schrieb:
Wie sie das ganze bei den Prozessoren mit 2 CPU-Dies machen, weiss ich nicht.
Vielleicht ähnlich wie bei AMD oder Dual/Multi Die Xeons? Gemeinsamer Addresspace und intern aber vielleicht trotzdem Pfade zum jeweils nächsten L3 Teil um Interconnect Traffic zu minimieren?

Letztlich könnte sogar am Ende auch wieder Software stehen ala GameBar um den Task links oder rechts zu halten und so dem Problem aus dem Weg zu gehen?
 
Finde zwar die Technikartikel sehr interessant aber für meinen Gaming PC reichen heute schon die Preis- Leistungs CPU's dicke aus. Von daher bin ich nicht mehr so heiß auf neue CPU-Generationen wie früher.
ArrakisSand schrieb:
Seit Intel teilverstaatlicht wurde und somit in jeder Intel CPU auch etwas (Trump Inside) zu finden ist,
würde ich mir den Kauf einer Intel CPU lieber gut überlegen.
Schon fast ein Argument für mich, Intel zu kaufen und es dann hier vielen unter die Nase zu reiben. Du solltest aber auch bedenken, dass sich die Mitbesitzer von Intel so alle vier Jahre ändern können.
 
VR 4K etc. schrieb:
Der L2 Cache soll nun für 2P Clusterkerne insgesamt 4 MB haben. Sehr wahrscheinlich wird dann der Hauptthread eines Games in der Praxis bei vielen Spielen davon profitieren. Dies könnte den CPU Bottleneck nach oben verschieben und insbesondere auch die 1% lows verbessern.
L3 könnte das Ding ficken! L3 horzental "tile crossing" angeordnete....::

Warum fliegt AMD Ryzen allem davon? nicht wegem den L2... sondern dem L3... der direkt unter dem CCD liegt. 64mb l3 für bis zu 8 kernen... mit kaum signalzeitverlängerung! Simpel, billig... funktonal.... auch weil du dich nicht um den drecks sheduler vom OS kümmern musst, solange der auf dem CCD mit vcache bleibt.

Bei intel hat jedes packes seine eigene cach strukteru, und das teilt man sich... über nen RIngbus... hört sich kompliziert an! Wer und wie wird das orchestiret? Und selbst wen es perfekt läuft, braucht das Bit von einer chipseit links nach rechts länger, als von unten direkt nach oben.

Deshalb braucht es auch direkt 4 mal soviel L2! Zen5 hatz 1mb unshared richtig? korregiert mich gern wen mir die Lügenbots wieder unsinn um die ohren gehauen haben.... Aber 4 mal soviel l2 ist, schon eine hausnummer... aber pro tile ist halt l3 weit entfent von 96mb... in theorie mehr.... aber auch nur wen es perfekt funktioniert....

Bin auf jedenfall gespannt.... ich glaube nicht daran. Aber wen schon bin ich beeindruckt... wen... aber es sind schon viele wens... erinnert mich irgendwie an den 64 bit cpu... der ja auch in der theorie allem überlegen gewesen sein soll...

Aber abwarten... alles auf spezialiserte Kerne aufzuteilen, finde ich konzeptionel schon geiler.... Aber auch viel fehleranfälliger....bin echt gespannt ob das Top oder Flop wird.
 
Ui OK das ist also die Änderung. Nun haben die e Kerne also nen eigene k3 Cache. Villeicht ist das das Problem beim 265k. Sobald die p Kerne Vollgas geben ,bleibt den e Kernen die auch extra noch arbeiten zu wenig l3 Cache übrig. So das sie fast verhungern. Darum steigt dann die Zeit die sie brauchen auf das 3 fache an. Also je schneller die p Kerne arbeiten desto langsamer werden die e Kerne und desto wärmer wird die CPU. Das hat also Google KI mit die e Kerne wurden bei mir verhungern damit gemeint. Nun weiß ich das auch. Ja die Lösung könnte durchaus den Flaschenhals bei mir lösen wer weiß. Noch weiß ich ja nicht wie langsam der l3 Cache so ist und so.
 
CadillacFan77 schrieb:
Pro P-Kern sind es 12MB L3 Cache, die Frage ist kann Kern 1 auf den L3 von Kern 2 zugreifen, und wenn ja, wie schnell?
Wäre das nicht eine Art Virtualisierung der Caches? L2 und L3 jeweils als großes ganzes zu sehen und nutzen.

Finde ich endlich mal eine gute Neuerung. Nur wird dann die Software wieder hinterherhinken.
 
  • Gefällt mir
Reaktionen: lynx007
lynx007 schrieb:
Bei intel hat jedes packes seine eigene cach strukteru, und das teilt man sich... über nen RIngbus... hört sich kompliziert an! Wer und wie wird das orchestiret?

Jede physische Speicheradresse bekommt ueber eine Hash-Funktion einen Cache Slice zugeteilt. Wenn Adresse 123456 also das Cache-Slice 5 (von P-Kern 5) zugeteilt bekommt, und E-Kern 3 auf die Adresse 123456 zugreift, dann greift er auf das L3-Slice 5 zu. Und wenn P-Kern 6 auf dieselbe Adresse zugreift, dann greift er auf dasselbe Cache-Slice zu.
 
  • Gefällt mir
Reaktionen: lynx007
und die verteilung der physichen Slice steht in abhängkeit der signallaufzeit? was aber wen prozesse kookurieren oder sich stören? insbesondere wen es von einander abhängie Prozesse sind?

Ich mein klar, intel hat da nicht einfach den L2 grundlos vervierfacht.... auch um puffer zu haben... Aber ich habe glaube auch gelernt, wen 2 prozesse auf den gleichen speiche rzugreifen wollen, ist das schnell schlecht... wie stelle ich die integrität sicher. Das zeitkritsch?

Oder ist das schon wieder veralltet, überholt, weil gelöst? Bin gespannt wie gut es sich in der Praxis schlägt.
 
Zuletzt bearbeitet:
lynx007 schrieb:
und die verteilung der physichen Slice steht in abhängkeit der signallaufzeit?

Die Verteilung der Adressen auf die Cache-Slices erfolgt nur aufgrund der Adresse. Die Signallaufzeit haengt ja davon ab, welcher Kern auf die Adresse zugreifen will.

was aber wen prozesse kookurieren oder sich stören?

Wenn zuviele Kerne gleichzeitig auf Adressen im selben cache-slice zugreifen wollen, muessen wohl Zugriffe warten (also hoehere Latenz). Allgemeiner: Wenn zuviele Kerne gleichzeitig L2-cache misses haben (selbst wenn sie auf verschiedene Slices zugreifen wollen), gibt's einen Stau auf dem Ringbus, wie auch auf einer Stadtautobahn zur Stosszeit, obwohl die meisten Autos verschiedene Ausgangsorte und verschiedene Ziele haben.

insbesondere wen es von einander abhängie Prozesse sind?

Ob die Prozesse, die durch die hoeheren Latenzen langsamer werden, voneinander abhaengig oder unabhaengig sind, macht nicht viel aus. Aber es kann helfen, wenn die Prozesse auf dem selben Kern laufen, dann findet der abhaengige Prozess die Daten hoffentlich im L2-cache, und braucht in dem Fall gar nicht auf den L3 zugreifen. Nachteil, wenn beide Prozesse gleichzeitig laufen koennten: sie laufen (ohne SMT) abwechselnd, oder (mit SMT) muessen sich Hardware-Resourcen teilen. Also wenn die beide gleichzeitig laufen koennen, viel CPU brauchen, und wenig Daten austauschen, ist es sinnvoller, wenn sie auf verschiedenen Kernen laufen.

Bei den E-Kernen teilen sich 4 denselben L2-cache, da koennten die beiden Prozesse auf zwei E-Kernen desselben Clusters laufen, und brauchen keinen L3-cache, um miteinander zu kommunizieren. Jemand hat hier gepostet, dass Intel bei Nova Lake auch solche Cluster aus 2 P-Kernen haben wird, dann entsprechend auch da.

Aber ich habe glaube auch gelernt, wen 2 prozesse auf den gleichen speiche rzugreifen wollen, ist das schnell schlecht... wie stelle ich die integrität sicher. Das zeitkritsch?

Dazu kannst Du Dir viel ueber "concurrent computing" anschauen. Ja, Programmierer muessen sicherstellen, dass die Daten richtig bearbeitet werden, und die Architektur gibt gewisse Garantien dafuer, was die Hardware da tut. Und ja, dabei gibt es auch Faelle, wo gleichzeitige Zugriffe auf den selben Speicher zum Performance-Problem werden, und dann gibt es Moeglichkeiten, damit umzugehen.

Bin gespannt wie gut es sich in der Praxis schlägt.

Wie sich Intel's L3-Konzept in der Praxis schlaegt, siehst Du bei ihren Prozessoren seit vielen Jahren, und es gibt auch Leute, die das gemessen und die Messwerte veroeffentlicht haben.
 
BAR86 schrieb:
Ohnehin läuft ein Intel/AMD Kauf stets in Amerikanisches Budget, eine Europäische CPU gibt's nicht wirklich. Leider.
Zuerst ist es natürlich interessant wie Nova und Zen 6 werden. Und Leute die Intel kaufen, wollen natürlich mit Nova besser sein, als Leute die AMD kaufen und umkehrt. Damit man selber für sich sagen kann, ich habe die Entscheidung getroffen und ich bin so toll :D

AMD wäre auch überhaupt nicht in der Lage, den Markt zu 50% zu bedienen. Ich würde auch keiner AG unterstellen, dass das Sein als AG sich an irgendwelche moralischen Merkmale gebunden fühlt. Das können nur gesetzliche Rahmenbedingungen.
Und wie du schon schriebst, wir sind nur Bittsteller bei den IT Giganten. Wir sind auch keine Gemeinschaft und deswegen gibt es genügend, die gerne gegen diese EU pinkeln. Deswegen wird es keine europäische CPU geben können.
Wir können noch nicht einmal nach unseren eigenen definierten Menschenrechte und Menschenwürde leben. Mit wem sollen wir dann noch Geschäfte machen, wo kann man dann noch kaufen?
 
  • Gefällt mir
Reaktionen: BAR86
Was ich interessant finde ist die Tatsache das ein 14700k bei mir schneller wäre als der 265k. Mag sein daß ich das nur durch avx aus geschafft hatte weil die CPU schon sehr stark ausgelastet wird. Beim 265k wo ja alle Kerne auf Level 3 Cache gleichzeitig drauf zugreifen ,verhält es sich so das die p Kerne das ruder übernehmen und die e Kerne zurück fallen bei der Leistung. Das sieht man ganz gut wenn ich zwei Videos gleichzeitig umwandeln tue. Da haben dann da wo die e Kerne am Arbeiten waren die 3 fache Zeit zum umwandeln angezeigt gehabt. Als dann die p Kerne dazu kamen beschleunigte es sich massiv. Das heißt bei mir gehen den e Kernen der l3 Cache aus. Ein l4 würde die e Kerne dann nicht mehr verhungern lassen. Das wäre das einzige gute was da Intel machen würde. Aber das selbe Problem löst auch AMD mit Zen 6 ebenso. Dann wäre es am Ende ein Zen 6 12 Kerner vs 20-24 Kerner wo es 8 p Kerne mit 12 oder 16 e Kerne als Duell wäre. Das spannende das beide wohl einen 16 Kerner der nur zu 84 % ausgelastet wird wohl schlagen werden. Interessant ist das dieser trotz nur 84 % Auslastung dennoch noch immer 14,5 % schneller ist als der RAM optimierte 265k. Die 2,5% mehrleistung durch RAM Optimierung sagen eindeutig aus was den e Kernen fehlt.
Ich habe also gleiche Taktrate und so weiter nur durch RAM Optimierung geschafft. Ich könnte auch auf den z Board wechseln und noch mehr heraus holen. Aber ich traue mich nicht weil ich nicht weiß ob ich da noch so viel heraus holen kann wenn ich weiß das den e Kernen der l3 Cache die Bandbreite fehlt.
Und auch nicht ob man diesen Nachteil auch durch gezieltes Optimierung ausgleichen kann. Es scheint also so zu sein das die e Kerne auf den RAM angewiesen sind . Sonst würde ich nicht durch so kleine Mittel diesen Erfolg haben.
Hier kann Intel also durchaus was bewegen. Aber ich bin mir halt nicht sicher ob das ein guter weg wäre noch ein Intel System sich zu gönnen. Was ist wenn es da auch so ist wie beim 265k. Das ist halt das Problem an der ganzen Sache. Solche Kunden wie mich wird es schwer wenn man schon negative erfahrung gesammelt hat noch mal dazu zu bewegen zum Kauf .
 
Das bei Intel klingt extrem Kompliziert und gestückelt. Das muss nicht schlecht sein, aber mir ist das zu hoch um sagen zu können was das wird. Ich bin auf jedenfall gespannt, wenn AMD und Intel durchgetestet werden. Aktuell glaube ich das AMD die Gamingkrine behalten wird, gleichzeitig könnte Intel mit seinem Konzept bei Anwendungen einen starken Vorteil haben. Ich bin auf jeden Fall sehr gespannt darauf.
 
mae schrieb:
Wie sich Intel's L3-Konzept in der Praxis schlaegt, siehst Du bei ihren Prozessoren seit vielen Jahren, und es gibt auch Leute, die das gemessen und die Messwerte veroeffentlicht haben.
Aber die letzten CPUs waren was Gaming Performance angeht eben nicht so der Burner. Du denktst nicht das das unter kontrolle bekommen, weil es halt nciht Idiotensicher sit wie nen Ryzen + vCache?
 
lynx007 schrieb:
Aber die letzten CPUs waren was Gaming Performance angeht eben nicht so der Burner. Du denktst nicht das das unter kontrolle bekommen

Intel-CPUs haben im Vergleich zum 9850X3D weniger L3-Cache und WIMRE mehr L3-Latenz. Mit dem bLLC sind sie dann wohl das erste Handicap los. Ob das reichen wird, um die Gaming-Krone zu holen, und inwieweit die bLLC-CPUs dann auch ein vernuenftiges Preis/Leistungsverhaeltnis haben werden, das sehen wir erst, wenn sie heraussen sind.
 
Zurück
Oben