News Intel Arrow Lake-S: P-Cores bekommen mehr L2-Cache, LGA-1851-Samples gesichtet

Duran schrieb:
@bensen
Deine Schlussfolgerung ist nicht richtig. Die Latenz wird auf jeden Fall sinken, nicht steigen. Es gibt auch fast keine SSDs die mit Cache langsamer sind wie ohne.
Die Größe von Caches hängt unmittelbar mit deren Latenz bei Zugriffen zusammen. Zum einen gibt es für jedes Level an Cache und Arbeitsspeicher einen eigenen TLB (Translation Lookaside Buffer), auf dem verzeichnet wird, ob Speicherbereiche gerade im L1, dann L2, n liegen. Der Zugriff auf diese Buffer erfolgt über klassische Binärbäume und wenn diese Bäume größer werden, steigt der Zeitbedarf um diese Bäume durchzugehen. Zum anderen steigt bei SRAM auch einfach die Zeit. um entsprechende "Zeilen" anzusteuern und auszulesen, je größer der Speicher wird.

Bei deinem SSD-Vergleich, Caches auf SSDs wären sinnlos, wenn das Verhalten des Caches zu nahe am Flashspeicher wäre. Bei CPUs ist es ähnliche, größere Caches bedingen höhere Latenzen und werden diese zu hoch und nähern sich damit den Latenzen von Arbeitsspeicher an, der Cache wird sinnlos-
Duran schrieb:
Die Levelstufe ist recht egal,
Grundlegend falsch. Jede Stufe an Caches bedingt Aufwand in Chipfläche, Energiebedarf und Laufzeitverhalten für TLB, Verwaltung, Synchronisierung und Invalidierung. Entsprechend eskalieren auch die Zugriffslatenzen für je höhere Level an Caches.

Duran schrieb:
Ich erinnere mal zurück. Der Pentium Prescott hatte 2 Mbyte Level 2 Cache. Und er war langsamer als heutige Modelle. Das heisst heute fließen mehr Commandos in der gleichen Zeit hindurch.
Rechnen wir die Anzahl der Kerne mal hoch, kannst du dir ungefähr denken wie klein die heutigen Caches sind.
Prescott war das willkommene Ableben der Netburst Architektur. Die hatte für die damalige und heutige Zeit extrem lange Pipelines und jeder Speicherzugriff der die Pipelines leer laufen lies war ein extremer Nachteil für die entsprechenden CPUs. Cache Misses waren bei den CPUs einfach so mies, dass sich extreme Caches lohnten.



boxte30:Goas schrieb:
Wenn die CPU-Hersteller alle ihre unsicheren Sprungvorhersagen abschalten, dann kann der Cache wieder verkleinert werden.
Ohne Sprungvorhersage und konsequent ohne Out-Of-Order sind moderne CPUs nicht im Ansatz zu denken. Was du forderst katapultiert CPUs ins Jahr 2000 zurück, ohne Aussicht auf Verbesserung.


Duran schrieb:
@bensen
Das 3D Modell liefert mehr Performance trotz der Erweiterung. Ich weiß also nicht einmal wo dein Kritikpunkt liegt - es gibt keinen!
Ja, bei Zen4 ist der L3-Caches immer auf die Geschwindigkeit gedrosselt, die er mit 3D Zusatz auch hätte. Der L3 von Zen4 ohne Zusatzcache könnte ein paar Takte bessere Latenzen liefern-
Link: https://i0.wp.com/chipsandcheese.com/wp-content/uploads/2023/04/7950x3d_latency_cycles.png?ssl=1
Quelle: https://chipsandcheese.com/2023/04/23/amds-7950x3d-zen-4-gets-vcache/

Duran schrieb:
Wie ich vorher schrieb ist das Level nicht relevant, du kannst auch Level 6 anfügen wenn du das möchtest, das ist eine Designentscheidung.
Beim Auslegen von ICs ist fast nichts eine "Designentscheidung", wie bei jedem komplexerem System ist jeder Gestaltungsspieltraum ein Balancieren von Kompromissen. Bei Zig Cache Leveln ist es Chipfläche. Energie und Latenzen(!).

Duran schrieb:
Jeden Zugriff den du vermeiden kannst, ist ein Gewinn.
Auf keinen Fall, die mittlere Einsparung an Zeit je Speicherzugriff muss größer sein, als die Latenzen durch weitere Cache-Ebenen bzw. schlicht größere Caches.
 
  • Gefällt mir
Reaktionen: Rockstar85, Tzk, evilhunter und 3 andere

@Philste

Ich verstehe sehr viel. Nur was hat dein Beitrag jetzt mit der Endleistung zu tun von der ich Rede?
Er ist schneller, obwohl er nicht mehr Taktrate aufweist (alles andere war nie mein Thema).

Diese Leistung kommt aus der Luft oder was soll ich dem Beitrag entnehmen? Glaubst du man hätte Ihn so gebaut (was Kosten verursacht) wenn es nichts bringt? Ähm...

@Piktogramm
Das meiste ist lediglich eine Geldfrage.
Von den technischen Limitierungen abgesehen, du siehst wie teuer Fabriken mittlerweile sind, mehrere Milliarden reichen kaum noch aus.
Jeder kann so eine CPU in Auftrag geben mit dem nötigen Kleingeld. Die Designs sind extrem komplex geworden und man kann es sich kaum noch vorstellen wie der Aufbau aussieht... allein die Möglichkeit des Abschaltens ganzer Bereiche - stell dir das einfach mal vor... bei der Menge an Transistoren.

Ich schrieb nie etwas von endlos (nach unten) erweitern. So eine Grundsatzdiskusion führe ich nicht. Level 3 und Level 4 haben sich bereits bewährt, was ihr daraus schlussfolgert ist euer Bier.
 
Zuletzt bearbeitet:
Duran schrieb:
Mir schon länger ein Rätsel warum nicht stetig der Cache erweitert wird. Dann könnte man die Taktrate noch leicht herunterschrauben, den Verbrauch (Spannung) dadurch reduzieren und wieder mehr Cache dranpacken. ;)

Spätestens seit Release des Broadwell war klar das dieser Weg Zukunft hat.
Cache ist teuer, weil schwer zu fertigen und kostet viel fläche
 
  • Gefällt mir
Reaktionen: Rockstar85, Tzk und DevPandi
Duran schrieb:
Das glaub ich ehrlich gesagt nicht. Zumindest nicht bei den aktuellen Größen.
Du hast gefragt, warum man nicht konstant die Caches erhöht und ich habe dir die dazugehörige Antwort geliefert und es ist an dieser Stelle vollkommen egal, ob du es glaubst oder nicht. Und das haben dir sogar noch ein paar mehr Leute versucht zu erklären.

Da andere bereits versucht haben dir zu erklären, warum das so ist und du scheinbar noch nicht mal verstehst, warum es verschiedene Cache Stufen gibt (die sind ja angeblich egal …). Selbst wenn ich dir also nun erklären würde, warum deine Beiträge zu weiten Teilen falsch sind, würdest du am Ende immer noch denken, dass du recht hast, weil dir vermutlich jegliche Kompetenz in diesem Bereich fehlt. Ich verschwende daher auf dich nicht mehr Lebenszeit, als diese zwei Absätze gekostet haben.
bensen schrieb:
Es bringt eben nichts wenn die untere Cache-Stufe nicht wesentlich schneller ist als die darüber liegende. Es ist ein trade-off zwischen Größe, Durchsatz und Latenz. Selbst wenn man Kosten außen vorlässt, hat die Vergrößerung des Caches Grenzen.
Bei einer CPU gibt es neben den Cache-Stufen auch noch das Register-File und heute immer bessere Daten-Prefetcher, die hier mit wirken.

Der große L2-Cache bei RaptorLake zieht einen großen Teil seiner Stärke aus einem deutlich intelligenteren Prefetching, das relativ gut die Daten aus dem L3 und vom RAM in den L2 und von dort auch in den L2-Cache schaffen kann.

bensen schrieb:
Ja und? Niemand will Caches niedrig takten, da die Latenz wichtig ist. Hat schon seinen Grund warum die heutzutage mit vollem Coretakt laufen.
Ja und Nein, an der Stelle hast Du theoretisch recht, aber er hat hier einen "validen" Punkt, auch wenn er an dieser Stelle am Ende dennoch weitgehend falsch liegt. Für den Cache ist nicht die absolute Latenz (also die Zeit) entscheiden, sondern die relative Zeit in Ticks. Nur ist der Takt der CPU nur ein Faktor, der die Ticks bestimmt, die der Cache benötigt, sondern auch die Größe ist entscheidend.

Bei den heutigen Cache-Designs bestimmt in der Regel eher die Menge des Caches die Ticks als primär der Takt und genau hier kommen wir zu dem Punkt, denn du ja angesprochen hast und warum es verschiedene Cache-Stufen gibt. Von den Register-Files (quasi keine Latenz, dafür aber komplex angebunden) über den L1 und L2 zu heute dem L3 - und bei Broadwell der "L4". Wenn man heute pro "Kern" einen L1 von 128 MiB anbinden würde, wäre das sehr langsam im Vergleich zu den L1 von 32 KiB (oder sind es 48 KiB, keine Ahnung, keine Lust nachzusehen.).
bensen schrieb:
Nein, ist sie nicht. Cachen bringt eben nichts, wenn die Latenz riesig ist.
Für den Cache ist die Latenz ebenso wichtig wie die Anbindung. Je näher du am eigentlichen Kern bist, umso schneller ist die Anbindung und umso kürzer ist die Latenz, damit man möglichst schnell im Register-File ist.

Auch hier: Er hat zwar nicht unrecht, dass die Cache-Stufen auch etwas mit der "Geschwindigkeit" der Caches zu tun hat, aber er blendet die Latenz vollständig aus, was falsch ist. Je näher man am Kern ist, um so schneller und umso mehr Daten fließen hin und her. Register werden in den L1 verschoben und aus dem L1 in die Register gelesen. Hier hat man relativ wenig "Zeit" um nicht benötigte Register in den L1 zu schieben und im nächsten Schritt von dort die Daten zu holen.
bensen schrieb:
Der L2 ist private. Da greift niemand anders drauf zu.
Selbst wenn der L2 geteilt werden würde - die e-Cores teilen sich den L2 - haben die anderen Kerne nicht einfach Zugriff auf diese Daten. Die Daten - egal ob sie im L1, L2, L3 oder im RAM liegen - sind so lange für andere Kerne tabu, solange ein Kern mit diesen arbeitet und diese ggf. sich ändern. Hier sind Entwickler - Mehrläufigkeit - als auch die Compiler gefragt und in solchen Fällen wird gerne - aus Komplexitätsgründen - eher mit "Kopien" gearbeitet. Das ist einfacher und besser zu händeln.

bensen schrieb:
eder Kern hat heute ebenfalls 2 MB, wo sind die also klein? Dazu kommt pro Kern 3 MB L3 Cache.
Nur das er keine Ahnugn hat, warum Prescott damals so viele Cache hatte. @Piktogramm führt es schön aus. Precott hatte damals eine Pipeline von fast 50 Stufen - also 50 Cycle. Wenn da in den RAM musste für Befehle und Daten, wäre das quasi der Tod für die CPU gewesen. Dazu kam, dass der L1d-Cache vergleichsweise gering ist - 16 KiB - zu den heute teilweise 32 - 48 KiB. Dazu kommt noch etwas wichtiges, das er vergisst: Prescott griff noch über den FSB auf den RAM-Controller in der Northbridge zu: zusätzliche Latenzen.
bensen schrieb:
Was verstehst du unter voll angebunden?
Er versteht darunter nicht viel. Der L1-Cache wird an den Kern mit der Anzahl der Load/Store-Einheiten angebunden. In diesem Fall - bei GoldenCove/RaptorCove - 3 * 32 Byte. Der L2-Cache ist an den L1 mit 1 * 64 Byte angebunden und mit 1 * 32 Byte an den L3. Nur hat das nichts mit "voll angebunden" zu tun, sondern erneut etwas mit der Cache-Ebene. Die meiste direkte Kommunikation zwischen Kern und Cache findet im L1 statt, der L1 bekommt seine Daten, wenn er sie benötigt vom L2 und der aus dem L3 oder dem RAM. Prefetching ist hier das Stichwort.

Und all das lässt sich am Ende darauf herunterbrechen, was ich geschrieben hatte: Ab einer gewissen Größe steigt die Latenz so an, dass sich der positive Effekt egalisiert. Deswegen macht man den L1-Cache bei den CPUs auch nicht immer größer, weil man die Latenzen beachten muss und das gilt auch für den L2 und L3 Cache. Je weiter man weg ist vom Kern, umso höher darf die Latenz sein.
 
  • Gefällt mir
Reaktionen: Rockstar85, maxrl, Tzk und 6 andere
Interessant das ihr Dinge sagt, die nie geschrieben wurden. Das Design haben Intel und AMD entworfen, demnach kann ich persönlich nichts dazu sagen und ganz wichtig: Will es auch gar nicht (beurteilen)!

Ich bin lediglich der Meinung das dieses Design Potential in andere Richtungen hat als die die wir derzeit am Markt sehen.
Das mit dem Prescott war mir alles bekannt, war für meine Aufzählung jedoch irrelevant. Bitte, wenn ihr nicht bei meinem Thema bleiben möchtet, dann führt eine eigene Diskussion untereinander.

@DevPandi
Meine Frage in der Richtung bleibt noch lange offen. So lange ich nirgendwo erfahren kann was es kosten würde das Produkt so abzuändern und auf den Markt zu bringen, so lange werde ich mir diese Frage stellen.
Leider sagt Intel nichts dazu wieviel so ein Cachedesign kostet in der Praxis... allerdings haben Konkurrenzhersteller ja auch schon damit experimentiert.
 
Zuletzt bearbeitet:
Duran schrieb:
Meine Frage in der Richtung bleibt noch lange offen. So lange ich nirgendwo erfahren kann was es kosten würde das Produkt so abzuändern und auf den Markt zu bringen, so lange werde ich mir diese Frage stellen.
Und wer soll dir diese Frage beantworten? Meinst du Lisa Su kommt hier ins Forum und rechnet dir auf den Dollar genau vor, was es kosten würde, jeden L2 und L1 per 3D Stacking mit Mikroskopisch kleinem Die zu verdreifachen?

Gut eigentlich braucht es das nicht. Es wird dir auch so jeder sagen können, dass das zu teuer ist und keinen Sinn ergibt. Bei den ganzen Produktionsschritten müsste man wahrscheinlich für den 8 Kerner soviel zahlen wie aktuell für den 96 Kern Genoa.
Duran schrieb:
Leider sagt Intel nichts dazu wieviel so ein Cachedesign kostet in der Praxis... allerdings haben Konkurrenzhersteller ja auch schon damit experimentiert.
Intel sagt nichts dazu, weil Intel technisch nicht in der Lage ist, so etwas herzustellen. Außerdem: warum sollten sie erzählen, was es kostet? Erzählt AMD doch auch nicht. Meteor Lake wird erstmals Foveros mit 36 Mikrometer Bump Pitch anbieten. Das sind immer noch locker 10ns Latenz zusätzlich, würde also nichts bringen. Etwas zu AMDd 3D Cache vergleichbares wird erst mit Foveros Direct möglich und es ist noch nicht mal bei den Leakern bekannt, welches Produkt dies zuerst nutzen wird.
 
  • Gefällt mir
Reaktionen: Rockstar85 und andi_sco
Die Chance die wir haben das interne Daten mal nach außen dringen durch Insider. Ich sehe das jetzt nicht als unwahrscheinlich, kam bei anderen Techunternehmen schon häufiger vor mit Platinen oder Stückzahlkosten.
Freiwillig verrät uns das keiner aber es gibt schon Hobbyentwickler die Produkte in Auftrag geben können, das ist umso teurer je moderner die Technologie.
 
Telechinese schrieb:
...langsam könnte Intel die CPUs verlöten... die wechseln die Sockel wie andere die Unterwäsche 🤣
Andererseits... lieber nicht - wer weiß, zu welchen "Blödheiten" das Verlöten dann führt...
Ich meine der aktuelle Sockel bekommt schon 3 Generationen.

Zum Thema warum man nicht einfach super viel Cache verwendet. Je größer die Cache desto langsamer die Cache in der Regel, da die elektrischen Signale länger brauchen um von Punkt A zu B zu gehen.
Das Ziel ist es generell einen optimalen Punkt zwischen Größe und Geschwindigkeit zu finden. Manche Anwendungen mögen lieber viel Cache, manche eher Cache Geschwindigkeit. Hier kommen auch die verschiedenen Cache Level ins Spiel. Die L1 Cache ist recht klein, dafür kommt man an die Daten in wenigen Taktzyklen. L2 ist größer und dafür langsamer, usw. Jeh mehr Cache Level es gibt desto langsamer wird allerdings der Zugriff auf dem RAM, da zuerst alle Cache Level auf die Daten überprüft werden müssen.
Zusätzlich dazu muss auch noch auf die Taktgeschwindigkeit geschaut werden. Je höher die Taktgeschwindigkeit desto höher ist meist die Anzahl der Taktzyklen, die gebraucht werden um die Cache zu lesen und Daten zu holen, weil es für die absolute Geschwindigkeit das Limit gibt mit dem sich die Elektronen bewegen können. Bei 3D Cache ist es deshalb einfacher deutlich bessere Latenzen zu nutzen, da der Weg vertikal meist kürzer ist als die gleiche Fläche horizontal.
 
Zuletzt bearbeitet:
Das war jetzt wirklich mehr darauf bezogen wie Intel Generationen definiert. Und nicht wie viel Sinn das hat
 
  • Gefällt mir
Reaktionen: Tzk
Paradox.13te schrieb:
es gibt auch Gerüchte das Intel bei Arrow Lake und Lunar Lake HT rauswirft.
Warum sollten die dad tun? HT ist doch flächentechnisch deutlich effizienter? Zumindest war das früher mal so, ist das jetzt mittlerweile anders?
boxte30:Goas schrieb:
Wenn die CPU-Hersteller alle ihre unsicheren Sprungvorhersagen abschalten, dann kann der Cache wieder verkleinert werden.

Aber das ist ja langweilig, sichere CPU bauen...
Damit würden die CPUs halt wieder extrem viel langsamer werden. Eine gute Sprungvorhersage macht einiges an Performance und Effizienz aus
 
Telechinese schrieb:
wer weiß, zu welchen "Blödheiten" das Verlöten dann führt...
Du meinst zu welchen "Blödheiten" es Intel "verlöten" könnte xD
 
  • Gefällt mir
Reaktionen: Rockstar85, Tzk und Telechinese
cha0shacker schrieb:
wie Intel Generationen definiert
Du definierst es als Generation und argumentierst sogar, es gäbe jetzt 3 Generationen für Sockel 1700. Dabei ist es keine dritte Generation, sondern nur eine Umbenennung des Bestandes mit etwas mehr Takt. Unter einer dritten Generation zur vormaligen zweiten Generation verstehe ich etwas völlig anderes.
Also wie soll ich deine Gegenargumentation verstehen, wenn du von einer dritten Generation sprichst auf einen Kommentar, der die Sockel Politik von Intel bemängelt?
 
  • Gefällt mir
Reaktionen: Rockstar85
cha0shacker schrieb:
Ich meine der aktuelle Sockel bekommt schon 3 Generationen.
ja aber nur, weil intel von 10nm nicht wegkommt. hätten sie 7nm im griff, wäre schon nach 1. gen. schluß..
 
7H0M45 schrieb:
Warum sollten die dad tun? HT ist doch flächentechnisch deutlich effizienter? Zumindest war das früher mal so, ist das jetzt mittlerweile anders?
Weil mit Royal Core die CPUs wie wir sie heute kennen sowieso über den Haufen geworfen werden. Stichwort Rentable Units, wie MLID es nennt. HT wird es dann sowieso nicht mehr geben.Also munkelt man, dass Intel es auf den letzten Architekturen vor dem eigentlichen Royal Core Start schon deaktiviert.
 
dergraf1 schrieb:
ja aber nur, weil intel von 10nm nicht wegkommt. hätten sie 7nm im griff, wäre schon nach 1. gen. schluß..

Unsinn. Es gab auch früher (Tick Tock) in der Regel schon immer 2 Generationen pro Sockel.
 
  • Gefällt mir
Reaktionen: maxrl, Tzk und HaRdWar§FreSseR
@Telechinese Wahrscheinlich das Projekt, dass Jim Keller während seiner Zeit bei Intel geleitet hat. Hat weniger mit einer einzelnen Architektur zu tun als mit dem Grundsatz, wie diese Architekturen funktionieren. Es läuft Wahrscheinlich auf das Gegenteil von HT/SMT hinaus: Ein Kern kann nicht mehr mehrere Threads bearbeiten, sondern mehrere Kerne können gleichzeitig am selben Thread arbeiten.

Gleichzeitig ist es somit auch ein bisschen ein umgedreht Bulldozer: Die Kerne können alle für sich arbeiten, haben also alle Ressourcen etc. Und MÜSSEN sich nichts teilen. Damals bei Bulldozer mussten sich 2 Kerne ja im Prinzip ein Frontend und eine FP Unit teilen. Nachdem was man munkelt werden sich bei Intel in Zukunft die Kerne die Ressourcen teilen KÖNNEN, wenn es den vonnöten ist. Es gibt quasi nur noch kleine E-Kerne und wenn Singlethread Leistung gefragt ist schalten sich einfach 2 Kerne zusammen und bearbeiten den Thread zusammen.

Aber das liegt alles noch 2-3 Jahre in der Zukunft, es könnte sich eventuell auch als Bullshit oder doch nicht umsetzbar herausstellen.
 
  • Gefällt mir
Reaktionen: Telechinese
HaRdWar§FreSseR schrieb:
Dasselbe frage ich mich gerade auch, kann da mal einer drauf antworten.
warum fragst du nochmal, es wurde bereits beantwortet
Ergänzung ()

Philste schrieb:
Gleichzeitig ist es somit auch ein bisschen ein umgedreht Bulldozer: Die Kerne können alle für sich arbeiten, haben also alle Ressourcen etc. Und MÜSSEN sich nichts teilen. Damals bei Bulldozer mussten sich 2 Kerne ja im Prinzip ein Frontend und eine FP Unit teilen. Nachdem was man munkelt werden sich bei Intel in Zukunft die Kerne die Ressourcen teilen KÖNNEN, wenn es den vonnöten ist. Es gibt quasi nur noch kleine E-Kerne und wenn Singlethread Leistung gefragt ist schalten sich einfach 2 Kerne zusammen und bearbeiten den Thread zusammen.

Aber das liegt alles noch 2-3 Jahre in der Zukunft, es könnte sich eventuell auch als Bullshit oder doch nicht umsetzbar herausstellen.
inverses Multithreading? Das glaube ich kaum, alle Testchips und Firmen die ich vor einigen Jahren zu dem Thema mal kannte und beobachtet habe sind inzwischen in der Versenkung verschwunden

sollte HT tatsächlich verändert werden, dann wegen der wiederholten Sicherheitsprobleme
 
  • Gefällt mir
Reaktionen: Rockstar85
Zurück
Oben