News Intel Ice Lake: L1- und L2-Caches wachsen mit angepasster Assoziativität

Holt schrieb:
...
Man kann nicht alles parallelisiert ablaufen lassen, bestimmte Algorithmen können nicht parallelisiert werden, nämlich immer dann, wenn die nächste Berechnung auf dem Ergebnis der vorherigen aufbaut.
Es lassen sich eben nicht alle Algorithmen parallelisieren, weder auf der Befehl- noch auf der Threadebene.
Und in solchen Fällen würde auch Reverse-SMT nichts nutzen.

Es gibt dabei aber oft sowas wie eine Mikroparallelität, wenn also z.B. zwei Werte multipliziert und ein dritter dazu addiert wird, so hat man dies teils schon in Befehlserweiterungen umgesetzt, damit man es mit einem Befehl machen kann.[/QUOTE]
Jepp, aber für solche Fälle haben einige CPU einen FMA3 (aka. ADDMUL) Befehl implementiert. In bestimmtenn Modelle der x86-64 CPU ist dieser allerdings nicht im Basisbefehlssatz enthalten, sondern nur als Befehlssatzerweiterung.

Es dürfte allerdings der Fall sein dass nur ein geringer Teil der Programme von Reverse SMT profitieren würde u. sich der notwendige Aufwand dafür bislang nicht lohnt.
Programme müssten mit neuen Compilern neu compiliert werden um davon zu profitieren.
Ergänzung ()

MK one schrieb:
ach , du kennst schon die IPC vom Zen 2 ? woher denn ? klär mich mal auf .... , hättest du Ryzen 2 vs Coffeelake geschrieben hätte ich dir geglaubt ....
Ich bin von den Daten bisheriger Leaks ausgegangen. Aber da die Performance immer ein Zusammenspiel von CPU-Architektur, verwendetem Compiler (Version + Konfigurationsparameter) und dem eigentlichen Programmcode abhängt,
kann man ohnehin nur einen gewissen ungefähren Bereich angeben aber keine genaue Zahl.

Gemittelt sind es ca. 10% bei der IPC welche Zen 2 zulegen wird, bedeutet:
Zen 2 > Coffee Lake > Zen (1)

Deshhalb wird Intel möglichst bald CPUs basierend auf dem Sunny Cove Core bringen müssen um mit einer höheren IPC im Vergleich zu Zen 2 als Verkaufsargument punkten zu können.

Intel wird vermutlich genau wie AMD bei CPUs mit vielen Kernen auf Chiplets setzen. Das reduziert die Fertigungskosten u. erhöht die Yield-rate
 
Zuletzt bearbeitet:
du wirst bei 10 nm noch keine Intel Chiplets sehen .... , und was du von Ryzen 3xxx gesehen hast , kannst du noch gar nicht beurteilen , weil du den Takt nicht kennst , die Final Dies noch gar nicht vorliegen und ansonsten auch die Agesa/UEFI Versionen noch nicht Final sind , im Gegensatz zu dir gehe ich nämlich von einem 10% IPC Vorsprung seitens AMD aus ....
Das AMD bei der IPC gewaltig zugelegt hat sollten dir die EPYC Rome Demo bei der CES gezeigt haben , zwei Xeon 8180 M , pro Stück 10.000 Dollar , geschlagen von einen 64C Rome um 13 - 15 % ...
und das trotz 2 x 205 W TDP Sockeln und 2,5 Ghz Basistakt ....
EPYC Rome 64C = 180W TDP Sockel und vermutlich nicht mal 2 Ghz Takt , denn der 7 nm ist sparsam , aber nicht so sparsam das er doppelt so viele Kerne versorgen könnte bei gleichem Takt , dazu wäre eine 50 % geringere Leistungsaufnahme notwendig , der 7 nm bietet jedoch nur 35 - 40 % ....
Der Naples Vorgänger hatte 2,2 Ghz mit 32 Kernen , also kann der Epyc Rome nur unter 2,2 Ghz gelegen haben , es sei denn es wurde bei der Architektur ebenfalls erheblich Leistungsaufnahme eingespart , was ich bezweifle da mit dem I/O Die ein zusätzlicher Chip gekommen ist der über zusätzliche IF Lanes angebunden werden mußte .

um es anders auszudrücken : die beiden 8180M haben zusammen zwar nur 56 Kerne , wurden aber quasi mindestens 25 % höher getaktet und lagen trotzdem um 13-15 % zurück und zwar nicht in irgendeinen unrealistischen Szenario , sondern bei der Berechnung eines Protein Moleküls .
Natürlich war das nur möglich weil AMD die FPU Leisung verdoppelt hat ( incl AVX ) und das Front End dementsprechend aufgebohrt hat .

Der Cache wurde auch vergrößert https://www.techpowerup.com/249952/amd-doubles-l3-cache-per-ccx-with-zen-2-rome


For each 64-core "Rome" processor, there are a total of 8 chiplets. With SANDRA detecting "16 x 16 MB L3" for 64-core "Rome," it becomes highly likely that each of the 8-core chiplets features two 16 MB L3 cache slices

= 8 Chiplets mit je 32 MB Cache

Der Ryzen 12 / 16 Kerner wird wohl 64 Mb L3 Cache haben ( da 2 Chiplets ) , das wird wohl kaum ohne Auswirkung auf die IPC bleiben ...
 
Zuletzt bearbeitet:
AMD hat eine Super-CPU geschaffen, keine Frage, aber hat AMD auch genügend Fertigungskapazität beim Chipfertiger zugekauft?
Ich meine wenn die Nachfrage entsprechend anziehen sollte. Kann AMD dann auch die entsprechenden Stückzahlen liefern?
AMD hat selber keine Chipfertigung mehr... nicht für 7nm Technologie u. nicht für wirklich hohe Stückzahlen.
AMD hätte damals (um 2004) mehr Athlon 64 CPU verkaufen können, war aber mit der Fertigungskapazität am Limit... Ich hatte übrigens einen Rechner mit Athlon64 CPU.

Um zu Intel zurück zu kommen. Es gibt ja mehrere unbestätigte Quellen die besagen dass der Ice Lake eine reine Mobil-CPU wird
und erst Tiger Lake mit Willow Cove Kernen die Desktop-CPU der nächsten Generation kommen wird... und dass Comet Lake bis 2020 als Desktop-CPU verkauft wird.

Spielt bei Intel aber keine große Rolle da 4 von 5 Intel-CPU direkt an PC-Hersteller gehen und nicht an PC-Selbstbauer.
Und die PC-Hersteller bauen die Chips ein welche Intel anbietet.
Intel wird also nicht pleite gehen selbst wenn alle Selbstbauer diesen Hersteller boykottieren würden.

Und auch bei Server-CPU wird AMD nicht die Stückzahlen liefern können um Intel wirklich in den nächsten 2 Jahren pleite gehen zu lassen; da bleibt genügend Marktanteil für Intel.
 
Ich denke zwar nicht das Intel mit 7 nm ein ähnliches Desaster erleben wird wie mit 10 nm , schliesslich können sie mittlerweile bald nachschauen wie es gemacht wird , jedoch wird der 10 nm Intel ziemlich viel Geld gekostet haben und maximal 1 - 1,5 Jahre genutzt werden .
Die dicken Brocken bei den fälligen Abschreibungen kommen erst dann ...
Übrigens ist der EPYC Rome keine " Heimwerker CPU " sondern eine Server CPU der bei den Datacentern kräftig reinhaun wird , wenn diese ihre Energierechnung halbieren können ohne Verlust an CPU Leistung und mit mehr Kernen werden diese sicherlich hellhörig ....

Im Dezember wirst du keine 10 nm Desktop CPU bei Intel sehen , falls Intel nicht direkt zu 7 nm beim Desktop wechselt , kommt diese erst im 1Q /2Q2020 und damit ca 1 Jahr nach Ryzen 3xxx .
Bis dahin ist Zen 3 aka Ryzen 4000 ? schon fast raus .... , auch wenn dieses dann nur ein kleineres Refresh sein wird mit höheren Basistakt dank TSMCs N7+ Prozess und seiner 10 % niedrigeren Leistungsaufnahme

Und was TSMC s 7 nm Kapazität betrifft , da ist offenbar noch was frei ...
http://www.pcgameshardware.de/CPU-C...igung-TSMC-Auslastung-AMD-Zen-2-Navi-1270855/
Apple, Huawei (Hisilicon) und Qualcomm sollen bei TSMC weniger 7-nm-Wafer bestellen als früher prognostiziert, womit der Auftragsfertiger den neuen Prozess zumindest im ersten Halbjahr 2019 nicht auslasten könne. Das wären gute Nachrichten für AMD, der sich somit keine Sorgen machen müsste, bei Zen 2 und Navi womöglich zu kurz zu kommen.

übrigens , nur die 8C Chiplets werden in 7 nm gefertigt , sind vergleichsweise klein mit 70 - 80 mm2 , da passen schon einige davon auf einen Wafer ....

im übrigen sollte Samsung demnächst auch so weit sein beim 7 nm . dann steht ein Fertiger mehr zur Auswahl
 
Zuletzt bearbeitet:
WinnieW2 schrieb:
Programme müssten mit neuen Compilern neu compiliert werden um davon zu profitieren.
Das ist ja nicht gesagt und wenn dem so wäre, würde es der Verbreitung sehr entgegenstehen. Aber ich denke dies würde nicht nötig sein, denn es ist ja auch nicht nötig den Code neu zu compilieren, damit er auf Out-of-order Architekturen funktioniert. Im Grund ist dies schon eine Vorstufe für Reverse SMT, denn wenn die Reihenfolge der Mickobefehle getauscht werden kann, könnten sie ggf. auch parallel verarbeitet werden, da man je nur die Reihenfolge von Befehlen tauschen kann, bei denen das Ergebnis des einen vom anderen anhängt. Braucht der nachfolgende Befehl eines vorherige Befehls, kann dieser logischerweise nicht vorgezogen werden und die Einheiten die bei Out-of-Order Architekturen die Reihenfolge optionieren, können dies also erkennen und wenn man sieht wie viel Performance man damit gewinnt, so denke ich, dass auch sehr viele Programme von einem Reverse SMT profitieren würden.

Ein ganzer Teil an Mikroparallelität ist ja schon in den CPU Kernen vorhanden, machen Dinge wie das Laden und Speichern von Daten, laufen ja auch schon parallel zu den Berechnungen ab. Das Problem auch Resourcen anderer Kerne zu nutzen, ist die Latenz bei der Kommunikation zwischen den Kernen, um Grunde müssen dann die Pipelines der Kerne miteinander Microbefehle und Daten austauschen, aber nur wenn der andere Kerne nicht selbst ausgelastet ist und dann kommen noch die Energiesparzustände und die getrennten L1 Caches....
 
MK one schrieb:
Im Dezember wirst du keine 10 nm Desktop CPU bei Intel sehen
Jepp. Einer News von golem zufolge plant Intel die Comet Lake Chips für Desktop-PC sogar erst für Anfang 2020, und diese werden noch in 14nm gefertigt werden;
bedeutet: Coffee Lake Refresh für Desktop PC bis zum Ende dieses Jahres bei Intel.
https://www.golem.de/news/intel-cpu...en-bald-comet-lake-erst-2020-1903-140327.html

Langsam habe ich den Verdacht dass der derzeitige 10nm Fertigungsprozess bei Desktop-CPUs zu viele Probleme verursacht; und ich denke dass diese derzeit nicht stabil über 4 GHz takten.
Taktraten unter 4 GHz sind bei Mobil-CPU ja vertretbar, aber nicht bei CPUs für Desktop-PCs.

In 10nm produzierte Intel-CPU für Desktop-PC werden sich dadurch wohl auf Herbst 2020 verschieben. 🙄
Naja, da kann AMD in der Zwischenzeit wohl ein wenig Marktanteile zulegen...

Wobei der Markt der energiesparenden CPUs bedeutender wird. Die Performance-Teile werden in Rechner für den Geschäftskundenbereich gar nicht so oft verbaut... und die Mehrheit der Privatkunden kauft sich ohnehin keine Rechner mit den teuersten u. leistungsfähigsten CPUs.
Bei den CPUs für Notebooks und Servern wird mittlerweile das meiste Geld von den Herstellern verdient.

In meinem nächsten Rechner wird aber wohl eine CPU von AMD ihren Dienst verrichten...
Ergänzung ()

Holt schrieb:
Im Grund ist dies schon eine Vorstufe für Reverse SMT, denn wenn die Reihenfolge der Mickobefehle getauscht werden kann, könnten sie ggf. auch parallel verarbeitet werden, da man je nur die Reihenfolge von Befehlen tauschen kann, bei denen das Ergebnis des einen vom anderen anhängt. Braucht der nachfolgende Befehl eines vorherige Befehls, kann dieser logischerweise nicht vorgezogen werden und die Einheiten die bei Out-of-Order Architekturen die Reihenfolge optionieren, können dies also erkennen und wenn man sieht wie viel Performance man damit gewinnt, so denke ich, dass auch sehr viele Programme von einem Reverse SMT profitieren würden.
Das Problem an dieser Stelle dürfte bei den Latenzen liegen. Die Verteilung der Befehle des selben Threads auf 2+ Kerne verursacht zusätzliche Latenzen u. das verringert wieder den möglichen Zugewinn an IPC durch auftretende Wartezyklen bei der notwendigen Übertragung von Daten von einem Kern zum anderen Kern.
 
WinnieW2 schrieb:
Langsam habe ich den Verdacht dass der derzeitige 10nm Fertigungsprozess bei Desktop-CPUs zu viele Probleme verursacht; und ich denke dass diese derzeit nicht stabil über 4 GHz takten.
Ob nicht stabil oder nicht bei vertretbarer Leistungsaufnahme, wobei dies wegen der kleinen Strukturen nicht einmal die Leistungsaufnahme des gesamten Chips sein muss, es kann reichen wenn Hotspots die höheren Taktraten verhindern. Ich bin wirklich gespannt welche Taktraten AMDs RYZEN 3000 Desktop CPUs erreichen werden.
WinnieW2 schrieb:
Das Problem an dieser Stelle dürfte bei den Latenzen liegen.
Genau dies hatte ich im nächsten Absatz des gleichen Beitrags geschrieben:
Holt schrieb:
Das Problem auch Resourcen anderer Kerne zu nutzen, ist die Latenz bei der Kommunikation zwischen den Kernen,
 
  • Gefällt mir
Reaktionen: WinnieW2
Zurück
Oben