News Next-Gen Intel Xeon-SP: Sapphire Rapids läuft mit AMX, Ice Lake-SP im Plan

Beitrag

Admiral
Dabei seit
Nov. 2011
Beiträge
7.999
Um das beurteilen zu können, hab ich zu wenig Ahnung von Prozessorarchitektur, aber du kannst mit einer Matrix auf jeden Fall viele Rechenoperationen machen, die es für Vektoren gar nicht gibt. Insofern glaube ich nicht, dass der Schritt von AVX zu AMX klein war. Hätte man sonst sicher auch viel früher gemacht, Bedarf in der Softwarewelt wäre ja schon lange da und AVX ist inzwischen ja ca. 10 Jahre alt.
 

latiose88

Lt. Junior Grade
Dabei seit
März 2020
Beiträge
269
Ja wenn die Software nach so langer Zeit noch immer nicht optimal mit AVX umgehen kann,dann wird sie auch in Zukunft es nicht tuen.Und weil es so träge alles ist,bezweifle ich auch stark das AMX hier groß was ändern wird.
 

Rockstar85

Commodore
Dabei seit
Sep. 2004
Beiträge
4.222
Alles richtig. Dennoch Kosten große die Fläche und somit Ertrag. Und Papermaster meinte Mal, yieldrate oberhalb 90% (was natürlich Marketing ist). https://www.reddit.com/r/Amd/commen...full/?utm_medium=android_app&utm_source=share
.. Wenn dem so wäre, hat AMD so gut wie keinen Abfall. Und das wäre in der Tat outstanding

https://www.overclock3d.net/news/cp...uVrfanB-mziRJSJIldcTrB7PwAXx0u2oXyxo9K8BhtICY (2019)

5nm könnte auch spannend werden:
https://www.anandtech.com/show/15219/early-tsmc-5nm-test-chip-yields-80-hvm-coming-in-h1-2020
 

Simon

Fleet Admiral
Dabei seit
Jan. 2002
Beiträge
10.583
weiß man schon mehr zu Sapphire Rapids? Kernzahl, Architektur?

IceLake Sp ist ja recht lange schon fix mit ich meine 36 oder 38C im Mesh, aber Sapphire Rapids?

Danke

Edit: Ok vage Gerüchte nennen wohl 48C / Socket. Bin mal gespannt wann Intel gedenkt mehrere Die zu kombinieren.
Rein theoretisch müsste SPR dann ja mit Willow Cove Kernen kommen, wenn Granite Rapids dann mit Golden Cove ausgestattet wird. Das wären zumindest die logischen Weiterentwicklungen.

Klar ist halt schon DDR5 und PCIe 5.0, was bedeuten würde, dass PCIe 4.0 bei Intel eine Halbwertszeit von gerade einmal einem Jahr im Server-Segment hat, was schon echt bitter ist. Aber gut, ursprünglich sollten die 10 nm Kisten ja auch schon mind. 1,5 Jahre auf dem Markt sein.

Chiplets sehen wir bei Intel wohl erst mal nur bei Ponte Veccio (Xe-GPUs) und FPGAs.
 

Holt

Fleet Admiral
Dabei seit
Mai 2010
Beiträge
58.320
kannst du mal eine Übersicht mit den Instruktionen machen ?
Wie soll er dies können, wenn schon im Text steht:
Noch in diesem Monat will Intel die Spezifikationen und erste Guides für die neuen Advanced Matrix Extensions zur Verfügung stellen, sodass Programmierer einen gewissen Vorlauf haben, damit es Ende 2021 erste Softwarelösungen mit entsprechender Unterstützung geben kann.
Also abwarten und auf die Intel Seite schauen was da kommt.
Mal schauen, ob AMX vielleicht etwas verbreiteter genutzt werden kann, als AVX.
Für alle die Anwendungen selbst entwickeln bei denen es auf Performance ankommt und deren Anwendungen von AMX profitieren können, werden sich sehr schnell AMX integrieren. Davon erfahren Heimanwender dann aber nichts, weil sie solche Software nie bekommen werden.
Ice Lake-SP in 10nm kann nur ein Krücke werden und somit ein Nischenprodukt.
Warum?
Na schaut doch mal was Intel in 10nm für den Desktop gebacken bekommt. Auch bei mobilen CPUs sind die 10nm Produkte gerade so naja.
Welche 10nm für den Desktop? Derzeit gibt es noch keine, sondern bisher nur die kleinen Ice Lake-U und Ice Lake-Y, also Mobile und keine Desktop CPUs! Tiger Lake soll sogar bis zu 4,7GHz packen und Ice Lake-SP soll im zweiten Halbjahr kommen.
Nur muss die Software nachziehen und die benutzbarkeit gegeben sein. Im Server ist das einfach.
Es geht hier ja auch um Server CPUs.
Aber im privaten wird man sehen müssen was man davon hat.
Erstmal muss man schauen ob bzw. eher wann AMX überhaupt in Desktop CPUs erscheinen wird.
Irgendwie habe ich das Gefühl das die yields Katastrophal sind.
Das glaube ich kaum, denn sonst würde Intel Ice Lake-SP nicht bringen und hätte Coopper Lake auch als Nachfolger von Cascade Lake für die 1S und 2S System gebracht, wie es ursprünglich auch geplant war.
Fertigungsprobleme bei 10 nm und es gab niedrig taktende 2 und 4 Kerner mit deaktivierter iGPU..
Die sind doch längst gegessen, Tiger Lake soll bis 4,7GHz schaffen und Ice Lake-SP im zweiten Halbjahr auf den Markt kommen. Dies spricht dafür, dass die Probleme längst behoben sind. ;it bis 4,7GHz und den 25% mehr IPC könnte Intel Tiger Lake sogar für den Desktop bringen und wäre noch schneller als Comet Lake, aber vermutlich fehlen dafür die Fertigungskapazitäten und wenn 7nm im Plan liegt, wird man jetzt kaum noch massenhaft Kapazitäten für 10nm schaffen wollen.
Und da jezzt keine 10 nm desktops kommen werden
Die letzte Nachricht die ich dazu gelesen hatte war, dass Intel die Gerüchte es würde keine 10nm CPU geben, dementiert hat. Wenn sie von Ice Lake-SP einen Ice Lake-X Ableger als HEDT bringen, dann wäre dies ja auch eine 10nm Desktop CPU, denn HEDT ist ja auch Desktop und Alder Lake als 10nm Nachfolger für Rocket Lake ist ja auch schon öfter durch die Gerüchtsküche gegeisterrt.
wenn man sämtliche AVX Einheiten und nun auch noch AMX weglassen würde.Wären dann die Chips sehr klein.
Und könnte man dann nen höheren Grundtakt dann erwarten?
Da bei Intel der Grundtakt auf einer Arbeitslast basiert die von AVX2 bzw AVX512 Gebrauch macht, ja. Aber der Takt wäre dann auch nicht besser als eben der Basistakt ohne Nutzung von AVX Befehlen, den Intel ja oft auch angibt.
Siehst du an den Atom-Kernen. Die haben all diese Funktionen nicht.
Die Atom Kerne unterscheiden sind weit stärker von den großen Kernen als nur durch das Weglassen der AVX Einheiten, daher sind sie kein passender Vergleich.
Chiplets sehen wir bei Intel wohl erst mal nur bei Ponte Veccio (Xe-GPUs) und FPGAs.
Bei den Stratix 10 MX FPGAs braucht man EMIB schon alleine um das HBM anzubinden, der Kern selbst ist da aber auch monolithisch, sofern das Bild von Intel dies korrekt wiedergibt.

AVX wird auch beim Heimanwendern viel öfter genutzt als so mancher denken, denn ihr vergesst die Frameworks wie JAVA, welches zum Bitshiften wie z.B. bei der im Internet allgegenwärtigen Base64 (de)kodierung sogar AVX512 nutzen kann, siehe JDK-8205528: Base64 encoding algorithm using AVX512 instructions "The code gives 1.5x performance gain as measured on SKL system"
 
Zuletzt bearbeitet:

Piak

Lt. Commander
Dabei seit
Jan. 2010
Beiträge
1.577
@Holt: Naja es kommt "eine" Neue. Aber man könnte zumindest eine kleine Erklärung/Übersicht liefern, was aktuell in einem Taktzyklus berechnet werden kann, für welche Operationen ich spezielle Transistoren habe, z.B. SSE/AVX, wie Groß die Register sind, wieviel Bit ich "bewege". Und dann auch eine grobe Übersicht, was überhaupt von meiner Software wie viel genutzt wird.
Hätte man einen findigen Programmierer könnte man auch nen Benchmark je nach CPU - Befehlssatz - Rechenoperation schreiben und tatsächlich Schwächen und Stärken einer CPU aufzeigen.

So habe ich den Eindruck, es nur die Werbetexte kopiert.
 

Holt

Fleet Admiral
Dabei seit
Mai 2010
Beiträge
58.320
Klar werden bei so einer News nur Werbetexte kopiert, was sollten die Seite auch sonst machen, sie haben die CPUs ja noch gar nicht und selbst die Doku zu Neuigkeiten wie AMX sind noch nicht im Detail veröffentlicht, geschweige denn das jemand außerhalb von Intel sie jetzt schon benchen könnte. Die großen Jungs werden zwar bald ihre Samples bekommen, dies passiert nämlich normalerweise rund 1 Jahr vor der Markteinführung, dürfen aber wohl kaum darüber reden. Dies gibt ihnen aber die Zeit sie zu testen und ihre SW darauf zu optimieren.
 

Teralios

Commander
Dabei seit
Mai 2008
Beiträge
2.526
Ist eine Matrix mit einer Spalte ist immer ein Vektor.
Richtig und falsch zur gleichen Zeit. Mathematisch hast du recht, ein Vektor ist eine [1,n]-Matrix, aber eben nur in der Mathematik, jedoch nicht in der Informatik, zumindest nicht im Bereich der ALU.

In der Mathematik kannst du auf einen Vektor nur Additionen und Subtraktion so ausführen, wie man es von Vektor-ALUs aus der Informatik kennt, also: [1,2,3] + [4,5,6] = [4,7,9].

Sobald es an Multiplikationen und Divisionen geht, verhalten sich Vektoren in der Informatik aber in der Regel ganz anders.

Statt dass hier ein Kreuzprodukt heraus kommt aus den beiden Vektoren - [-3,6,-3] - wird hier zeilenweise multipliziert, also: [a1 * b1, a2 * b2, c1 * c2]. Hier ist das Ergebnis der Vektor [4, 10, 18].

So gesehen nicht die große Kunst das zu verbinden und am Ende auch AVX noch schneller zu machen.
Doch, in der Informatik ist das sehr wohl eine große Kunst. SIMD-Einheiten kannst du bereits heute sehr gut für Matrizen-Additionen und Subtraktionen nutzen, die Multiplikationen und Divisionen von Matrizen muss man in der Regel die Matrizen passend in die Vektoren für SIMD-Einheiten umformen.

Glaube das ganze kostet kaum Fläche, weil ja eigentlich nur bestehende Einheiten anders genutzt werden.
Auch das ist falsch, du kannst dir ja mal ansehen, welche Fläche ein Tensore-Core bei NVIDIA einnimmt, der bisher nichts anderes macht, als 3 Matrizen in einem MADD zusammenzuführen.

Um das beurteilen zu können, hab ich zu wenig Ahnung von Prozessorarchitektur, aber du kannst mit einer Matrix auf jeden Fall viele Rechenoperationen machen, die es für Vektoren gar nicht gibt.
Jaha, man kann Skalare als auch Vektoren gut als Matrizen abbilden, das wird nur dann jedes Mal komplexer. Ich erinnere mich bis heute mit grauen an die Mathematikvorlesungen, als wir Matrizen behandelt haben und wir selbst einfachste Vektorrechnung als Matrizen durchführen mussten. Holla, das war Schreibarbeit.
 

PPPP

Banned
Dabei seit
März 2020
Beiträge
395
Und da jezzt keine 10 nm desktops kommen werden kann die fertigung nicht so gut sein. Sowas hätte man sich sonst nicht entgehen lassen
Man setzt aktuell auf Leistung vor Effizienz, da selbst in Deutschland mit seinen außergewöhnlich hohen Strompreisen das Topmodell im Mainstream im üblichen Betrieb nur wenige Cent auf der Stromrechnung ausmacht im Vergleich zur 7nm Konkurrenz. Das ist zu irrelevant, vor allem außerhalb von Deutschland.
Weshalb sollte man auf einen 10 bzw. 7nm Fertigung setzen die evtl. weniger leistungsfähig ist, wenn man die 14nm so weit optimiert hat dass man damit bei den Benchmarks trotz allem oben steht?
 
Top