News AMD Zen 4 in 5 nm: Genoa bringt 96, Bergamo mit Zen 4c sogar 128 Kerne

moonwalker99 schrieb:
Wurde schon gesagt, wie der Stand der Ryzen 7000 Prozessoren ist?
Ich denke Du meinst Zen 4. Wenn Rembrandt Ryzen 6000 wird, sollte Zen 4 Ryzen 7000 werden

Da gibt es von AMD wenig offizielles:
  • Erscheinungsjahr 2022 nach den Zen 3 mit 3D V-Cache die zu Jahresanfang 2022 kommen
  • TSMC N5
Aktuell enthalten die sogenannten Roadmaps von AMD praktisch keine Informationen.
Auch als AMD Bergamo, der schon länger herumgezwitschert wurde, bestätigt hat, hinterließ dies mehr Fragen als Antworten.

AMD macht es zur Zeit großen Spaß ein paar Brotkrumen (wie z. B. 3D V-Cache) hinzuschmeißen und ansonsten nichts rauszulassen.

Viele Informationen beruhen auf einem Hack bei Gigabyte. Dabei wurde einige AMD-Dokumente zu den neuen Plattformen für Desktop und Server geklaut und auf Filesharing Servern abgelegt. Ansonsten zwitschern die üblichen Leaker Informationsschnippsel über Zen 4.

Stand der Gerüchte zur Chiplettversion:
  • Die Chiplett-Version heißt Raphael
  • Foundry
    • CCD: TSMC in N5
    • IOD: TSMC in N6
  • Tapeout soll Anfang 2021 erfolgt sein.
  • Erscheinungstermin 2022 sagt AMD, die meisten Gerüchte gehen von einem Termin im 2. Halbjahr, einige gehen von einem Termin am Jahresende aus
  • neuer Sockel AM5
    • nur DDR 5
    • Ob es PCIe 5.0 bei Zen 4 gibt ist unklar, aber es wird bei AM5 PCIe 5.0 geben.
    • neue TDP-Klassen 125 W und 170 W
  • Raphael wird auch eine GPU haben, wahrscheinlich auf dem IOD
  • Raphael erscheint für Desktop und Notebook (Raphael-H, 16 Kerne/32 Threads, TDP 45 W+)
  • Bei der Anzahl der maximalen Kerne für die Desktopversion gehen die meisten von 16 aus. Einige halten 24 für möglich.
  • Zen 4 wird wahrscheinlich AVX-512 unterstützen, ob dies auch für die Raphael gilt, wird man sehen
  • Raphael hat Infinity Fabric 3
Ergänzendes zur monolithischen Version
  • Die monolitische Version heißt Phoenix
  • Foundry: TSMC in N5
  • Erscheinungstermin wahrscheinlich Anfang 2023
  • Wahrscheinlich nur Notebook mit TDP <= 35W
  • Soll wiederum neuen Sockel haben
  • 8 CPU Kerne
  • RDNA2-GPU
Es gab Ende Januar 2021 Gerüchte zur Performance von Zen 4, die halte ich für sehr unsicher. Ob zu diesem Zeitpunkt das Tapeout bereits erfolgt war ist unklar. Aber selbst wenn, wie sollen Kunden Zen 4 EPYC Prozessoren zum Testen erhalten, wenn gerade erst die Herstellung der Masken begonnen hat?
 
  • Gefällt mir
Reaktionen: ghecko und moonwalker99
ETI1120 schrieb:
Es gab Ende Januar 2021 Gerüchte zur Performance von Zen 4, die halte ich für sehr unsicher.
Der Stand diesbezüglich ist "sehr konservativ mindestens +20% IPC, eher mehr". Das war Stand Mai, noch vor Fertigstellung des endgültigen Prozessordesigns. Ob das am Ende passt, wird man sehen.
 
Nixdorf schrieb:
Der Stand diesbezüglich ist "sehr konservativ mindestens +20% IPC, eher mehr". Das war Stand Mai, noch vor Fertigstellung des endgültigen Prozessordesigns. Ob das am Ende passt, wird man sehen.

Gleich nachdem Zen 3 veröffentlicht wurde, kursierten Meldungen, dass AMD für Zen 4 eine IPC-Steigerung von 20 % versprochen hat.

Diese Zahl bezieht sich auf ein Interview mit Rick Bergman. Allerdings hat Rick Bergmann dies in diesem Interview so nie gesagt. Er wurde gefragt welcher Anteil der Leistungsteigerung von Zen 4 von der IPC, vom Prozess und von der Änderung der Anzahl der Kerne kommt. Rick Bergman antwortet, dass die Steigerung Zen 3 nur durch eine lange Liste von Maßnahmen möglich war und dass es auch bei Zen 4 eine ähnlich lange Liste gibt.

Ich finde diese ganze IPC-Debatte bei Zen 4 geht am wesentlichen vorbei. Es ist nicht der einzige Faktor mit dem die Leistung von Zen 4 steigen wird.

Bitte einmal Zen 3 anschauen:
  • Die Änderungen von Zen 2 auf Zen 3 betreffen nur das CCD. Aus diesen Änderungen resultiert die gesteigerte IPC.
    • Architektur der CPU-Kerne, hier gab es viele kleine Optimierungen
    • Der CCX wurden von 4 auf 8 Kerne erweitert,
      • Die Kommunikation zwischen den 8 Kernen auf einem CCD bleibt auf dem CCD.
        Dies erfordert eine neue Bustopologie im CCX, allerdings ist AMD ziemlich zugeknöpft was die tatsächlich umgesetzte Bustopologie angeht. Siehe unten.
      • Alle 8 Cores haben Zugriff auf den gesamten L3-Cache. Dies ist trägt wesentlich zur Steigerung der Singelcore-Leistung bei.
    • AMD hat still und heimlich alles für den 3D V-Cache vorbereitet. Was weitere Leistungsteigerungen bei Programmen ermöglicht, die vom L3-Cache profitieren
  • Das Zen 3 CCD wird auf demselben Prozess wie Zen 2 Produziert. Es gab zwar Optimierungen aber keine signifikante Performance-Steigerung.
  • Zen 2 und Zen 3 verwenden dasselbe IOD.
  • Aus demselben IOD resultiert, dass Zen 2 und Zen 3 Infinitity Fabric 2 verwenden
    • Damit ist die Anbindung an den Speicher gleich
    • Damit erfolgt die Kopplung zwischen den Kernen auf verschiedenen CCDs mit derselben Transferrate.
AMD hat mit Zen 3 eine deutliche Steigerung der Leistung erzielt, musste dafür aber nur das CCD ändern.

Bei Zen 4 sieht das Ganze anders aus:
  • Zen 4 verwendet Infinity Fabric 3 zur Kopplung zwischen den Kernen und zwischen CCD und IOD
  • Das Zen 4 IOD wird bei TSMC im N6 Prozess produziert
    • Abgesehen vom Prozess vereinfacht dies die Logistik, da die Fertigung räumlich zusammenrückt
    • Den besseren Prozess nutzt AMD wahrscheinlich, um eine GPU im IOD zu integrieren
  • Das Zen 4 CCD wird im N5 Prozess produziert
  • Zur Architektur im CCD ist nur wenig bekannt
    • 8 Kerne (Raphael),
    • AVX-512 wird wohl unterstützt, in welchem Umfang und wie genau AMD es umgesetzt hat, ist unklar
    • Ob von Anfang an auch 3D V-Cache angeboten wird, ist unklar. Dies hängt auch davon ab wann die zugrunde liegende Technik für den N5-Prozess verfügbar ist kann
Das neue IOD samt Infinity Fabric 3 steigert den Datendurchsatz zwischen den Kernen und verbreitert die Speicheranbindung. Dies wird sich in einer kleinen Steigerung des IPC niederschlagen. Auch in den Kernen wird AMD wohl noch ein bisschen herauskitzeln.
Ob es insgesamt wieder für 19 % (ohne AVX-512) reicht? Wir werden es sehen.

Bei der Berichterstattung über die Präsentation vom 8. November wurde folgendes recht stiefmütterlich behandelt:
1636891073757.png


Der von AMD zukünftig verwendete N5-Prozess hat drastische Verbesserungen im Vergleich zum bisher verwendeten N7-Prozess. Bei der verdoppelten Dichte der Logik und einer um den Faktor 1,25 gesteigerten Performance steigt die Effizienz um das Doppelte.
  • Das ">" vor dem Faktor 1,25 lässt Raum für Spekulation. Sind es 1,25001, 1,26 oder gar 1,299?
  • Bei einer Performance-Steigerung um 1,25 sinkt der Verbrauch um 20 %. Wohlgemerkt der Verbrauch des CCDs.
  • Wenn man auf eine Verbrauchssenkung verzichtet, ist eine weitere Performancesteigerung möglich.
  • Diese Zahlen sollte man berücksichtigen, wenn man die Architektur von Cezanne APU mit der Apples M1 CPU vergleicht.
Wegen dieser deutlichen Verbesserung des Prozesses sagen einige, dass sich Zen 4 zu Zen 3 ebenso verhält wie Zen 2 zu Zen. Sie beziehen sich auf den Sprung in der Prozesstechnologie und nicht auf die Verbesserungen in den CPU-Kernen.

Diese Verbesserungen kommen nicht alleine aus dem N5-Prozess, sondern auch aus Optimierungen im verwendeten IP und im umgesetzten Design. Man darf sich nie von irgendwelchen Prozessbezeichnungen blenden lassen. Was genau die Firmen auf dem Die zusammenbrauen ist ihr Firmengeheimnis. Der Prozess bzw. die Prozessvariante, die eingebundene IP (Bibliotheken mit vorgefertigten Funktionseinheiten) und das Design müssen zusammenpassen, um ein gutes Produkt zu ergeben.

So wie ich es als Laie verstehe, gibt es viele Stellschrauben, um das tatsächlich auf dem Die umgesetzte Design an die Anforderungen anzupassen.
  • Eine gute Abstimmung zwischen Prozess(variante), IP und dem eigenem Design ist notwendig. Diese Abstimmung muss für jeden verwendeten Prozess erarbeitet werden.
  • Es ist nicht trivial zwischen zwei Prozessvarianten zu wechseln. Wenn TSMC sagt es ist einfach von N7 auf N6 zu wechseln, bezieht sich das relativ zu einem Wechsel von N7 auf N5.
  • Ein Produkt kann nicht nicht mit jeder Prozessvariante effizient umgesetzt werden.
Bisher wurde alles in derselben N7-Prozessvariante produziert. Auf kleine evolutionäre Schritte zu optimierten Prozessvarianten hat AMD verzichtet. Erst jetzt steht ein Wechsel an, da sich der Übergang auf N6 und auf N5 lohnt.
  • Mit den neuen IODs und Standard-GPUs wechselt AMD auf N6 (billigere Prozessvariante von N7) So wie es aussieht wird Rembrandt die einzige APU auf dem N6-Prozess sein.
  • Mit den neuen APUs, CCDs und Highend-GPUs wechselt AMD auf N5. Ob es nun TSMCs "N5 HPC" Prozessvariante ist oder etwas eigen abgeschmecktes, wird wohl nicht breitgetreten werden.
Ich denke dieses konservative Vorgehen beim Prozess war bisher eine Kostenfrage. Wenn viele Produkte mit derselben Prozessvariante und denselben Tools hergestellt werden, glaube ich, konnte AMD Teile der Designs wiederverwenden, anstatt für jeden Die alles komplett neu aufzusetzen. Das heißt AMD konnte durch verwenden derselben Prozessvariante mehr Designs umsetzen, als wenn AMDs für einzelne Produlte verschiedene Prozessvariante verwendet hätte.

Die folgende Grafik die Designkosten verschiedener Nodes zeigt, wurde in einem Artikel bei Extremtech verwendet. Ich habe leider keine Infos was da designed wurde und ob diese Zahlen wirklich so genau sind, wie es die Kommastellen suggerieren. Die Grafik zeigt, die Kosten für das Design steigen enorm. Hinzu kommen noch die eigentlichen Produktionskosten.

Chip-Design-and-Manufacturing-Cost-under-Different-Process-Nodes-Data-Source-from-IBS.png


Anmerkung Off Topic:
Dieser Artikel bei Extremtech ist vom Juni 2018 und behandelt die Probleme mit 3 nm. Schon 2018 war klar, dass die Entwicklung von 3 nm aufwändig wird und länger dauert als bei 5 nm.

In diesem Sinn sollte man die ganzen Verspätungsmeldungen zu TSMC N3 sehen. Diese Verspätungsmeldungen leiten aufgrund der längern Entwicklungsdauer von N3 ab, TSMC sei mit N3 verspätet. Es war lange klar, dass die Entwicklung von N3 langwierig und schwierig wird.

Verspätet ist TSMC dann, wenn TSMC noch nicht mit der Risk-Produktion von N3 begonnen hat und nicht im 2. Halbjahr 2022 mit der Massenproduktion beginnt.

Anmerkung Aufbau von Ryzen und EPYC

Aufgrund der geklauten Dokumente vom Gigabyteserver gehen die meisten davon aus, dass AMD bei Zen 4 die Art und Weise beibehält, wie IOD und CCDs zusammengebaut sind. Für die Hersteller von Mainboards ist es ohne Belang wie die CPUs intern aufgebaut sind. Deshalb würde ich nicht darauf wetten, dass diese Informationen genau sind.
Wenn vom hohen Verbrauch des IODs geredet wird, dann beinhaltet dies auch den Verbrauch in der Verbindung zwischen IOD und CCD. AMD muss bei der Kopplung von IOD und CCD früher oder später neue Wege beschreiten. Spätestens bei Zen 5 wird hier etwas passieren.

Anmerkung Vergleichen von Prozessen:
  • Pauschale Vergleiche zwischen Prozessen, sind ohne Berücksichtigung des verfügbaren IPs und des tatsächlichen Designs, nicht sinnvoll.
  • Auch beim Vergleichen selbst, gibt es komplexe Zusammenhänge, die man nicht mit einer Zahl (Transistordichte) oder 3 Zahlen (Steigerung der Transistordichte, Performancesteigerung, Verbrauchssenkung) ausdrücken kann.
    • Man darf nicht nur die Transistordichte vergleichen, man muss auch die erreichbaren Taktfrequenzen und den dabei resultierenden Verbrauch beachten.
    • Es kann sein dass ein Prozess schlecht mit der steigenden Taktfrequenz skaliert. D. h. bei hohen Taktfrequenzen ist der Prozess ineffizient. Bei moderaten Taktfrequenzen kann dieser Prozess trotzdem sehr effizient sein.
    • Wenn zwei Prozesse unterschiedlich mit der Taktfrequenz skalieren, ergeben sich bei verschiedenen Bereichen der Kennlinien verschiedene Aussagen zu Performancesteigerung und Verbrauchssenkung
  • Die beiden wichtigsten Parameter der Preis je belichtetem Wafer und die Defektrate in Fehler/mm2 sind so geheim, dass es keine verwertbare absoluten Zahlen gibt.
    • Zum Preis je Wafer gibt es in allen offiziellen Präsentationen nur relative Zahlen
    • Zu den Defektraten gibt es nur die guten Nachrichten. Und diese nur als qualitative Aussagen oder Kurven ohne Skalenwerte.
Anmerkung zur Bustopologie im CCX

Nach der Anbindung der Kerne an den L3-Cache ist die Bustopologie des Infinity Fabrics, das die Kerne im CCX verbindet, ist der kritischer Faktor bei der Erweiterung des CCX. Die meisten gehen davon aus dass AMD in absehbarer Zeit bei 8 Kernen je CCX bleibt. Es wird in Zukunft wieder CCDs mit mehr als einem CCX geben.

Wenn man alle Kerne direkt verbindet, benötigt man für N Kerne N-1 bidirektionale Links. Beim Zen 2 mit 4 Kernen im CCX waren die 3 Links noch kein Problem. Die folgende Grafik der vollständigen Graphen bis 12 Knoten zeigt die Anzahl der erforderlichen bidirektionale Links (2. Zahl) für eine vollständige Verbindung aller Kerne untereinander.

1636908121735.png

Es ist klar, dass AMD bei Zen die 8 Kerne (in der Grafik K8) des CCXs nicht direkt untereinander verbunden hat:
  • Ein Zen-3-Kern hat keine 7 bidirektionale Links
  • Gegenüber den 2 x 6 bidirektionale Links beim Zen 2 CCD wären bei einer direkten Verbindung aller 8 Kerne 16 zusätzliche bidirektionale Links erforderlich
  • Das Routen der zusätzlich erforderlichen Leitungen auf dem CCD wäre eine zu große Herausforderung. Man muss auch die tatsächliche Anordnung der Kerne auf dem Die berücksichtigen.
Es gibt einen ziemlich komischen Artikel von Ian Curtiss zur Bustopologie im Zen 3 CCX. Aus einer Grafik in einer Präsentationsfolie schließt Ian Curtiss, dass AMD im CCX einen Ringbus (8-Eck ohne innere Verbindungen) umgesetzt hat. Obwohl
  • AMD ihm gesagt hat, dass die umgesetzte Bustopologie weder ein bidirektionalen Ring noch eine vollständige Verbindung aller 8 Kerne ist.
  • die Messungen von anandtech ergeben haben, dass Zen 3 bessere Latenzwerte liefert, als es mit einem bidirektionalen Ring möglich wäre.
  • jeder Zen-2-Kern 3 bidiktionale Links fürs CCX verwendet. Das hat sich bei Zen 3 wohl nicht geändert. In der Ringtopologie benötigt ein Knoten nur 2 bidirektionale Links. Irgendwie wird AMD wohl den 3. bidirektionalen Link eingesetzt haben.
 
  • Gefällt mir
Reaktionen: ghecko und Colindo
Cutress schreibt ja auch, dass es wohl ein bisected ring sein muss, in dem also Verbindungen quer durch den Ring gehen um ihn abzukürzen. Er behauptet nicht, dass es ein einfacher Ring wäre.
 
ETI1120 schrieb:
dass AMD für Zen 4 eine IPC-Steigerung von 20 % versprochen hat.

Diese Zahl bezieht sich auf ein Interview mit Rick Bergman.
Die aktuellen Angaben dazu dürften über den Stand aus dem Interview hinausgehen und zumindest schon auf konkreten Simulationen mit dem Design beruhen. Zu Beginn des Jahres kursierten ja sogar +29% bei der IPC; das dürfte eher der Hype sein, der mit dem Interview zusammen hängt.

Die letzten Angaben via Moore's Law is Dead sind "mehr als +20% mit einigen Verweisen, die deutlich mehr angeben". Das "deutlich mehr" könnte dann wieder der Hype vom Jahresanfang sein. Ich sehe die +20% jedenfalls inzwischen als relativ gefestigt, das "deutlich mehr" hingegen nicht.

Aber wie du schon schreibst, passiert bei Zen 4 mehr als nur ein neues Core-Chiplet. Das IOD wird ebenfalls ersetzt, und es kommt der Wechsel zu DDR5. AMD könnte dafür den Fabric massiv beschleunigen, um den maximalen Nutzen aus sowas wie DDR5-6000 zu ziehen. Ob höhere Takte mit dem Wechsel auf 6nm einfach umzusetzen sind, oder sie einen anderen Joker wie mehr Kanäle oder irgendwas mit den Taktflanken aus dem Ärmel ziehen, das wird man sehen. Das Plus beim RAM wird man am Ende in klassischen CPU-Benchmarks wie dem CineBench kaum sehen, aber in anderen Bereichen wie Games wird es viel bringen.

Außerdem dabei ist der Wechsel auf den neuen Sockel, und insbesondere die Leaks zu den höheren TDPs sollte man nicht ignorieren. Das ermöglicht ein höheres PPT und es könnten durchaus SKUs kommen, die ebenso ungeniert wie Intel zulangen. Allein das "Scheiß drauf" bei der Effizienz könnte nochmal knapp +10% bringen*, noch auf den Effizienzgewinn durch N5 oben drauf. Ist jetzt nicht das, was mir gefällt, aber machen kann man das.

ETI1120 schrieb:
AMD hat still und heimlich alles für den 3D V-Cache vorbereitet.
Es gab sogar Aussagen, dass schon Zen 2 entsprechend vorbereitet war, aber der Die-Stacking-Prozess dann nicht im passenden Zeitrahmen marktreif wurde. Wahrscheinlich war bei der Ryzen 3000-XT-Reihe anfänglich deutlich mehr geplant als das popelige Taktplus von ein paar MHz.


* Bei der höchsten Angabe von 170W wäre das PPT nach der bisherigen Formel dann bei knapp 230W, also nah dran an den 241W des 12900K. Bei Alder Lake bekommt man für unlimitierten Betrieb im Gegensatz zu strikten 125W als Limit +10% im Multicore-Index mit maximal +13-15% bei Rendering und Videokonvertierung. Das Plus bezahlt man bei Intel zwar mit +116W und somit +93% Package Power sehr teuer, aber offenbar ist das heutzutage für den Balkenlängenvergleich in den Testberichten unverzichtbar.
 
ETI1120 schrieb:
Es gibt einen ziemlich komischen Artikel von Ian Curtiss zur Bustopologie im Zen 3 CCX. Aus einer Grafik in einer Präsentationsfolie schließt Ian Curtiss, dass AMD im CCX einen Ringbus (8-Eck ohne innere Verbindungen) umgesetzt hat.
Da ich es auch zuerst übersehen habe: Hast du gesehen, dass auf der Folie unten steht "bi-directional ring bus"? Das ist doch ein offizielles Statement von AMD in die Richtung.
 
stefan92x schrieb:
Cutress schreibt ja auch, dass es wohl ein bisected ring sein muss, in dem also Verbindungen quer durch den Ring gehen um ihn abzukürzen. Er behauptet nicht, dass es ein einfacher Ring wäre.
Das Problem an der ganzen Sache ist, er hat an verschiedenen Stellen im Artikel verschiedene Ansichten.
Und bei seinen bisectected Ringen fehlen Beispiele mit 3 Verknüpfungen an jedem Knoten.

Und grundsätzlich geht er meiner Meinung nach das ganze total verkehrt an.

Für die Wahl der Bus-Topologie sind meiner Meinung nach 3 Faktoren entscheidend:
  1. Die verfügbaren Links je Knoten.
  2. Die tatsächliche Anordnung der Knoten auf dem Die.
  3. Aufwand für die Umsetzung der Links auf dem Die.
Wenn man beachtet, dass die Anordnung der Kerne sich von Zen 2 auf Zen 3 nicht geändert hat reduziert sich das ganze auf die Frage: Was hat AMD im Vergleich zu Zen 2 geändert

1636998399002.png

Anmerkung 1: Die wahren Ingenieure sind faul.

Anmerkung 2: Eine wichtige Änderung zu Zen 2 sind auch die Kontakte für den 3D V-Cache. Sie können das Routen der Links zwischen den Knoten auf der linken und rechten Seite erschweren.

Der Ring benötigt 2 Änderungen und 4 Löschungen. Die maximale Entfernung zwischen 2 Knoten ist 4 Sprünge. Die durchschnittliche Sprungzahl ist 2,29.

Variante 1 benötigt nur 2 Änderungen und ist ein Ring mit Querverbindungen. Allerdings schlecht balanciert, die maximale Entfernung zwischen 2 Knoten ist 3 Sprünge. Der Vorteil ist dass die neuen Verbindungen kurz sind und bestehenden Verbindungen entsprechen. Die durchschnittliche Sprungzahl ist 1,79, unterscheidet sich jedoch zwischen Mittel- und Eckknoten.
Variante 1 hat weniger Änderungen als der Wechsel zu einem Ring ohne Querverbindungen.

Variante 2 benötigt 4 Änderungen und ist ein Ring mit Querverbindungen. Er ist deutlich ausgewogener als Variante 1. Die maximale Entfernung zwischen 2 Knoten ist 2 Sprünge. Die durchschnittliche Sprungzahl ist 1,57. Allerdings sind 2 der neuen Verbindungen sehr lang und es gibt viele Kreuzungen. Ob dies so einfach umsetzbar ist?

Variante 3 benötigt 4 Änderungen und ist definitiv kein Ring. Variante 3 hat sogar weniger Kreuzungen als Zen 2 . Die maximale Entfernung zwischen 2 Knoten ist 2 Sprünge. Die durchschnittliche Sprungzahl ist 1,57. Die langen Leitungen müssen parallel zu bestehenden Leitungen geführt werden. Ob dies so einfach umsetzbar ist?

Variante 4 benötigt 6 Änderungen und ist ein Ring mit punktsymetrischen Querverbindungen. Die maximale Entfernung zwischen 2 Knoten ist 2 Sprünge. Die durchschnittliche Sprungzahl ist 1,57. Allerdings sind 2 der neuen Verbindungen sehr lang. In der Mitte kreuzen sich alle 4 Diagonalen. Ob dies umsetzbar ist?

Colindo schrieb:
Da ich es auch zuerst übersehen habe: Hast du gesehen, dass auf der Folie unten steht "bi-directional ring bus"? Das ist doch ein offizielles Statement von AMD in die Richtung.
Als ich es gestern geschrieben habe, habe ich es nicht gesehen. Ob es mir auffiel als ich den Artikel vor zwei Monaten zum ersten Mal gelesen habe weiß ich nicht mehr.

Das ist aber nicht der Punkt.

Ian Cutress hatte von AMD 2 widersprüchliche Informationen. Er hat die Aussage der Folie überprüft und hat gemerkt, dass die umgesetzte Topologie ist besser als ein Ring.

Falls AMD einen Ring mit Querverbindungen umgesetzt hat, ist die Aussage der Folie nicht falsch. Aber sie verbirgt wichtige Informationen. D. h. die Folie hat am Zustand "nichts genaues weiß man nicht" nichts geändert.

Mit diesem Wissen schreibt man doch den Artikel ganz anders. Deshalb finde ich ihn komisch.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: ghecko
Ich verstehe nicht, was diese Tangente bei der Diskussion zu Zen 4 soll. Wie es umgesetzt wurde, ist doch für die nächste Generation völlig irrelevant. Bei Zen 4 wird sich die Zahl der Kerne pro CCD nicht ändern. Die aktuelle Topologie liefert homogene Latenzen und wird wahrscheinlich unverändert übernommen. Im Übrigens heißt der Autor des verlinkten Artikels Ian Cutress.
 
Nixdorf schrieb:
Ich verstehe nicht, was diese Tangente bei der Diskussion zu Zen 4 soll. Wie es umgesetzt wurde, ist doch für die nächste Generation völlig irrelevant. Bei Zen 4 wird sich die Zahl der Kerne pro CCD nicht ändern. Die aktuelle Topologie liefert homogene Latenzen und wird wahrscheinlich unverändert übernommen.
Raphael/Genua werden 8 Kerne im CCD haben.

Gilt das auch für Bergamo?
Nixdorf schrieb:
Im Übrigens heißt der Autor des verlinkten Artikels Ian Cutress.
Danke habe es korrigiert
 
ETI1120 schrieb:
Gilt das auch für Bergamo?
Dazu gibt es noch keine offizielle Aussage. Es kann gut sein, dass das dann nicht 16 8er-Chiplets sind, sondern 8 16er-Chiplets. Aber auch bei denen könnte man dann intern ganz einfach wieder zwei CCXe haben wie vor Zen 3, was dann nach außen genau so wie separate Chiplets wirkt.
 
Nixdorf schrieb:
Die aktuellen Angaben dazu dürften über den Stand aus dem Interview hinausgehen und zumindest schon auf konkreten Simulationen mit dem Design beruhen.
Simulationen des Design werden ausschließlich bei AMD gemacht. AMD hält dicht.

Wenn die Information mit stimmt, dass das Tapeout Anfang des Jahres erfolgt ist, könnten jetzt eventuell schon Engineering Samples an die OEMs rausgegangen sein.

Auch die halten gewöhnlich dicht, aber wer weiß.

Es kann sein, dass die aktuellen 20-%-Gerüchte auf realen Ergebnissen beruhen.
Es kann aber auch sein, dass 20-%-Gerüchte die Erwartungen wiederspiegeln, dass Zen 4 dieselbe Steigerung bringt Zen 3. Und wenn viele diese Erwartung äußern bestätigen sie ihre Annahme gegenseitig.

Was zutrifft kann ich nicht beurteilen. Aber ich habe schon lange beschlossen solche Gerüchte zu ignorieren.

Nixdorf schrieb:
Zu Beginn des Jahres kursierten ja sogar +29% bei der IPC; das dürfte eher der Hype sein, der mit dem Interview zusammen hängt.
Diese Zahl geht auf Chips and Cheese zurück. Cheeps schreibt, dass ihm mitgeteilt wurde, dass bei Messungen ein Genua-Engineering-Sample bei gleicher Konfiguration der Kerne und gleicher Taktfrequenz 29 % schneller war als eine Milan-CPU.

Und so ist es ganz einfach, entweder hat jemand diese Messung gemacht oder nicht.
Ich frage mich allerdings wie dieses Genua-Engineering-Sample hergestellt wurde.
Nixdorf schrieb:
Die letzten Angaben via Moore's Law is Dead sind "mehr als +20% mit einigen Verweisen, die deutlich mehr angeben".
Moore's Law is Dead sammelt Informationen von den Leakern im Internet. Welche anderen Quellen er hat, weiß niemand.

Bei den üblichen Leakern habe ich noch keine IPC- oder Performance-Angaben zu Zen 4 gesehen. Bei RDNA 3 gab es einige (widersprüchliche) Werte.

Nixdorf schrieb:
Das "deutlich mehr" könnte dann wieder der Hype vom Jahresanfang sein. Ich sehe die +20% jedenfalls inzwischen als relativ gefestigt, das "deutlich mehr" hingegen nicht.
Ich bin wie bei solchen Angaben skeptisch. In beiden Interviews zu Zen 3 haben die Verantwortlichen von AMD penetrant betont wie aufwändig es war die 19 % IPC herauszuholen.

Es macht ja riesen Spaß zu spekulieren. Aber das Problem bei Spekulationen von IPC- bzw. Performance-Angaben ist, dass sie zu schnell als Ankündigungen mißverstanden werden. Dies weckt Erwartungen. Und wenn die Erwartungen nicht erfüllt werden gibt es Enttäuschungen.

Nixdorf schrieb:
Aber wie du schon schreibst, passiert bei Zen 4 mehr als nur ein neues Core-Chiplet. Das IOD wird ebenfalls ersetzt, und es kommt der Wechsel zu DDR5.
Leider gibt es keine Angaben von AMD wie sich der N6-Prozess verhält.

Darüber wie sich kleinere Strukturen auf die IO-Funktionsblöcke auswirken habe ich widersprüchliche Aussagen gelesen.
Nixdorf schrieb:
AMD könnte dafür den Fabric massiv beschleunigen, um den maximalen Nutzen aus sowas wie DDR5-6000 zu ziehen.
Laut Dokumenten vom Gigabyte-Hack hat AMD hier einiges geändert.
Welche DDR5 Frequenzen unterstützt werden, ist wohl noch in der Schwebe.
Nixdorf schrieb:
Außerdem dabei ist der Wechsel auf den neuen Sockel, und insbesondere die Leaks zu den höheren TDPs sollte man nicht ignorieren. Das ermöglicht ein höheres PPT und es könnten durchaus SKUs kommen, die ebenso ungeniert wie Intel zulangen.
Etwas wird sich AMD dabei gedacht haben, als sie den Sockel auf eine TDP von 170 W ausgelegt haben.
Aber ob das ganze wirklich sinnvoll ist, entscheidet die Kennlinie des verwendeten Prozesses.

Allerdings muss man auch berücksichtigen, dass AMD bisher keine Chiplet-CPUs mit IGPU angeboten hat.
Ein paar Watt brauchen die auch. Und wer weiß, ...
Nixdorf schrieb:
Allein das "Scheiß drauf" bei der Effizienz könnte nochmal knapp +10% bringen*, noch auf den Effizienzgewinn durch N5 oben drauf. Ist jetzt nicht das, was mir gefällt, aber machen kann man das.
Was da beim N5-Prozess von AMD drin ist kann man nur raten.

Ich halte es für Schwachsinn in den ineffizienten Bereich der Kennlinie zu gehen, um eine mikrige Leistungssteigerung mit einem großen zusätzlichen Verbrauch zu bezahlen.
Der gesteigerte Verbrauch wird in Wärme umgesetzt, die abgeführt werden muss. D. h. man bezahlt doppelt. Und falls die Die-Temperaturen steigen, auf lange Sicht dreifach.
Nixdorf schrieb:
Es gab sogar Aussagen, dass schon Zen 2 entsprechend vorbereitet war, aber der Die-Stacking-Prozess dann nicht im passenden Zeitrahmen marktreif wurde.
Da habe ich schwere Zweifel.

TSMC ist gerade erst dabei die Fabrikkapazitäten für 3D-Fabric hochgefahren. Deshalb denke ich nicht, dass es unerwartete Verschiebungen gab.

Ich habe nichts davon gehört, dass jemand auf einem Zen-2-Die-Shot die Strukturen für die Anbindung des 3D V-caches ausgemacht hat.

Nixdorf schrieb:
Wahrscheinlich war bei der Ryzen 3000-XT-Reihe anfänglich deutlich mehr geplant als das popelige Taktplus von ein paar MHz.
Ich habe mich damals gefragt was das ganze sollte. Die Änderungen waren so popelig, dass es sich überhaupt nicht gelohnt hat.

Meiner Meinung nach kann die 3000-XT-Reihe nie als große Sache geplant worden sein.
Es waren gerade 4 Monate vor dem Release von Zen 3. Es war bestenfalls eine neue Maskenrevision wahrscheinlich nur Prozessoptimierungen die ein genaueres Binning ermöglicht haben.

Nixdorf schrieb:
Dazu gibt es noch keine offizielle Aussage. Es kann gut sein, dass das dann nicht 16 8er-Chiplets sind, sondern 8 16er-Chiplets. Aber auch bei denen könnte man dann intern ganz einfach wieder zwei CCXe haben wie vor Zen 3, was dann nach außen genau so wie separate Chiplets wirkt.
Falls es bei Zen4c 16er CCDs sind, gehe ich auch von 2 CCX auf einem CCD aus.
 
ETI1120 schrieb:
Aber ich habe schon lange beschlossen solche Gerüchte zu ignorieren.
Zum kompletten Ignorieren macht es mir zu viel Spaß. Ich baue aber ebenfalls keine Erwartungshaltung auf und nutze das nur für Gedankenspiele. Wenn es mir wichtig wäre, immer die neuesten Spielzeuge zu haben, würde ich selbst nicht zufrieden immer noch einen 2700X nutzen.

ETI1120 schrieb:
In beiden Interviews zu Zen 3 haben die Verantwortlichen von AMD penetrant betont wie aufwändig es war die 19 % IPC herauszuholen.
In einem der Interviews sagte Rick Bergman aber auch
If you looked at our technical document on Zen 3, it was this long list of things that we did to get that 19% IPC gain. Zen 4 is going to have a similar long list of things, where you look at everything from the caches, to the branch prediction, [to] the number of gates in the execution pipeline. Everything is scrutinized to squeeze more performance out.
Das ist quasi ein Double-Down in Bezug auf diese Penetranz. 😉

ETI1120 schrieb:
Laut Dokumenten vom Gigabyte-Hack hat AMD hier einiges geändert.
Es wäre auch dämlich, beim kompletten Neudesign des IOD für N6 nicht an alles ran zu gehen.

ETI1120 schrieb:
Ich halte es für Schwachsinn in den ineffizienten Bereich der Kennlinie zu gehen, um eine mikrige Leistungssteigerung mit einem großen zusätzlichen Verbrauch zu bezahlen.
Geht mir genau so, mein 2700X läuft auch nur gesenktem PPT. Aber Intel ist da halt anderer Meinung. Und das vollständig zu ignorieren, das kann sich AMD nicht leisten. Ich sehe den 170W-Eintrag zunächste eher als "stille Reserve" für den Sockel, die man auf jeden Fall vorbereiten will. Wenn dafür tatsächlich Modelle kommen sollten, dann passt ein "XT" im Namen besser als ein simples "X". Komplett mit Tim Taylor "Wir brauchen mehr Power" Sticker auf der Packung.

ETI1120 schrieb:
Ich habe nichts davon gehört, dass jemand auf einem Zen-2-Die-Shot die Strukturen für die Anbindung des 3D V-caches ausgemacht hat.
Da muss ich mich tatsächlich korrigieren. Sorry. Das waren TechInsights, die hatten die Keep-Out-Zones auf regulären Zen3-Die-Shots entdeckt. Also nicht Zen2, aber zumindest schon von Anfang an bei Zen 3.

ETI1120 schrieb:
Falls es bei Zen4c 16er CCDs sind, gehe ich auch von 2 CCX auf einem CCD aus.
Jepp. Das ist dann vermutlich ein reines Fertigungskosten-Thema. Wie hoch ist der Yield bei welcher Chiplet-Größe, wieviel kostet das Aufbrigen von 16 Dies auf dem Substrat verglichen mit 8, und so weiter. Dafür einen 16-Kern-CCX zu bauen, das bindet meiner Meinung nach zu viel Entwickler-Ressourcen auf ein zunächst nicht vielseitig verwendbares Produkt. Das ist einfach nicht die Mentalität der flexiblen Baukasten-Chips, die AMD in den letzten Jahren so sehr geholfen hat.
 
Nixdorf schrieb:
Jepp. Das ist dann vermutlich ein reines Fertigungskosten-Thema.
Das Arbeiten mit Modulen hat seinen Preis. So wie es eine sinnvolle Größe von Modulen gibt, gibt es auch eine sinnvolle Anzahl von Modulen.

Nixdorf schrieb:
Wie hoch ist der Yield bei welcher Chiplet-Größe, wieviel kostet das Aufbrigen von 16 Dies auf dem Substrat verglichen mit 8, und so weiter.
Wir wissen noch nicht um wie viel kleiner ein CCX mit Zen 4c im Vergleich zu einem mit Zen 4 ist.
Aber für 5 % weniger Fläche lohnt der Aufwand nicht.
Nixdorf schrieb:
Dafür einen 16-Kern-CCX zu bauen, das bindet meiner Meinung nach zu viel Entwickler-Ressourcen auf ein zunächst nicht vielseitig verwendbares Produkt.
Mehr Kerne in ein CCX zu packen hat zwei Hürden:
  1. Bis 4 Kerne ist es relativ einfach die Kerne optimal zu verbinden. Mit jeder Verdoppelung der Kernzahl wird es aufwändiger eine effiziente Kopplung zwischen den Kernen zu ermöglich.
  2. Wenn man ein CCX so versteht, dass alle Kerne des CCX uneingeschränkten Zugriff auf einen den von allen gemeinsam genutzten L3-Cache haben, ist dies die weitaus schwierigere Herausvorderung. Beim Anbinden des L3-Caches betrifft dies
    • Schaltungstechnik der Anbindung
    • Routing der Leitungen
Durch das Erweitern des CCX steigt unter anderem die Latenz. Beim Zen 2 war der L3-Cache mit einer Latenz von 40 Zyklen angebunden, beim Zen 3 sind es schon 46 Zyklen. Bei praktisch gleichen Taktfrequenzen.

Nixdorf schrieb:
Das ist einfach nicht die Mentalität der flexiblen Baukasten-Chips, die AMD in den letzten Jahren so sehr geholfen hat.
Dieser Baukasten hat es AMD ermöglicht Mainsteam-PC, HEDT, Workstation und Mainstream Server abzudecken. Ohne diesen Skaleneffekt hätte AMD nie bei den Servern Fuß fassen können. Aber diese Baukasten hat auch seine Grenzen.

Inzwischen hat AMD mit den EYPC-Prozessoren einen Quartalsumsatz, der bei ca 800 Millionen $US (meine Schätzung) liegt. Bei Bergamo geht es darum ein weiteres Segment des Servermarktes abzudecken. Das ergibt für AMD zusätzliches Wachstumspotential und verhindert dass dieses Marktsegment allein von Neueinsteigern besetzt wird.

Und dafür lohnt es sich diesen sehr beschränkten Baukasten zu erweitern. Ich denke nicht dass diese CCDs für Desktop-PCs verwendet werden.

Spannend wird was AMD im unteren Segment des Desktopmarktes unternimmt. Diesen Markt hat AMD Intel überlassen müssen. Das kann kein Dauerzustand sein.
 
ETI1120 schrieb:
Wir wissen noch nicht um wie viel kleiner ein CCX mit Zen 4c im Vergleich zu einem mit Zen 4 ist.
Aber für 5 % weniger Fläche lohnt der Aufwand nicht.
Wir wissen auch noch nicht, wie viel größer Zen 4 prozessnormiert im Vergleich zu Zen 3 ist, und was davon nach dem Shrink dann übrig bleibt. Und vermutlich meint AMD bei 4c sogar gar nicht so sehr den eigentlichen Kern (vielleicht das neue AVX-512 weg lassen), sondern auch und insbesondere den L3 neben dem Kern. Die Reduktion dort dürfte am deutlichsten Fläche sparen. Da der L3 bei Zen 3 die gleiche Fläche einnimmt wie der Rest des Kerns, spart man bei einer Halbierung schon 25% Fläche. Und wenn man Stacking nutzt und dem Chiplet vier Lagen spendiert, dann kann man die Fläche sogar achteln und behält immer noch die halbe Menge an L3 über. Das wären dann 43,75% Flächenreduktion bei halbiertem Cache, ohne den Rest des Kerns anzufassen. Am Ende kann gut eine Halbierung stehen und das 16er Zen4c-Chiplet ist ähnlich groß wie das 8er Zen4-Chiplet.

ETI1120 schrieb:
Ich denke nicht dass diese CCDs für Desktop-PCs verwendet werden.
Dazu möchte ich erneut auf die obige Idee mit dem Stacking verweisen. Es ist gut denkbar, dass das gleiche Zen4c-CCD doch auch im Desktop landet, um AMDs BigLittle bei Zen 5 umzusetzen. Allerdings dann ohne Die-Stacking beim L3. Diesen kostspieligen Zusatzaufwand kann man bei Servermargen betreiben, und wertet damit die 4c-Kerne bei Bergamo auf. Das wäre dann die konsequente Weiterführung des flexiblen Baukastensystems.
 
Nixdorf schrieb:
Wir wissen auch noch nicht, wie viel größer Zen 4 prozessnormiert im Vergleich zu Zen 3 ist, und was davon nach dem Shrink dann übrig bleibt.
Das ist das schöne bei AMD, sie schmeißen ein paar Brotkrumen hin und das wars.
  • Zen 4 optimized for scale out Performance
  • Significantly Improved power performance
  • Density optimized cache hierarchie

Was man beim Blick auf den L3-Cache nicht vergessen darf, L1 und L2 haben ebenfalls einen enormen Platzbedarf. Und aufs Bit bezogen einen noch viel größeren.


AMD wird Zen 4c auf die Workloads zurechtschneiden und dann stehen die von Dir genannten Dinge sicher auf der Probe. Aber ich kenne mich zu wenig aus, um sagen zu können was AMD tun wird. Aber so einfach wie Moore's Law is Dead darstellt ist es nicht. Einfach den L3-cache zu beschneiden killt sehr viel Leistung.

Bei Caches kommt es auf die gute Abstimmung zwischen Latenz und Größe an. Und wenn man einen auf spezielle Workloads optimierten Kern baut ergeben sich halt andere Option wie bei einem Kern der alles gut können soll.

Nixdorf schrieb:
Dazu möchte ich erneut auf die obige Idee mit dem Stacking verweisen. Es ist gut denkbar, dass das gleiche Zen4c-CCD doch auch im Desktop landet, um AMDs BigLittle bei Zen 5 umzusetzen.
Nach allem was die Leaker verbreiten wird Strixpoint Zen 4c und Zen 5 auf unterschiedlichen Dies vereinen.
Aber darüber, ob Strixpoint für den Desktop vorgesehen ist, gibt es verschiedene Meinungen.

Nixdorf schrieb:
Allerdings dann ohne Die-Stacking beim L3. Diesen kostspieligen Zusatzaufwand kann man bei Servermargen betreiben, und wertet damit die 4c-Kerne bei Bergamo auf. Das wäre dann die konsequente Weiterführung des flexiblen Baukastensystems.
Man kann sich viel vorstellen.

Das schwierige bei einem wirklich modularen Baukasten ist, dass man die Module auch tatsächlich modular zusammenstellen kann. Das war bisher mit 3 Bausteinen sehr einfach. Wenn nun zwei CCDs vorliegen und der 3D V-Cache hinzukommt und man alles wild mischen will, wird es schwieriger. Denn dann müssen die Zen 4c auch ohne 3D V-Cache eine gute Performance liefern. 50% weniger Die-Fläche und 50% weniger Leistung bringt nur wenig.

Zum 3D V-Cache noch eine Anmerkung. Die Dies benötigen natürlich viel Fläche. Aber ich kann mir nicht vorstellen, dass ein Wafer der praktisch nur aus L3-Cache besteht, genauso viele Prozesschritte benötigt wie ein Wafer mit CPUs.

Ich konnte mich der BigLittle-Begeisterung nie anschließen. Ein Mobiltelefon wird nun einmal komplett anders benutzt wie ein Notebook oder ein Desktop-PC.

Zu diesem Thema:
https://semiaccurate.com/2021/10/27/intels-alder-lake-is-needless-complexity/

Charlie Demerjian steht sicher nicht im Verdacht ein Intelfan zu sein und ich weiß nicht ob er alles wirklich objektiv beurteilt, aber man sollte sich das Mal durchlesen.
 
ETI1120 schrieb:
Ich konnte mich der BigLittle-Begeisterung nie anschließen. Ein Mobiltelefon wird nun einmal komplett anders benutzt wie ein Notebook oder ein Desktop-PC.
Der Vergleich mit BigLittle bei Mobilgeräten hinkt. Es geht zumindest Intel im Desktop nicht um Maximierung der Performance pro Watt, sondern um Maximierung der Performance pro Fläche. Erst bei den Notebooks ergeben sich dann Gemeinsamkeiten mit der ARM-Konkurrenz. Daher ist dort teilweise der Anteil an E-Kernen auch schon in der ersten Alder-Lake-Generation deutlich höher (z.B. 2P+8E).
 
Nixdorf schrieb:
Der Vergleich mit BigLittle bei Mobilgeräten hinkt. Es geht zumindest Intel im Desktop nicht um Maximierung der Performance pro Watt, sondern um Maximierung der Performance pro Fläche. Erst bei den Notebooks ergeben sich dann Gemeinsamkeiten mit der ARM-Konkurrenz. Daher ist dort teilweise der Anteil an E-Kernen auch schon in der ersten Alder-Lake-Generation deutlich höher (z.B. 2P+8E).
Das Problem ist, auf dem Desktop zählt die Single-Coreleistung. Und man benötigt mehrere Prozesse mit Maximalleistung um z. B. bei Spielen gut auszusehen.

Auf dem Desktop sind Anwendungsfälle die gut über viele Kerne skalieren sind selten.

Ein eines der wichtigsten Szenarien für Multithreading auf dem PC ist es mehre Programme parallel zu betreiben, wobei einige durchaus massiv Leistung ziehen können, auch wenn sie gerade nicht im Fokus des Anwenders stehen.

Will sagen Intel behauptet, dass die E-Kerne für flächensparendes Multithreading vorgesehen sind, aber mit den Konfigurationen auf dem Desktop drücken sie aus, dass sie es so nicht brauchen. Eine Konfiguration im Verhältnis P:E von 1:4 würde ich mit dieser Argumentation schon erwarten.

Ich denke nicht dass Alder Lake ein Vorbild für AMD ist. 2024 wenn Strixpoint erscheint wissen wir mehr.
 
ETI1120 schrieb:
Und man benötigt mehrere Prozesse mit Maximalleistung um z. B. bei Spielen gut auszusehen.
Statt Prozesse sollte es da wohl Kerne oder Threads heißen. Dennoch ja, man braucht diese, aber nach aktuellem Stand halt nicht über 8 Kerne hinaus. Darüber kann man dann die Multi-Core-Performance für die gut parallelisierbaren Anwendungen einfacher mit den E-Cores weiter skalieren.

ETI1120 schrieb:
Eine Konfiguration im Verhältnis P:E von 1:4 würde ich mit dieser Argumentation schon erwarten.
Dahin geht die Richtung. Raptor Lake wird nach aktuellem Stand von 8+8 auf 8+16 erhöhen. Ob es dann mit 8+32 weiter geht, wird man sehen.
 
Es war ja schon klar, dass die Zen 4 CCD 8 Kerne haben, aber im Linuxtreiber ist laut Phoronix wohl die Bestätigung aufgetaucht. AMD hat die maximal möglichen CCD je CPU auf 12 erhöht. Und AMD hat Genova mit maximal 96 Kernen angekündigt
 
Zurück
Oben