News TSMC: 3D-Packaging ist das nächste große Ding

SANDTIGER schrieb:
Hmm zum Glück habe ich davon keine Ahnung ..

Aber kann man dann nicht zuerst den I/O Die und darauf dann der 8Kern Die drauf gestapelm .
Na klar. Das hat ja Intel zB bei Lakefield gemacht.
SANDTIGER schrieb:
Oder auf den APU Die kommt der HBM3 Speicher, wird aber warm vielleicht kann man da mit Graphen was machen ...sabber :)
HBM oben drauf macht nicht so viel Sinn. Den kann man einfacher daneben packen. AMDs SRAM hingegen hat große Vorteile, wenn er oben drauf gestapelt wird.
Ergänzung ()

w0mbat schrieb:
Aber der L3 cache die wird mit auf cache optimierten libraries hergestellt, deshalb packt der fast doppelt so dicht. Dadurch wird die Fertigung natürlich günstiger.

Deine "Ernüchterung" basiert also nur auf Unwissen ;)
Der L3 Cache Die packt fast doppelt so dicht, weil die ganzen Kontrolllogik im Chiplet ist und oben drauf eben nur reine SRAM Zellen sind.
 
Augen1337 schrieb:
ich verstehe beim Stacking nicht, wie das Ganze gekühlt wird? Wirkt der darauf aufliegende Chip nicht wie ein Widerstand, um die Hitze schnellstmöglich abzuführen?
Im Prinzip ist genau das das größte Problem. Der Kühler liegt nur auf dem obersten Chip auf, d.h. die Verlustleistung müsste sich, wenn man z.B. zwei Chips komplett stapelt, auch pro Chip halbieren, wodurch am Ende die Wärmedichte (also W/mm²) gleich bleibt. Bzw. sie müsste sogar leicht sinken, weil der untere Chip natürlich wärmer als der obere wird. Bei den angekündigten Ryzen mit Extra-Cache wird nur da gestapelt, wo der Cache liegt. Oberhalb der CPU-Kerne kommen nur Dummy-Chips hin, die keine Wärme erzeugen, sondern einfach nur ne Wärmebrücke zwischen Kernen und Kühler herstellen.

Das klingt vielleicht erstmal ernüchternd, aber ich glaube der wahre Coup liegt in den Latenzen. AMD gibt an, dass der Ausbau von 32MB auf 96MB quasi keine Latenz kosten soll. Das klingt auch plausibel, weil sich die räumliche Distanz zwischen den am weitesten entfernt liegenden Cache-Zellen kaum erhöht. Davor stieg die Latenz von Zen 1 (8MB, 35 Takte) über Zen 2 (16MB, 39 Takte) auf Zen 3 (32MB, 46 Takte) immer weiter an. 96MB planar würden sicherlich irgendwo bei 60-70 Takten landen, was irgendwann zu Problemen wie bei Skylake-X führt. Etwas weitergedacht könnte man mit höherem Cache-Stacking vielleicht wieder zu Zen 1-Latenzen zurückkehren ohne Cache-Größe einzubüßen. Oder den L2 auch noch stacken.

Interessant, dass das Stacking für 5nm noch so lange braucht. Das könnte wirklich der Grund sein, warum sich AMD mit Zen 4 so lange Zeit lässt, denn man wird den Vorgänger sicher wieder in allen Belangen schlagen wollen.

peru3232 schrieb:
Viele träumten ja schon von vielen günstigen Cache-Schichten bei AMD in der Zukunft, aber wenn ich das so durchlese, steht explizit dort, dass nur immer die gleiche Fertigungsstufe gestackt wird. Also keine "günstigere" Fertigung für den SRAM, der eh nicht gut skaliert.
Das ist tatsächlich schade. 7nm hätte sich sehr gut für die Cache-Dies angeboten, da deutlich günstiger aber kaum schlechter bei der SRAM-Packdichte.
 
  • Gefällt mir
Reaktionen: Tanzmusikus und Knut Grimsrud
bensen schrieb:
Der L3 Cache Die packt fast doppelt so dicht, weil die ganzen Kontrolllogik im Chiplet ist und oben drauf eben nur reine SRAM Zellen sind.
Der L3$ die packt vor allem so dicht, weil AMD hier auf cache optimierte libraries verwendet. Das habe ich doch schon geschrieben, willst du das jetzt anzweifeln oder war das einfach nur ein "ich muss Kontra geben" Kommentar? Die Kontrollogik hilft zwar auch, aber macht nicht so viel aus. Es geht hauptsächlich um den optimierten Prozess.
 
@C.J.

Achso? Ich hatte es so verstanden, dass der Cache nun über den Cores gelagert wird.
Sollte man dazu übergehen, dass man Cores stackt, wären weit niedrigere Spannungen notwendig (ggf möglich mit den kommenden Strukturbreiten) schätze ich.
 
Augen1337 schrieb:
@C.J.

Achso? Ich hatte es so verstanden, dass der Cache nun über den Cores gelagert wird.
Sollte man dazu übergehen, dass man Cores stackt, wären weit niedrigere Spannungen notwendig (ggf möglich mit den kommenden Strukturbreiten) schätze ich.

Nein, gestapelt wird nur im Bereich des Caches, siehe auch das Bild aus der News von vorgestern: https://pics.computerbase.de/9/8/8/8/8-c745f1f78dba73a2/6-1080.3b4b9a89.jpg

Cores zu stapeln scheint sehr schwierig zu sein. Das würde wohl nur bei Betriebspunkten gehen, die man aus dem Mobile- und Server-Bereich kennt (also 2,x Ghz Baseclock, Spannung ganz runter), um die Hitze in den Griff zu kriegen. Allerdings muss man die oberen Kerne immer noch mit Strom versorgen. Dafür will man eigentlich keine "Löcher" (TSVs) durch den unteren Kern bohren, weil die der Logik dann zu sehr im Weg wären. Und letztendlich ist auch fraglich was das bringen soll, denn Kerne kommunizieren nicht direkt untereinander, sodass der geringere räumliche Abstand gar kein Vorteil ist. Auch wenn es unintuitiv aussieht, scheint das exklusive Stapeln des Caches und Dummies über den Kernen das logischste Design zu sein.
 
  • Gefällt mir
Reaktionen: Tanzmusikus, Smartbomb, Knut Grimsrud und eine weitere Person
Naja, Stacking ist der eine Weg die Komplexität von ICs pro Flächeneinheit zu erhöhen. Und wenn man bei der Strukturgröße langsam ans Limit kommt technologisch (=Wellenlänge) oder ökonomisch (Multi-Patterning), kann man über vertikale Strukturen (FinFETs) oder Stapeln das Moorsche Gesetz am Leben halten. Das ist letztlich eine wesentliche Motivation für die Investoren hinter den Fabs. Die zweite Motivation kommt vom Markt und heißt System-On-Chip, also möglichst viele Funktionen zu integrieren.
 
w0mbat schrieb:
Der L3$ die packt vor allem so dicht, weil AMD hier auf cache optimierte libraries verwendet. Das habe ich doch schon geschrieben, willst du das jetzt anzweifeln oder war das einfach nur ein "ich muss Kontra geben" Kommentar? Die Kontrollogik hilft zwar auch, aber macht nicht so viel aus. Es geht hauptsächlich um den optimierten Prozess.
Hast du irgendein Problem? Dann such dir professionelle Hilfe.
Du kannst hier diskutieren und Belege für deine Thesen bringen anstatt nur Leute dumm anzumachen.
 
Klingt ja gerade so als ob unter den TSMC-Kunden für diese Technologie AMD der Pionier, Vorantreiber, Innovator, wie auch immer wäre. AMD lässt aber auch nichts mehr anbrennen. Mit 15% mehr FPS im Schnitt hätte wohl niemand gerechnet bei einem Zen 3+ bzw. Refresh. Bin gespannt ob das für Alder Lake reicht.
 
Zuletzt bearbeitet:
TSMC hat also vor allem über TSMC-SoIC geredet. Und AMD hat gleichzeitig den 3D-V-Cache vorgestellt. So etwas nennt sich enge Zusammenarbeit, :).

Aber wie die zweite Grafik des Artikels zeigt bietet TSMC unter 3DFabric auch andere Verbindungstechniken an. Xilinx setzt InFO im großen Stil ein. So wie ich es verstehe war die AMD Radeon R9 Fury X eine der ersten Lösungen die CoWoS bei TSMC eingesetzt hat.

InFo und CoWoS lassen sich natürlich mit TSMC-SoIC kombinieren.

Ich denke der große Unterschied zwischen Intel und TSMC beim Advanced Packaging, dass TSMC im großen Stil 3D-Stacking einsetzt, während Intel dies bisher vor allem bei Speziallösungen macht.

Wie wiederholt ausgeführt gibt es beim 3D-Stacking abgesehen von der Verbindungstechnik 2 Herausforderungen:
  • die Wärme so zu erzeugen und abzuführen, dass alle Layer unter allen Lasten in einem vernünftigen Temperaturbereich bleiben.
  • den einzelnen Layern den erforderlichen Strom zuzuführen, ohne die Logik in den den anderen Layern zu beeinträchtigen.

Die Idee mit wärmeabführenden passiven Zwischenschichten die die Wärme zur Seite abführen hört sich gut an. Aber ich bin skeptisch:
  • Silizium ist ein guter Wärmeleiter, eine passive Zwischenschicht kann die Wärmeleitung maximal verdoppeln.
  • die Geometrie ist ungünstig. Der Querschnitt des Wärmeleiters ist wegen der geringen Schichtdicke im Vergleich zu seiner Fläche sehr klein.
  • Die abgeleitete Wärmemenge ist proportional zur Fläche. D. h. durch eine Zwischenschicht aus einem besseren Wärmeleiter optimiert man die vor allem die vertikale Wärmeabfuhr im Stack.
  • Durch die kleine Seitenfläche dieser Zwischenschicht kann aber in den einzelnen Ebene nur wenig Wärme zur Seite abführen.
  • Diese seitliche Wärmeabfuhr wirkt sich vor allem auf die Ränder aus. Was ein Temperaturgefälle von innen nach außen bewirkt. Ich denke nicht dass dies erwünscht ist.
  • Und wohin sollen die wärmeabführenden Zwischenschicht die Wärme abführen?
  • ...

Kann man in diesen Dimensionen sich effektive Heatpipes realisieren? Funktioniert die Konvektion noch?

Mit ICs die nur wenig Leitung brauchen und somit wenig Wärme abgeben ist das Stapeln unter diesen Gesichtspunkten kein Problem.

Aber AMD macht High Performance Computing. D. h. AMD baut hauptsächlich CPUs und GPUs die ordentlich Leistung brauchen. Advanced Packaging wird von AMD als eine Kernkompetenz dargestellt. Da kann Cache auf ein CCD zu kleben nur der Anfang sein.

Mich interessiert vor allem wie AMD die Verbindung von IOD und CCDs in Zukunft umsetzt. Wäre die Probleme mit Wärmeabfuhr und Stromzuführung nicht, würde ich sagen, dass TSMC-SoIC die ideale Lösung ist. Das Problem mit den Latenzen wäre auf einen Schlag viel kleiner. Und die Leitungslängen des Infity Fabrics wären viel kürzer.

Aber so einfach ist es wohl nicht. D. h. für die Ingenieure, dass sie vor interessanten Problemen stehen. Und echte Ingenieure wollen genau das.
Ergänzung ()

w0mbat schrieb:
Der L3$ die packt vor allem so dicht, weil AMD hier auf cache optimierte libraries verwendet. Das habe ich doch schon geschrieben, willst du das jetzt anzweifeln oder war das einfach nur ein "ich muss Kontra geben" Kommentar? Die Kontrollogik hilft zwar auch, aber macht nicht so viel aus. Es geht hauptsächlich um den optimierten Prozess.
bensen schrieb:
Hast du irgendein Problem? Dann such dir professionelle Hilfe.
Du kannst hier diskutieren und Belege für deine Thesen bringen anstatt nur Leute dumm anzumachen.

Das was w0mbat schreibt ist der Kern was AMD am 1. Juni auf die Nachfragen geantwortet hat.

Anandtech schreibt am Ende des Artikels zu 3D-V-Cache(https://www.anandtech.com/show/1672...acked-vcache-technology-2-tbsec-for-15-gaming):

Update June 1st:

In a call with AMD, we have confirmed the following:

  • This technology will be productized with 7nm Zen 3-based Ryzen processors. Nothing was said about EPYC.
  • Those processors will start production at the end of the year. No comment on availability, although Q1 2022 would fit into AMD's regular cadence.
  • This V-Cache chiplet is 64 MB of additional L3, with no stepped penalty on latency. The V-Cache is address striped with the normal L3 and can be powered down when not in use. The V-Cache sits on the same power plane as the regular L3.
  • The processor with V-Cache is the same z-height as current Zen 3 products - both the core chiplet and the V-Cache are thinned to have an equal z-height as the IOD die for seamless integration
  • As the V-Cache is built over the L3 cache on the main CCX, it doesn't sit over any of the hotspots created by the cores and so thermal considerations are less of an issue. The support silicon above the cores is designed to be thermally efficient.
  • The V-Cache is a single 64 MB die, and is relatively denser than the normal L3 because it uses SRAM-optimized libraries of TSMC's 7nm process, AMD knows that TSMC can do multiple stacked dies, however AMD is only talking about a 1-High stack at this time which it will bring to market.
Das zweite Update im Artikel von Computerbase hat die anderen Punkte ebenfalls enthalten, aber dieses Detail nicht erwähnt. Und so wie das Update geschrieben ist, kann man tatsächlich verstehen, dass die Logik der entscheidende Faktor ist.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Nagilum99, Tanzmusikus und w0mbat
bensen schrieb:
Hast du irgendein Problem? Dann such dir professionelle Hilfe.
Du kannst hier diskutieren und Belege für deine Thesen bringen anstatt nur Leute dumm anzumachen.
Alles gut bei dir? Wieso wirst du gleich so aggressiv? Ich hab nur deine Aussage korrigiert und du drehst gleich voll ab?

In a call with AMD, we have confirmed the following:
[...]
he V-Cache is a single 64 MB die, and is relatively denser than the normal L3 because it uses SRAM-optimized libraries of TSMC's 7nm process
 
w0mbat schrieb:
Alles gut bei dir? Wieso wirst du gleich so aggressiv? Ich hab nur deine Aussage korrigiert und du drehst gleich voll ab?
Verdreh hier nicht die Tatsachen. Ich habe lediglich angemerkt, dass die doppelte Dichte nicht nur durch angepasste libraries, sondern eben durch einen weiteren Faktor erreicht wurde.
Darauf wurdest du unsachlich. Wenn du den Post nicht verstehst frage einfach nach. Wenn du es anders siehst als ich argumentieren dagegen. Alles andere ist überflüssig.
Wenn das dein dein normaler Umgangston ist, sag bescheid, dann kann ich dich auf die Ignoreliste setzen.

Und was möchtest du jetzt bitte korrigieren? Die Libraries sind jetzt also alleine für die doppelte Kapazität auf der kleinen Fläche verantwortlich?

Golem:
AMD hat auf Nachfrage einige weitere Informationen zum 3D V-Cache erläutert: So handelt es sich um ein 7-nm-Die mit 64 MByte Kapazität, welches auf den abgeflachten (thinning) CCD gesetzt wird. Die Kontrolllogik des 3D V-Cache sitzt im CCD, weshalb AMD eine sehr hohe SRAM-Packdichte erreicht und die externen 64 MByte ähnlich kompakt ausfallen wie die internen 32 MByte.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Nagilum99 und Tanzmusikus
bensen schrieb:
Verdreh hier nicht die Tatsachen. Ich habe lediglich angemerkt, dass die doppelte Dichte nicht nur durch angepasste libraries, sondern eben durch einen weiteren Faktor erreicht wurde.
Darauf wurdest du unsachlich. Wenn du den Post nicht verstehst frage einfach nach. Wenn du es anders siehst als ich argumentieren dagegen. Alles andere ist überflüssig.
Wenn das dein dein normaler Umgangston ist, sag bescheid, dann kann ich dich auf die Ignoreliste setzen.

Und was möchtest du jetzt bitte korrigieren? Die Libraries sind jetzt also alleine für die doppelte Kapazität auf der kleinen Fläche verantwortlich?
Muss das sein?
Die doppelte Kapazität auf derselben Fläche beruht auf zwei Faktoren, das sagt Ihr (inzwischen) beide:
  • Auf dem CCD ist die gesamte Kontrolllogik, 3D-V-Cache nutzt die gesamte Fläche für SRAM-Zellen.
  • Für den 3D-V_Cache werden optimierte Bibliotheken verwendet, die eine höhere Packungsdichte ermöglichen.

Die Cachelogik macht an der Gesamtfläche des L3-Chaches auf den CCD nur einen kleinen Anteil aus. Die SRAM-Zellen belegen den größten Anteil dieser Fläche. Ich habe leider nur den Augenschein und keine exakten Zahlen.

Aus den Flächenverhältnissen folgt, dass sich die die optimierten Bibliotheken für die Kapazitätsteigerung des 3D-V-Caches stärker auswirken als das Entfallen der Cachelogik auf dem 3D-V-Cache-Chiplet.
 
  • Gefällt mir
Reaktionen: ArrakisSand, Nagilum99 und w0mbat
Fritzler schrieb:
Im Vergleich zu Alu sins schonmal 30% weniger.
163W/(m*K) vs. 236W/(m*K)
Am Ende ist die dicke des gestapelten Dies recht wichtig für ein geringes deltaT.

Bei den Intel CPUs hatte sich die Die dicke doch bei den Temperaturen bemerkbar gemacht.
Ich würde eher sagen: "nur" 30% weniger. Aluminium ist immerhin der Wärmeleiter an den man zuerst denkt, wenn auch wirtschaftliche Aspekte eine Rolle spielen. 😉
 
ETI1120 schrieb:
Die Cachelogik macht an der Gesamtfläche des L3-Chaches auf den CCD nur einen kleinen Anteil aus. Die SRAM-Zellen belegen den größten Anteil dieser Fläche. Ich habe leider nur den Augenschein und keine exakten Zahlen.
Das ist offensichtlich. Durch die fehlende Kontrolllogik, kann die Fertigung weiter auf die reinen SRAM Zellen optimiert werden. So hatte ich das gelesen. Bin jetzt in diesem Gebiet kein Fachmann, aber klingt zumindest plausibel.
 
The Limit is ....the TDP.
Naja das was am meisten Wäre produziern wird wird wohl recht sicher oben liegen am IHS.

Durch das wegfallen des Ballings im SoIC bin ich doch recht positiv drauf zu sprechen.
Wenn TSMC vor Intel in der Massenproduktion stapelt wird es bitter.
Wird bei Intel der selbe Ansatz verfolgt oder wollen die verlöten?
 
Shrimpy schrieb:
The Limit is ....the TDP.
Naja das was am meisten Wäre produziern wird wird wohl recht sicher oben liegen am IHS.
Das hat @[wege]mini weiter oben schon erläutert: Dem ist scheinbar nicht so.
 
Zurück
Oben