News AMD-Server-CPU: Epyc 2 mit 64 Kernen, 256 MByte L3-Cache und PCIe 4.0

Candy_Cloud schrieb:
Das mit dem Cache ist tatsächlich ein Platzräuber.
Eine große Fläche gibt die Wärme gut ab.

Ich weiß allerdings nicht, wie groß die Wärmeleitfähigkeit von Silizium ist, bzw. wie weit die Wärme der CPUs sich bereits über das Silizium ausbreitet, bevor es die Grenze zum IHS überschreiten muß. Auch weiß ich nicht, wieviel Wärme der Cache produziert, im Verhältnis zur CPU.
 
Chismon schrieb:
Stichwort (Billig-)HBM2-Technik, wenn der Shrink auf 7nm nicht ausreichen wird. Das wäre auch angesichts der möglicherweise bevorstehenden Umstellung aller AMD Produkte auf HBM2 Stapelspeicher (später dann deren Nachfolger, bei Navi GPUs wird ja von HBM3 ausgegangen) schon sinnvoll, zumal die Starship Prozessoren ja die Krönung von AMDs CPU-Schöpfung sind.

Du meist, dass der L3 nicht mehr direkt auf den CPU-Dies ist, sondern als HBM realisiert ist? Das wäre natürlich eine Möglichkeit und damit wäre die L3-Größe nach oben hin nahezu unbegrenzt. (Ergänzung: Und würde auf dem CPU-Die reichlich Platz für mehr Cores frei machen.) Bliebe nur die Frage, wie sich das auf die Performance auswirkt.
 
Zuletzt bearbeitet:
Rock Lee

Das effizienteste was AMD machen kann im Vergleich zu Intel, so wenige Chips wie möglich zu benötigen um den ganzen Markt abzudecken.

Aktuell benötigt man als Otto die nächsten Zeit nicht mehr als 8 Cores. Deshalb würde für AM4 weiterhin 8 Cores aber mit mehr Performance auszahlen. Sprich wenn CCX auf 8 Cores anwachsen, benötigt AMD auch nur ein CCX mit dem L3 Cache (8-16MB).
Im Bereich APUs benötigt AMD früher oder später 2 Chips, einen Low-Cost und einen Mainstream, wobei letzteres AMD vermutlich eh schon weg will und eher lieber einen Chip, der von der Größe her aber kleiner ist als RR.

Sprich kleinere ULV Notebooks werden weiterhin mit einem kleineren Chip und nur 4 Cores bsp geben. Darüber angesiedelt wäre so ein 8 Core Chip mit IGP (unklar wie groß der überhaupt ist, wer sagt, dass der proportional die selbe Größe wie ein CCX haben muss ?)
Dann hätte man Desktop mit CPU, APUs abgedeckt und hätte sogar einen Chip für Premium Notebooks.

Darüber dann dieser Epyc 2 mit 64 Cores. Für Threadripper dann maximal 32 Cores, da 4 Speicher-Controller.

So hätte AMD wie jetzt nur 3 Chips um eben auch embedded bis Server abzudecken.

Ein Punkt kommt noch dazu, AMD hat betont, HSA bleibt weiterhin ihr Ziel und Weg soviel Compute-Power in ein Chip zu bringen wie möglich.

ULV-Chips 4 Cores + IGP
Notebooks 4 Cores + IGP
Premium Notebook 6-8 Cores + IGP
Desktop 4-8 Cores mit IGP (kann ja bei 11 CUs bleiben)
TR4 16-32 Cores
Epyic bis 64 Cores

Das aber wird vermutlich nicht 2018 sondern eher 2019 (?) passieren, nach einem Refresh in 12nm für Ryzen und eventuell RR.
 
Zuletzt bearbeitet:
Rock Lee schrieb:
Ich habe den Eindruck, daß irgeneine Komponente, die es womöglich erst spät ins Layout schaffte, bei 4GHz dicht macht. Eine zu konservative Induktivität oder ähnliches. Aber wichtig war, den jahrelangen Rückstand aufzuholen.

RavenRigde könnte dann auch die 5GHz schaffen. Aber auch dort sind andere Dinge viel wichtiger. Gerade als Grafikhersteller und Erfinder der Fusion-Chips (wo intel dann noch die Premiere versaut hat), muß die Grafik alles in den Schatten stelle, speziell auch Iris. Seit Jahresanfang boomen auch die Cryptowährungen und machen GPU-Computing populär. Das wäre die Chance, intel an uerwarteter Front anzugreifen.

Eine Herausforderung wäre die Latenz beim Speicherzugriff. Und auch ob die GPU dedizierten Speicher bekommt. Die Erfahrung mit dem Server-Cache kann man vlt. auch für dedizierten Grafik-Speicher nutzen. Oder man nutzt einen großen Cache um eben auch die GPU versorgen zu können, obwohl CPU und GPU am gleichen RAM hängen.
Ergänzung ()

Die Latenz würde mich auch bei der PCIe-4.0-Umsetzung interessieren. Wie "Holt" immer wieder betont, ist AMD da derzeit noch weit hinter intel. Gerade im Server-Bereich, wo in meinen Augern der primäre Einsatz bei Datenbanken liegt, profitiere ich direkt von diesen kurzen Zugriffszeiten. Allerdings braucht AMD dann wohl ausgerechnet die Optane-Technik von intel.
 
Herdware schrieb:
Bliebe nur die Frage, wie sich das auf die Performance auswirkt.

Guter Punkt, die Latenz ist natürlich die Frage, aber möglich dass AMD und SK Hynix daran schon arbeiten und etwas Zeit haben sie ja noch, zumal (höher taktender) HBM2 wohl im kommenden Jahr erst richtig in Schwung kommen dürfte bei besser optimiertem Prozess.

Ich kann mir nicht vorstellen, dass die Allianz von AMD mit SK Hynix bzgl. HBM2 nur auf GPUs von Anfang an ausgerichtet war und man die Planung für die CPU- und APU-Bereiche komplett außen vor gelassen hat (zumal gerade der APU Bereich wie bei keinem anderen Unternehmen ja ein Indikator für die Verschmelzung von CPU und GPU ist und auf lange Sicht massiv davon profitieren dürfte), auch wenn der HBM Stapelspeicher bisher natürlich bei den meisten primär im GPU Markt bekannt ist/Anwendung findet.

Allerdings wurde schon zu Beginn/mit Einführung der HBM-Technologie direkt auf die Eignung/den Einsatz im Server-Bereich hingewiesen.

Gut möglich, dass es dazu aber grundlegende Modifikationen der Speicherarchitektur/Interposer braucht um die Latenz in passende Bereiche zu bringen und eine ausreichend schnelle Anbindung zu gewähren.
 
pipip schrieb:
Rock Lee

Das effizienteste was AMD machen kann im Vergleich zu Intel, so wenige Chips wie möglich zu benötigen um den ganzen Markt abzudecken.
[...]
ULV-Chips 4 Cores + IGP
Notebooks 4 Cores + IGP
Premium Notebook 6-8 Cores + IGP
Desktop 4-8 Cores mit IGP (kann ja bei 11 CUs bleiben)
TR4 16-32 Cores
Epyic bis 64 Cores

Im Prinzip unterscheidet sich unsere Sichtweise nicht grundlegend.TR4 und Epyc geh ich konform, ULV-Mobile kann ich mir auchvorstellen, dass es vielleicht 2 Masken für APUs gibt, um die Chips noch kleiner zu machen.
Einzig beim Desktop glaube ich, dass man wie jetzt bei Ryzen und RR(bald) auch APUs UND reine CPUs parallel je nach Anforderung anbietet.
Ich kann mir einfach nicht vorstellen, dass man alle 2 CCX 8C-Dies, die weniger als 8 funktionsfähige Kerne schaffen in den Müll wirft in einem hochkomplexen Prozess wie 7nm.
In deiner Auflistung fehlen zB. 10 und 12-Kern Prozessoren. Ich weiss nicht, ob diese Lücke wirklich so klein sein wird, dass man sie in Zukunft unbesetzt lassen soll.
 
Klingt unlogisch. Das erfordert einen komplett neuen die für diese CPU. Bzw. 8 Mal 8 Kerne mit einem Kanal Speicher. Wird es wohl so nicht geben und warum sollten sie generell mit der Speichergeschwindigkeit runter? Die bräuchten 10% mehr pro Kern und nicht 40% weniger.
 
pipip schrieb:
Aktuell benötigt man als Otto die nächsten Zeit nicht mehr als 8 Cores.

Da wäre ich vorsichtig! Schau Dir an, was derzeit im Softwaremarkt passiert: überall deep*-Algorithmen. Selbst Adobe hat gerade auf seiner Hausmesse einen DeepLearning-basierten Algo als Prototyp für eine Photoshop-Funktion verpasst. Und abseits der Software werden derzeit SoCs entwickelt, die spezielle Tensor-Cores / DL-Cores beinhalten. Da könnte uns eine Revolution im Endverbrauchermarkt ins Haus stehen, denn erst mit DeepLearning wird die Software "intelligent".

Und hier mit dem Epyc sieht man, welche Technologien im HighEnd-Umfeld erprobt werden (und irgendwann in Mainstream-CPUs durchsickern), um damit meine Ausführungen wieder back to topic zu bringen.
 
na die 4-fache cachegröße sollte bei einer halbierung der strukturbreite ca. gleich viel fläche benötigen.
 
die sollen endlich ihre raven ridge bringen.
mein onkel lebt noch mit so nem alten 64bit 2kern atom der wegen fehlender grafiktreiber nur 32bit kann, da wär was kleines, stromsparendes, mit aktueller technik top.
da intel kein natives 4k hdmi kann mit 60hz (in fast 2018) sind die leider raus.
 
@ Rockk Lee

Ich kann mir einfach nicht vorstellen, dass man alle 2 CCX 8C-Dies, die weniger als 8 funktionsfähige Kerne schaffen in den Müll wirft in einem hochkomplexen Prozess wie 7nm.

Die Hauptproduktion wäre das 8 Kern CCX Modul für Notebook und Ryzen Mainstream, dass man dann nach 4,6,8 Kernen aussortiert.
Bei einem 2 x CCX Die, würde man nach 8, 12 und 16 Kernen für die HEDT Plattform und die kleinen Epyc Server sortieren, dass würde vorraussetzen das TR und Epyc die gleiche Ausbaustufe hätten. machbar wäre das, wenn in der Produktion fast alle CCX mit mind. 4 Kernen an Ausbeute möglich sind.
 
1 CCX mit 8 Kernen, schau mer mal. Bei 8 Kernen Setzt Intel meine ich schon Ringbus ein. Was macht man eig beim Coffeelake? Auch Ring?
Ergänzung ()

Mickey Cohen schrieb:
na die 4-fache cachegröße sollte bei einer halbierung der strukturbreite ca. gleich viel fläche benötigen.

je nach dem wie gut man den Angaben glauben kann. Denke kaum dass der 7nm Prozess perfekt skaliert, also 4x Desnsity hergibt.
 
Ja, seit Sandy Bridge gibt es Ringbus und CL hat auch Ringbus und soll es auch bei dem angekündigten 8 Kerner behalten.

Erst die 2066 Plattform setzt auf Mesh mit all seinen Nachteilen für Gaming. Ich kann aber nichts darüber sagen, welche Kommunikation ein Ryzen CCX Modul mit aktuell 4 Kernen verwendet, die INF kommt ja erst zum Einsatz, wenn sich beide CCX unterhalten müssen.
 
Herdware schrieb:
Du meist, dass der L3 nicht mehr direkt auf den CPU-Dies ist, sondern als HBM realisiert ist? Das wäre natürlich eine Möglichkeit und damit wäre die L3-Größe nach oben hin nahezu unbegrenzt. (Ergänzung: Und würde auf dem CPU-Die reichlich Platz für mehr Cores frei machen.) Bliebe nur die Frage, wie sich das auf die Performance auswirkt.

Die Latenzen von HBM sind nicht besser als DRAM, und an den Latenzen von DRAM hat sich in den letzten Jahrzehnten wenig geändert.
 
DonL

Ich wüsste nicht ob Intel bei den 4K bisher ring genutzt hat. Nur nur vielen Kernen im Server. Darunter auf Mainstream wie AMD bei CCX quasi vollverdrahtet meine ich.

Edit.
https://www.google.de/search?q=Intel+ringbus&client=ms-android-samsung&prmd=nsiv&source=lnms&tbm=isch&sa=X&ved=0ahUKEwiK5Omo_Z3XAhUHtxoKHQdfAHAQ_AUICygD&biw=360&bih=560

Wohl doch auch bei den 4C ink GPU Part an Ring.
 
Zuletzt bearbeitet:
Candy_Cloud schrieb:
Das mit dem Cache ist tatsächlich ein Platzräuber. Da darf man gespannt sein wie die Module später aussehen werden. Jedoch für Server ein klarer Vorteil.

7LP verspricht eine Halbierung der Fläche - und das gilt auch für SRAM. Die doppelte Menge an Cache pro CCX hört sich jetzt nicht abstrus an, genauso wenig wie eine Verdoppelung der CCX pro Die. Am Ende sollte der 7LP-Nachfolger von Summit Ridge IMHO nicht wesentlich größer sein. Summit Ridge hat 192 mm², und der 7LP Chip dürfte immer noch kleiner als 250 mm² sein.
 
DDR4 3200 ist ja aktuell bei Ryzen und TR absolut möglich, natürlich gibt es noch teilweise Probleme. Aber wenn AMD den Speichercontroller verbessern lässt und die Anbindung Optimiert ist das kein Problem. Also AMD hat es in der Hand weiter vorzustoßen.
PCIe 4.0 auch sehr gut, aber doch lieber gleich 5.0 in den CPU?
 
Technisch ließt sich die CPU wie ein Traum für alle die einen neuen Windows Server für den Host lizenzieren wollen ist es ein Alptraum. Danke Microsoft für die Core-Lizenz.
 
deo schrieb:
Das bleiben Studien, wenn es keine Abnehmer dafür gibt. Immerhin baut man die CPUs in Modulbauweise, so dass die Produktion gerade da verwendet werden kann, wo Bestellungen vorliegen.

Google und Co. werden die sicher verwenden können/wollen und Deep Learning usw. drüber laufen lassen mit eigenen Anwendungen. Normale Unternehmen würden arm werden wenn sie Oracle usw. drauf laufen lassen würden, Stichwort Lizenz pro CPU-Kern.
 
DonL_ schrieb:
Erst die 2066 Plattform setzt auf Mesh mit all seinen Nachteilen für Gaming. Ich kann aber nichts darüber sagen, welche Kommunikation ein Ryzen CCX Modul mit aktuell 4 Kernen verwendet, die INF kommt ja erst zum Einsatz, wenn sich beide CCX unterhalten müssen.

Die Kerne innerhalb eines CPU Clusters (AMD: CCX) haben zueinander jeweils die gleiche Latenz. Sprich jeder Kern ist mit den anderen Kernen direkt verschalten. Das funktioniert praktisch aber nur bei 2 - 4 Kernen. Darüber hinaus wird der Aufwand extrem groß (die Anzahl der notwendigen Interconnects pro Kern geht durch die Decke). Deshalb zur Skalierung entweder mehrere CPU Cluster verbunden über eine Fabric/Crossbar (wie AMD und bei vielen ARM SoCs) oder Lösungen wie Ringbus/Mesh (Intel).

Das AMD die Größe der CCX mittelfristig ändert ist äußerst unwahrscheinlich. Mit mehr als vier Kernen pro Cluster steigt die Komplexität massiv an. Würde AMD hierfür eine eigene Lösung entwickeln wären mehrere CPU Cluster pro Chip schlussendlich überflüssig.
 
Zuletzt bearbeitet:
Zurück
Oben