News Genoa mit Zen 4: Umfangreiche Details zu AMDs nächster Server-CPU

the_ButcheR schrieb:
In vielen Anwendungsfällen bringt SMT keine, oder nur vernachlässigbar kleine, Vorteil. Bei unseren Workstations für Simulationen (CFD und FEM) ist SMT standardmäßig deaktiviert, da ansonsten Lizenzen für doppelt so viele Threads gezogen werden und die Rechnung nicht wikrlich schneller läuft.
Das wird von den Softwareherstellern im Übrigen auch als "Best Practice" empfohlen.
Sieht bei unserer (fast)-Monte-Carlo-Simulation ähnlich aus. SMT Bringt nen Performanceverlust --> Aus
 
Volker schrieb:
denn so bleiben für 96 Kerne abzüglich des I/O-Dies letztlich maximal nicht einmal mehr 280 Watt übrig
Das ist schon ein Knaller, brutal finde ich aber eher die Zahl am unteren Ende der Tabelle. Ein 16-Kerner mit 155W TDP abzüglich 116W für den I/O-Die bedeutet <40W für die 16 Kerne. Die CPU dürfte Leistungstechnisch enorm Federn lassen müssen, oder die 5nm-Fertigung wird uns bei der Effizienz noch enorm positiv überraschen. Der Verbrauch vom I/O-Die ist überraschend hoch. Zumindest ich bin überrascht.
 
Ja das wird krasses Worst Case sein, bei Vollbestückung aller RAM-Slots und allen PCIe Lanes usw. Ich denke da drumherum ist das so intelligent dann mehr zu nutzen, wenn was frei ist. Dafür gibt es ja die ganzen Parameter die auch alle überwacht werden.
 
Ich denke auch dass sie das intelligent Steuern können.

Aber da ergeben sich lustige Kombinationen bei Starker IO belastung und wenigen Kernen. Mal sehen wie stark sich das tatsächlich auswirkt in der Leistung. So richtig hat das glaube ich auch noch nie jemand untersucht oder? Also jetzt bezogen auf aktuelle CPUs
 
Der 16 Kerner wirds sicher nicht schaffen, den IO DIE auf 116w zu bringen, fällt ja alleine schon einiges an Kommunikation zwischen den Kernen/Chiplets weg.
 
  • Gefällt mir
Reaktionen: Hatsune_Miku und bensen
@PS828 Bei Techtec Potato gabs ein Interview mit nem großen von AMD. Da gings auch um die Anpassungen der CPUs mit Compute oder IO Fokus
Ich suchs mal raus
Forrest Norrod
 
  • Gefällt mir
Reaktionen: Unnu und PS828
Ja da dürfte es interessante Dinge jetzt schon geben. Aber der Markt für die 16 Kerner ist aktuell eben nicht für 4 TByte RAM und Nutzung aller PCIe Lanes gedacht, das hat man eben eher bei den großen. Die neue Genora unterstützen laut den Dokumenten dann sogar bis zu 12 TByte .. neue Module und so. Also die Speichercontroller werden da bei Vollbestückung massiv saufen .. wobei ich 12 TByte in 24 Bänken mal live sehen will :D
 
  • Gefällt mir
Reaktionen: PietVanOwl, metallica2006, Wirzar und 3 andere
@Volker geht man von 24 DIMMs Pro CPU aus sollten 512 GB Module im Serverbereich ziemlich schnell zur Verfügung stehen wenn Zen 4 erscheint. Damit kann man wirklich viel machen und es erweitert den Kosmos in dieser Hinsicht.

Bin jetzt schon auf Bandbreitenmessung gespannt :D im Server gibt's ja genug Anwendungen die linear mit Bandbreite skalieren. Da ist man nicht so Latenzabhängig wie im gaming. Das wird insgesamt ein ziemlicher schub Zen4 + diese IO Kapazität
 
12Channel SI und 128 PCIe5 Lanes.... meine Fresse.
Was heisst das fürs Board-Routing ?
3mm starke Platinen und 10 Layer Cu ?
 
  • Gefällt mir
Reaktionen: Saint81
@gustlegga Mal schauen. 10-12 layer sind sicherlich nicht ausgeschlossen
 
  • Gefällt mir
Reaktionen: gustlegga
computerbase107 schrieb:
Genau das ist das Thema beim "Big-Little-Prinzip"
Afaik aber so gar kein Thema im Server. Server sollen Vollast laufen. Laufen sie nicht Vollast schaltet man sie ab nachdem man ihre Teillast auf einen anderen Server verschoben hat der noch Luft hatte.
 
  • Gefällt mir
Reaktionen: Unnu
Volker schrieb:
Ja da dürfte es interessante Dinge jetzt schon geben. Aber der Markt für die 16 Kerner ist aktuell eben nicht für 4 TByte RAM und Nutzung aller PCIe Lanes gedacht, das hat man eben eher bei den großen. Die neue Genora unterstützen laut den Dokumenten dann sogar bis zu 12 TByte .. neue Module und so. Also die Speichercontroller werden da bei Vollbestückung massiv saufen .. wobei ich 12 TByte in 24 Bänken mal live sehen will :D

NVMeOF sieht nach einer sehr interessanten Technik aus, und dort könnte es durchaus Bedarf für CPUs mit vielen PCIe Lanes aber relativ wenig Cores geben. Ansonsten wird in Virtualisierungsumgebungen eher RAM als Cores nachgefragt.

Braucht man aber nicht zum zocken :-)
 
Volker schrieb:
...wobei ich 12 TByte in 24 Bänken mal live sehen will :D

Ja ist ja auch praktisch wenn man das Internet im Ram halten kann :love:
 
  • Gefällt mir
Reaktionen: PS828, metallica2006, Hayda Ministral und eine weitere Person
DarkInterceptor schrieb:
96 kerne mit HT? den taskmanager will ich mal sehen.

weiß jemand warum man Hyperthreading nur einfach macht? gibt ja auch bis zu 8 oder 9 fachen HT beim Power 9 von IBM. sowas wäre doch für server oder workstations nicht schlecht oder lieg ich falsch?
1. Was ist an der Kernzahl im Taskmanager jetzt so besonders? 2 Epyc oder 4+ Sockel Lösungen von Intel können schon seit vielen Jahren mehr Kerne vereinen. HPE bot bis zu 16 Sockel in einem System - aktuell stehen in den Specs vom Superdome 8 Sockel.

2. Du kannst auch 1.000 fach SMT fahren, aber wenn du dich mal genau darin einliest, was SMT macht und wie es arbeitet, wird du feststellen, dass der Nutzen sehr selektiv ist - und je höher du gehst desto geringer der Vorteil. Da sich bei SMT die logischen Kerne weiterhin den begrenzen Recheneinheiten teilen müssen, muss die Arbeitslast entweder die unterschiedlichen Einheiten (ALU, FPU...) parallel auslasten oder warezeiten auf externe Faktoren kompensieren. Im dümmsten Fall bricht die Leistung massiv ein, weil die Einheiten eh schon ausgelastet sind und die Daten nur gegenseitig aus dem Cache verdrängt werden.
Die Anwort ist also ein klares: Jein, respektive: Geht so.

D_Ano schrieb:
700W Peak, alter Schwede 😳
1 ms hast du gelesen, ja?
Ergänzung ()

foofoobar schrieb:
NVMeOF sieht nach einer sehr interessanten Technik aus, und dort könnte es durchaus Bedarf für CPUs mit vielen PCIe Lanes aber relativ wenig Cores geben. Ansonsten wird in Virtualisierungsumgebungen eher RAM als Cores nachgefragt.

Braucht man aber nicht zum zocken :-)
NVMeOF dient eigentlich dazu zentrale Speicher auch abseits von Dreheisen effektiv nutzen zu können.
Ergänzung ()

SoDaTierchen schrieb:
Das ist schon ein Knaller, brutal finde ich aber eher die Zahl am unteren Ende der Tabelle. Ein 16-Kerner mit 155W TDP abzüglich 116W für den I/O-Die bedeutet <40W für die 16 Kerne. Die CPU dürfte Leistungstechnisch enorm Federn lassen müssen, oder die 5nm-Fertigung wird uns bei der Effizienz noch enorm positiv überraschen. Der Verbrauch vom I/O-Die ist überraschend hoch. Zumindest ich bin überrascht.
Dass die Rechenkerne nicht mehr die überproportionalen Schlucker sind hast du aber mitbekommen?
PCIe4+, RAM-Controller, Caches... laufen nicht mit Luft und Liebe. Der Verbrauch des IO-DIEs wird natürlich stark davon abhängen, welche Arbeit zu erledigen ist. Bei monolithischen CPUs fällt der Bedarf ja nicht weg.
 
Zuletzt bearbeitet:
Nagilum99 schrieb:
Dass die Rechenkerne nicht mehr die überproportionalen Schlucker sind hast du aber mitbekommen?
Komm Mal runter, dein Beitrag ist ein einziger Rant. Wie kann man so negativ eingestellt sein? Aber deine Anmerkung ist auch fachlich zu kurz gedacht, 40W für 16 Kerne ist pro Kern weniger elektrische Leistung als in vielen Notebooks. Mir ist klar, dass diese Kerne dafür auch weniger Aufgaben erfüllen müssen, aber die beherrschen trotzdem avx512. Durch diese elektrischen Budgets könnten sich Konstellationen ergeben, in denen die CPU weit hinter ihren Erwartungen zurück bleibt. Könnte es, muss es aber nicht. Und ob das so ist, wird hoffentlich ein entsprechender Test zeigen.
 
Mc_Ferry schrieb:
Das gilt doch nur für Intel :rolleyes:
Hmm nee, schon viel früher tauchten die N-Bezeichnungen auf TSMC-Folien auf

https://g-pc.info/wp-content/uploads/2020/04/t0L4aARlFfrFrsUb.jpg
t0L4aARlFfrFrsUb.jpg
 
  • Gefällt mir
Reaktionen: Unnu und Nagilum99
SoDaTierchen schrieb:
Durch diese elektrischen Budgets könnten sich Konstellationen ergeben, in denen die CPU weit hinter ihren Erwartungen zurück bleibt. Könnte es, muss es aber nicht. Und ob das so ist, wird hoffentlich ein entsprechender Test zeigen.
Ich nehme mal an, dass AMD in der Lage sein wird den Chip nicht nur statisch mit Vollgas zu betreiben sondern den "Power gating" Ansatz auch beim IO-DIE fährt. Folglich wird die Last davon abhängen, was tatsächlich zu leisten ist. In der Realität kann das natürlich zu Szenarien führen, bei denen ein großer Anteil des Leistungsbudgets auf das IO-DIE entfällt, welches dann aber auch deutlich mehr leistet.
Dass die CPUs gleichzeitig mit AVX512 gestress werden und 128 PCIe 5 Lanes sowie 12 RAM-Kanäle auslasten ist extrem unwahrscheinlich.
Im Regelfall ist das ein "entweder oder": Rechenknoten oder Speichersystem - das hat nicht zuletzt auch Latenzgründe: Du willst im Regelfall kein HC System haben, dass in allen Bereichen am Limit läuft.
 
Interessant daß die Fähigkeit, AVX512 Instruktionen zu bearbeiten, scheinbar auch bei AMD mit deutlich höheren TdPs einher geht. Würde mich Mal interessieren, was diese "wide Extensions" so stromhungrig macht.
 
DarkInterceptor schrieb:
gibt ja auch bis zu 8 oder 9 fachen HT beim Power 9 von IBM. sowas wäre doch für server oder workstations nicht schlecht oder lieg ich falsch?
HT bringt fast nur etwas, wenn man z.B auf IO übers Netz, storage etc wartet. Bei random Zugriffen auf den Speicher mittels indirekter Addressieung auch noch, aber das wars dann auch meist. Das sind dann z.b. Datenbankanwendungen. Und da gibt es halt schon Power und Spark die das Feld bedienen. Man muss nicht jede Nische bedienen. Kostet ja auch was und belastet einem bei den Kernaufgaben.

PS828 schrieb:
12 RAM Channels sind da sicherlich auch nicht ganz unschuldig, so ein großes Interface gab's noch nie.
Das stimmt nicht. Power hatte schon mehr und Vektor CPUs auch.
Draco Nobilis schrieb:
Es mag mehr rum kommen als bei Intel und per Kern ist es auch sehr wenig, aber irgendwie geht das in die falsche Richtung.
Naja, es hat dann jetzt hoffentlich auch das letzte Rechenzentrum begriffen das Sie mit Luft nicht mehr weit kommen. Klar man kann dann noch ne 2U bzw 4U 2Socket Lösung mit riesen Kühler verbauen, aber das wars dann auch. Willst du nicht halb leere Racks musst du auf Wasser gehen. 50-100kW im 48U Rack gehen anders halt nicht.
guggi4 schrieb:
Den Leuten, die 96 Kerne auch wirklich nutzen können, wird eine von 280w auf 400w angehobene TDP herzlich egal sein, vor allem wenn unter dem Strich die Effizienz trotzdem steigt. Für den Rest wird es ja auch garantiert wieder kleinere CPUs mit geringerer TDP geben.
ne egal ist es denen nicht. Siehe oben die müssen jetzt dann wirklich auf Wasserkühlung gehen.

guggi4 schrieb:
Der 16 Kerner wirds sicher nicht schaffen, den IO DIE auf 116w zu bringen, fällt ja alleine schon einiges an Kommunikation zwischen den Kernen/Chiplets weg.
Der wird das sicherlich schaffen mit Vollbelegung vom gesamten IO.
Nagilum99 schrieb:
bot bis zu 16 Sockel in einem System - aktuell stehen in den Specs vom Superdome 8 Sockel.
SGI (heute HPE) hatte/hat mit deren großen SMT Systemen bis zu 2048 Socket Systeme wenn ich es richtig im Kopf habe. Stichwort NUMA Scale. Ansonsten hat IBM auch 32/64 Socket Systeme.
Nagilum99 schrieb:
Ich nehme mal an, dass AMD in der Lage sein wird den Chip nicht nur statisch mit Vollgas zu betreiben sondern den "Power gating" Ansatz auch beim IO-DIE fährt. Folglich wir
Das wird bei IO Die eher nichts bringen. Sowohl RAM als auch PCIE haben schon einiges an Stromsparfeatures wenn nicht belegt und mindestens PCIE kannst du auch komplett abschalten im BIOS.

Das ist max 1W pro 16X PCIE Channel
 
Geil, da ist ja noch massig Platz auf dem Package. Da passen bestimmt auch doppelt so viele DIEs drauf. Bin echt gespannt, wo die Reise noch hin geht.
 
Zurück
Oben