News CPU-Gerüchte: AMDs Genoa für Server mit 96 Zen-4-Kernen

AVX3 halte ich für keine Errungenschaft, wenn man bedenkt wie Entwickler drüber denken. google ausreichend statments vorhanden diesbezüglich
 
Volker schrieb:
des neuen Sockels: 72 mm × 75,4 mm.
Omg, die AMD CPUs werden immer größer. :o Erinnert schon fast an eine Tafel Rittersport. :D 96 Kerne sind auch mal eine Ansage, alter Schwede. :o MFG Piet
 
  • Gefällt mir
Reaktionen: Mcr-King
d0xs schrieb:
Wenn es so weiter geht, werden Grafikkarten Obsolet :D
So sieht es aus, wenn man Crysis komplett von einem Threadripper 3990X rendern lässt statt von der Grafikkarte:
 
  • Gefällt mir
Reaktionen: Mcr-King
@textract
@pipin
bei vielen IT'lern, die sich nicht wirklich tiefgreifend (oder gar nicht) informieren, ist intel noch sehr stark verwurzelt. das sehe ich sehr häufig bei einkäufern oder bei teils studierten informatikern, die den job so "am rande" machen. (also als Voraussetzung müssen sie Informatik studiert haben, aber wirklich was mit Informatik machen sie nicht^^)
und bei non-it'lern heißt es nur auf die frage was für eine cpu sie denn haben: "ja intel i7" und welcher? "i7"...

was da nvidia mit A100 und epyc hat ist da so weit weg wie der mars von der erde.
 
  • Gefällt mir
Reaktionen: amdfanuwe und PS828
Kampfkeks94 schrieb:
@[wege]mini @textract Ich habe eine Frage. Warum ist SMT4/SMT8 denn überhaupt erstrebenswert? Die Leistung einer CPU wird dadurch ja nicht wirklich erhöht, oder? Es wäre super, wenn ich mich dahingehend aufklären könntet :)
Das würde mich auch interessieren :). Nach meinem laienhaften Verständnis macht SMT Sinn, wenn der Core so breit ist, dass viele Ausführungseinheiten im Core sich mit einem Thread langweilen würden. Wenn jeder Core jetzt eine große AVX512-Einheit hat, würde es Sinn machen, diese in mehr als zwei Teile aufspalten zu können, um sie auch z. B. mit 4 Threads per SMT auslasten zu können, die normalen FPU-Code ausführen. Dafür muss man dann Decoder etc. auch erweitern, damit sich nicht direkt ein Flaschenhals ergibt.
 
PCIe 6.0 ist ja auch nicht mehr weit weg. Zwei Generationen nach genoa rechne ich schon damit dass es eingebaut wird.

Dass wir so lange bei 3.0 waren liegt an Intel :D davon sollte man sich nicht täuschen lassen

Klar ists für den Heimnutzer egal aber hier geht's ja auch um den Serverbereich
 
  • Gefällt mir
Reaktionen: cruse und jemandanders
Die machen mir etwas Angst.
Wenn dann noch die kolportierten >25% IPC dazukommen...
Die haben jedenfalls eine sehr sportliche Roadmap.

OK. Die Designabteilung scheint damit ja ganz gut zu funktionieren.

Wie wäre es, wenn AMD nun mal etwas^^ mehr in QS investieren würde?
Bei den aktuellen Mainstream Plattformen sehe ich da durchaus etwas Verbesserungspotential.

textract schrieb:
Intel war, mit Ausnahme SMT, noch nie vorne,
Also Core1 war ja eigentlich schon ganz gut. Die Avantgarde der Technik sind sie aber bisher eher nicht gewesen. Da geb ich dir recht,
Aus dem bekannten machen sie aber stets etwas ganz gutes. Der Haken ist halt im Moment die Fertigung. Das war früher ihr dickes Pfund.

SMT haben sie übrigens mit den (Chip) Resten von DIGITAL eingekauft. ;)

cruse schrieb:
bei vielen IT'lern, [...], ist intel noch sehr stark verwurzelt.
Nicht ganz ohne Grund.
In Sachen Dokumentation sind die echt gut. Und das ist etwas, was man einfach braucht.
Da könnte sich AMD gern mal ein paar Scheiben von abschneiden.
 
  • Gefällt mir
Reaktionen: cruse
PS828 schrieb:
Mal sehen was die Xeons machen aber hier sieht man vorerst Wohl kein Land im direkten Vergleich. Das sind absolute Monster.
Nur damit ich das richtig vertehe, die Monster sind die AMD CPUs? Oder die XEONS?
Sry. Das geht da nicht ganz klar aus diesem Satz hervor und so tief bin ich in der Serversparte nicht drin.
 
Kampfkeks94 schrieb:
@[wege]mini @textract Ich habe eine Frage. Warum ist SMT4/SMT8 denn überhaupt erstrebenswert? Die Leistung einer CPU wird dadurch ja nicht wirklich erhöht, oder? Es wäre super, wenn ich mich dahingehend aufklären könntet :)
Klar, die Leistung wird dadurch sogar, je nach Anwendungsfall natürlich, massiv erhöht.
Oracle bspw. empfiehlt schon seit einigen Jahren, zumindest seit den IBM E8X0 Systemen, auf Power/AIX SMT 8 einzusetzen. Es kommt immer auf die Skalierbarkeit der Applikation an und gerade I/O intensiven Aufgaben ist es im Normalfall völlig egal auf wie vielen Threads gerechnet wird.

Wen man kurz in Google sucht, findet man bspw. auch dieses Chart:
https://developer.ibm.com/components/ibm-power/articles/power9-and-smt-perf-for-db2/

Auch DB2 läuft signifikant schneller unter SMT8 vs SMT4.
Wie groß der Unterschied zu SMT2 ist, wurde da leider nicht getestet.

Außerdem profitiert auch die Speicherbandbreite von mehr Threads, wenn auch nicht so stark wie tatsächlicher CPU-Workload. Man muss hier bedenken, dass POWER9 Chips bereits weiter über 300 GB/s schaffen. Mit POWER10 geht das sogar auf 410 GB/s hoch.

Außerdem arbeitet der CPU-Scheduler von AIX anders, als unter Linux. Zuerst geht der her und verteilt seine Workload im Round-Robin verfahren auf den CPUs, die er im System findet. Ob virtuelle, oder physische und das ist ein enormer Unterschied auf einer POWER-Maschine, weil der Hypervisor ganz anders funktioniert, ist hierbei dem AIX erstmal egal. Um jetzt die Cache-Zugriffszeiten kurz zu halten, versucht das AIX eine möglichst große Core-Affinity zu behalten. Aus der Praxis habe ich hier Erfahrungen gemacht, dass selbst auf Systemen, wo 20 - 30 LPARs (so nennt man VMs unter POWER), oder mehr, auf 12 - 24 Cores laufen, eine Affinity von über 98 % gegeben ist. Das ist 1. der Art der geschuldet wie Context Switches auf einer POWER-CPU funktionieren und natürlich, dass wir durch mehr SMT auch mehr Systeme gleichzeitig auf einer CPU rechnen lassen können.

in ganz eindeutiger Nachteil, unter dem generell jedes unixoide System leidet kann dadurch aber ebenfalls ausgeglichen werden: der Netzwerkstack ist nicht multicorefähig.

Folgender Blogeintrag auf der SAP Website dürfte ebenfalls interessant sein, wie skalierbar einige Applikationen mit mehreren SMT-Threads sind und dieser Artikel ist sogar von 2015, seitdem hat sich viel getan:
https://blogs.sap.com/2015/02/03/benchmarking-and-the-single-thread/

Wie die CPU-Pipeline bei POWER9 und im Vergleich welche Verbesserungen es zu POWER8 im Detail gab, funktioniert, findet man übrigens hier:
https://openpowerfoundation.org/wp-content/uploads/2016/11/Jeff-Stuecheli-POWER9-chip-technology.pdf
 
  • Gefällt mir
Reaktionen: Cruentatus, bad_sign, Pjack und 3 andere
@Unnu die Xeons sind hier im Hintertreffen logischerweise;) das was AMD hier vorgestellt hat spielt in einer anderen Liga. Daran ändert sich mit Ice Lake auch nichts.

Erst mit Saphire rappids könnte man wieder aufholen vielleicht
 
  • Gefällt mir
Reaktionen: Unnu
Kann mir jemand helfen?

Wenn ich dies richtig deute, ist dies ein echter Enenekontahexa-Core bzw. virtueller Hektaenenekontaduo Core?
 
Crass Spektakel schrieb:
ARM-Multicore kann man kaum mit x86-Multicore vergleichen. Da kommen teilweise 48x2Ghz-Lösungen bei der Rechenleistung gerademal auf das Niveau eines Skylake mit 4x4Ghz. Das ist ja gerade der Grund warum ARM sich einfach nicht durchsetzen kann.
Ja ... Nein!

Natürlich kann man x86-Multicore mit ARM-Multicore vergleichen, macht man auch ständig. Nur um die Vergleiche wirklich deuten zu können, muss man etwas mehr Wissen mitbringen als hier nun angebracht wurde.

Die ersten Serverlösungen basierte auf den normalen Cortex-Kernen und deren Schwerpunkt liegt wo anders. Weniger ALUs, weniger AGUs, weniger Caches.

Das da nicht viel rumkam ist klar, und denoch gibt es Aufgaben, in denen diese kleinen Monster mehr leisten können als ein Skylake.

Aber all das ist nicht der Grund warum sich ARM nicht durchsetzten kann. Der Grund, warum sich ARM nicht durchsetzte kann ist relativ einfach: Egal wie gut die Hardware auch sein mag, stimmt die Infrastruktur nicht, gewinnt man keine Entwickler! Da ARM primär nur die ISA liefert sowie die Cores und dami Geld verdienen, sind die Hersteller gefragt entsprechende Ressource aufzuwenden, machen sie aber nicht.

Gute Compiler und Bibliotheken sind heute genauso eine Kunst für sich. Auch wen ich Intel nicht gerade für en sympathisches Unternehmen halte, vor dernen Compiler-Entwickler kann man nur den Hut ziehen! Klar GCC und LVM sind alle nicht schlecht, aber was Intel da auf die eine stellt.
Crass Spektakel schrieb:
Gerademal Apples M1 kann in der PC-Mittelklasse mitspielen und dafür muß Apple sündhaft teures und ultraschnelles Spezial-RAM direkt auf den CPU-Träger bonden, mit allen bekannten Nachteilen und beinahe ohne Skalierung nach oben.
Ah ja, welcher teure speziall RAM denn bitte? Der M1 nutzt LPDDR4X-4266MHz ... das ist weder wirklich spezieler RAM noch ist der sonderlich teuer. Ein 8GB-Stack bekommt man aktuell je nach dem wie gut du trades zwischen 10 $ und 20 $.

Der M1 kann nun mit halte, weil man beim M1 das SI massiv aufgebohrt hat und gleichzeitig auch die Caches und damit die ALUs und AGUs gut füttern kann.

Crass Spektakel schrieb:
Es gibt mehrere inheränt-architektonische Probleme die ARM daran hindern eine echte Konkurrenz zu amd64 zu werden. Der wichtigste ist der deutlich dickere Programmcode der mehr Busbreite, mehr Cache und mehr RAM fordert.
Ach, welche wäre das denn?

Busbreite? Welche meinst denn? Adress-Bus? Haben beide genug? Der Interne-Datenbus? Kann man Problemlos erweitern. Caches? Kann man anpasse, hat Apple gezeigt. RAM? So einige ARM-Server-CPUs kommen auch bereits auf 4 - 8 Kanal-Interfaces a 64Bit womit wir bei 256 - 512 sind.

Entschuldige, das was du hier schreibst ist einfach nur unfundiert und auch falsch. Bus-Breite kommt immer darauf an, von welchem wir sprechen. Caches? Ist eine organistatorische Frage und wie man diese in der CPU implementiert. SI-Breite? Kann man auch, passend skalieren.

Die Word-Breite läuft bei beiden mit 64 Bit, als auch da ist kein Problem. Ansonste? SSE hat 128Bit, Neon hat 128 Bit. ARM bietet eine Scalable Vector Extension an, die bis 2048-Bit breite SIMDs skaliere kann, x86 hat 512Bit und mit AMX wird noch etwas kommen.

Also uh hier: Relativ viel unfundierte Aussagen.
Volker schrieb:
Auch das Chiphell-Forum stimmt in die Gerüchte mit ein. Demnach könnte Genoa auch neue Instruktionen bieten, ganz vorn dabei das bisher Intel-exklusive AVX-512 sowie Bfloat16.
Ah, mit AVX512 hab ich gerechnet.
 
  • Gefällt mir
Reaktionen: SoDaTierchen und PS828
@Kampfkeks94 , @Zimtatom : SMT doppelt Register und Befehlsdecoder, nicht Recheneinheiten. Im klassischen x86-Umfeld macht mehr als SMT2 nur sehr wenig Sinn, da hier selten Workloads verwendet werden, die davon profitieren können. Prozessoren mit SMT4 oder mehr werden oft für Workloads genommen, in denen Threads entweder die Recheneinheiten nicht gut auslasten, oder in denen Sprungvorhersagen oft schiefgehen (da während eines "Fail-Sprungs" nichts berechnet wird).

Solch ein Workload kann zum Beispiel ein WebServer sein. Tausende Nutzer stellen tausende Anfragen gleichzeitig, aber jeder bekommt etwas anderes zu Gesicht. WebServer sein ist keine rechenintensive Aufgabe, da aber selten 2 Leute das gleiche sehen wird die Sprungvorhersage hier oft ins Leere rennen. Und während dann 3 Threads neue Befehle laden und decodieren, kann ein anderer irgendwas rechnen und 3 Weitere holen Daten aus verschiedenen Speicherkanälen. Schon hat SMT>4 eine Daseinsberechtigung. Dann kann SMT ein Leistungsgewinn sein, teils sogar erheblich. Aber solch geeignete Workloads werden idR. nicht auf x86-Prozessoren ausgeführt, weshalb der mögliche Leistungsgewinn für eine sehr kleine Zielgruppe nicht in Verhältnis zu den Mehrkosten bei der Produktion steht. Denn auch SMT-"Cores" brauchen Chipfläche. Es gibt auch andere Workloads, die davon profitieren, das soll hier nur exemplarisch sein.

SMT ist aber nicht die einzige Option, um die Auslastung von Ressourcen auf einer CPU zu erhöhen. Die Sprungvorhersage und der Hardwarescheduler haben dieselbe Aufgabe, setzen aber an anderen Punkten an. Der Leistungsgewinn durch SMT-Cores wird niemals nah an 100% heran kommen und kann sich nur dann ergeben, wenn Resourcen angefragt werden, die durch andere Threads nicht schon ausgelastet werden. Diese Einschränkung von SMT macht es zwar sinnvoll, aber nicht für alle Anwendungsgebiete nutzbar. Deshalb: SMT 4/8/<noch mehr> sind nicht per se nützlich, aber auch nicht per se nutzlos. Es kommt auf den Anwendungsfall an.
 
Summerbreeze schrieb:
Wie wäre es, wenn AMD nun mal etwas^^ mehr in QS investieren würde?
Bei den aktuellen Mainstream Plattformen sehe ich da durchaus etwas Verbesserungspotential.
Ich mag dein Understatement.
Aber bis bei den Amis ankommt, dass man mit shoddy software durchaus auch Kunden verprellen kann, muss man schon Boeing oder Solarwinds heißen. Und auch die Bewegen sich eher unwillig.
... und dann war's der Praktikant. 😵😂🤦‍♂️

Könnte also noch dauern, bis die da auch wirklich etwas mehr als das Übliche investieren.
Oder, wenn sie Pech haben, werden sie halt reguliert.
Die Politik und die Gesellschaft wachen da ja gerade ein wenig auf was die IT angeht.
 
  • Gefällt mir
Reaktionen: jemandanders
Skysnake schrieb:
Dann schau mal bitte nochmal aufs Pinout vom Sockel. Da sind zwischen >>1/3 und <=1/2 der Pins für die Spannungsversorgung der CPU vorhanden. Ich habe es jetzt nicht genau nachgezählt. Man ist aber überschlägig näher an 50% dran.

Du darfst nicht den Fehler machen und GND nicht zur Spannungsversorgung dazu rechnen...
Dann haben wir andere Quellen. Die Speichercontroller machen ja schon fast die Hälfte aus. Der Rest ist dann PCIe und Strom für die restliche CPU.
Grob überschlagen sind das 20%.
https://en.wikichip.org/w/images/thumb/9/93/Socket_SP3_pinmap.svg/2976px-Socket_SP3_pinmap.svg.png
 
SoDaTierchen schrieb:
WebServer sein ist keine rechenintensive Aufgabe, da aber selten 2 Leute das gleiche sehen wird die Sprungvorhersage hier oft ins Leere rennen. Und während dann 3 Threads neue Befehle laden und decodieren, kann ein anderer irgendwas rechnen und 3 Weitere holen Daten aus verschiedenen Speicherkanälen. Schon hat SMT>4 eine Daseinsberechtigung. Dann kann SMT ein Leistungsgewinn sein, teils sogar erheblich. Aber solch geeignete Workloads werden idR. nicht auf x86-Prozessoren ausgeführt, weshalb der mögliche Leistungsgewinn für eine sehr kleine Zielgruppe nicht in Verhältnis zu den Mehrkosten bei der Produktion steht.
Ich würde mal behaupten das die meisten Webserver auf x86 Hardware laufen, und das ist sicher auch keine ganz kleine Zielgruppe.
 
Chesterfield schrieb:
AVX3 halte ich für keine Errungenschaft, wenn man bedenkt wie Entwickler drüber denken. google ausreichend statments vorhanden diesbezüglich
Erstmal abwarten was AMD unter AVX3-512 versteht.
Ich kenne nur AVX3.1 und AVX3.2 , AVX3-512 ist mir nicht bekannt.
 
Immer schnellere CPU, aber was macht die RAM-Entwicklung dazu? DDR5 5200 ist doch bei solchen CPU ein schlechter Witz!!!! Ich will endlich RAM mit 1000Gb/s und 7ns sehen.
 
Zuletzt bearbeitet:
Dalek schrieb:
Ich würde mal behaupten das die meisten Webserver auf x86 Hardware laufen
Ich würde mich freuen, wenn du diese Behauptung auch noch mit Fakten untermauern könntest. Mal davon ab habe ich weder behauptet, dass die meisten WebServer nicht auf x86 laufen, noch steht deine Aussage in irgendeinem Konflikt zu meiner, da es mir nur um die inhaltliche Veranschaulichung ging.
 
@Joshua2go nunja der größte JEDEC Standard wird doch ohnehin DDR5 6400. Das ist ziemlich genau das doppelte von DDR4 3200. Das ist schon beachtlich. Dazu die vierfache Kapazität.

Ich weiß jetzt nicht was für dich Fortschritt ist aber das ist schon sehr beeindruckend insgesamt.

Und 7 ns Latenz ist für DRAM nahezu unmöglich schaltungsbedingt.

SRAM schafft weniger aber ist auch komplett anders aufgebaut. Der kann aber heute schon 2-2,5 TB/s durchsetzen. Das ist ja der L1, 2 und 3 Cache in CPUs.

Da ist man dann sicherlich auch bald Mal bei einem GB, aber SRAM braucht halt sehr viel Fläche aufgrund seiner 6T Struktur.

DRAM zum Vergleich Besitzt einen 1T1C aufbau.
 
  • Gefällt mir
Reaktionen: Colindo
Zurück
Oben