News CPU-Gerüchte: AMDs Genoa für Server mit 96 Zen-4-Kernen

@latiose88 Deinen Anwendungsfall mit xmedia Recode haben wir doch schon x-mal durchgekaut. H.264 als Codec ist das Problem, der skaliert nunmal nicht vernünftig mit dutzenden Kernen. Mit H.265 wird es schon besser, aber auch da ist irgendwann Ende. Mit sehr hohen Auflösungen ab 4K kann man nochmal Zugewinne bekommen, weil ein Bild in mehr Puzzle-Teile zerlegt werden kann, die dann wiederum auf mehr Kerne verteilt werden können, aber das war's dann.

Die einzige Möglichkeit für dich, den Threadripper auszulasten, ist Xmedia 2mal zu öffnen, z.B. mit zwei unterschiedlichen Projekten, und deren Konvertierung dann gleichzeitig zu starten. Dann wirst du deutliche Unterschiede zwischen einem 16-Kerner und einem 32-Kerner sehen.
 
@Colindo
Das mache ich ja eh schon es sind alles nur 720x576 er Aufnahmen. Also nix besonderes. Dann das selbe als Filme. Sendung aber halt ebenso in der Auflösung. Höchtens wenn mal TV Aufnahmen als 720p mit 50 vollbildern oder auf bluary mit 1080p mit ebenso 25 vollbildern.
Alles keine echte Herausforderung für den ryzen 9 5950x weil ja dann immer noch zwei parallel packen tut ohne Geschwindigkeit zu verlieren. Es ist so schnell als ob ich nur 1 auf nem 8 kerner umwandeln würde. Dafür schaffe ich halt nun 2 gleichzeitig zur selben Zeit.
Mehr schaffe ich auch nicht mehr weil der Aufwand nicht für die CPU sondern für mich selbst zu hoch werden würde.
Hier limitieren also andere Faktoren das ganze.

Darum fragte mich wer wohl schneller sein wird 3950x + 5950x ohne smt gleichzeitig vs 3970 ohne smt als duell aber nur halt auf 2 gleichzeitig limitiert.
 
Ne zeigt mir da ja 25 an. Ich gehe nur davon aus das alles so korrekt wie es da so steht auch übernehmen kann.
 
ja wenn es aber schon auf der Bluary so ist,dann ist das eben so,da kann ich dann auch nichts mehr machen weil es bei de Quelle so ist.
Ergänzung ()

Colindo schrieb:
Mit PAL-Aufnahmen kannst du wohl 4 oder 5 auf einen Threadripper hetzen.

Ja das man bei so vielen schafft man auch einen Threadripper 3970x auch mit SMT voll auszulasten.
Habe mal aus spaß gerechent.Bei Intel würde HT nur 25 % eines Kernes bringen und bei AMD SMT mindestens 50 %
In meinem Fall 16 vs 32 Kerne wäre das 100 % Leistungsunterschied. Bei 16 kerne mit nur SMT ohne Optimierung wie beim 3950x waren es immerhin mindestens 70 % pro SMT Einheit gewesen.
Beim 5950x sind es 85 % eines nicht SMT/Ht Einheit.
Bin gespannt ob AMD hier noch was an SMT weiter Optimieren kann. Denn rund 85 % eines nicht SMT EInheit ist schon beachtlich. Warscheinlich wird man allerdings SMT nie so gut Optimieren können das 1 SMT Einheit = nicht SMT Einheit entspricht. Ein wenig Leistung geht also immer verloren. Vielleicht schaffen sie es ja auf 90 %,wer weis.
Das wäre aber dann in meinen Fall weniger als ich zuvor an Leistungssteigerung erhalten hatte.
Man kann wohl nicht alles gleich stark Optimieren.

Achja das ich da mehr als 2 schaffe,das kann man in meinem Fall wohl vergessen.Also werde ich somit nie einen Threadripper 3970x voll auslasten können.Und das gillt ja wohl auch zum nachfolger.
Und schon vom 2990wx zum 3970x sind es nur 5 % Leistungsunterschiede.
Was wir halt nicht wissen,was haut AMD zum 4970x gegenüber dem 3970x noch oben drauf.
Gibt es weniger Chiplets ,mehr Cache oder sonst was.
Denn was im Server Passiert wirkt sich ja ebenso auf die Hedt Plattform mit aus.
Und das man hier keine Über CPU erwarten sollte,ist mir ebenso klar.So ein Wunsch von 3970x zum 4970x mit mindestens 50 % mehrleistung braucht man sich hier ja nicht zu erhoffen.Denn sowas gab es mal früher mal,aber heutzutage ja nicht mehr. Früher waren 100 % mehrleistung von der einen zur anderen Generation Möglich gewesen,heute aber nicht mehr.WIe zu Core 2 Duo zeiten usw.
 
Zuletzt bearbeitet:
Danke für die Tabelle, ja, es läuft eben auf eine Leistungsänderung zwischen -10% und +50% raus.

SMT ausschalten halte ich da für Schlangenöl. Wenn eine Anwendung tatsächlich von SMT ausgebremst wird reicht es die Anwendung auf feste CPU-Kerne zu pinnen, das bewirkt exakt das gleiche wie die Deaktivierung von SMT. Unter Linux mit cpulimit/cpupin, unter Windows im Taskmanager "Set CPU Affinity".

Da aber kurzfristig sowieso fast alle und mittelfristig vermutlich restlos alle CPUs mit SMT ausgestattet werden ist die Diskussion abseits von Retro-Gaming eher müssig. Alle Ryzen 5000 haben SMT, alle Intel 110000 bis auf den allerkleinsten Celeron haben SMT, Goldmont hat SMT, Tremont hat mit Big-Little etwas ähnliches. Der Kas ist gebissen. Zukünftige Software wird also einfach mit SMT umgehen müssen. Und ob jetzt Battlefield 3 mit 300 oder 330fps läuft => Retro-Gaming...

Meine jüngste SMT-freie CPU ist ein Core2 Q9550 aus dem Jahr 2010. Danach hatten alle meine CPUs immer SMT.
Ergänzung ()

latiose88 schrieb:
Ja das man bei so vielen schafft man auch einen Threadripper 3970x auch mit SMT voll auszulasten.
Habe mal aus spaß gerechent.Bei Intel würde HT nur 25 % eines Kernes bringen und bei AMD SMT mindestens 50 %
In meinem Fall 16 vs 32 Kerne wäre das 100 % Leistungsunterschied. Bei 16 kerne mit nur SMT ohne Optimierung wie beim 3950x waren es immerhin mindestens 70 % pro SMT Einheit gewesen.
Das ist imho zu optimistisch. Bei den ersten Pentium 4 mit HT waren es selbst im Idealfall nur 20%. Der P4 war allerdings ein SMT-Minimalist, ausser ein paar Schattenregistern war da praktisch nichts doppelt ausgelegt. Faustregel damals: Für 3% mehr Transistoren 10% mehr Leistung im Schnitt. Gutes Geschäft.

SMT kann man verschieden implementieren. Im Bulldozer standen pro Kern z.B. drei ALUs zur Verfügung obwohl nur zwei pro Threat ernsthaft nutzbar waren. Hat man aber zwei Threats dann sind drei ALUs natürlich zuverlässig 20-40% schneller. Bulldozer war SMT-mässig ein Extremist, da wurde vieles doppelt ausgelegt. Faustregel: Für 20% mehr Transistoren 50% mehr Leistung im Schnitt.

Viel mehr als Bulldozer hat allerdings keine x86-SMT-Implementierung erreicht und heutige CPUs fahren wieder einfacherere SMT-Implementierungen, so in der Art "10% mehr Transistoren für 20% mehr Leistung im Schnitt".

100% wären natürlich machbar aber dann nennt man das nicht mehr SMT sondern SMP weil man dann für 100% mehr Transistoren 100% mehr Leistung erhält.

Bei Power gab es ein paar extreme Implementierung. POWER9 gab es mit SMT8 wobei diesen acht Threads ungelogen 24 ALUs und 12 FPUs zur Verfügung standen die dynamisch zugeordnet wurden. Ähnlich brachial wurde auch vieles andere gelöst. Das Ergebnis war zwar sehr rechenstark bei Parallelisierung aber dafür drückten die langen Warteschlangen einzelne Threads oftmals auf 25-35% der Single-Leistung. In der iX wurde mal grob durchgerechnet daß man zur idealen Auslastung dieser CPU mit einer Datenbank ala db2 so ca. 128GByte 4th Level Cache und 4096GByte DRAM bräichter. Hatte diese IBM-Lösung aber nicht so daß die meiste Leistung verpuffte. Da blieb von einer 256 Thread-CPU mit 3Ghz und einer Leistung eines Threadripper 3970 im Single-Modus kaum Pentium3-Leistung übrig... will man am Desktop nicht wirklich...
Btw, weil Locking- und Cache-Koheränz bei massiv parallelen Strukturen schwierig zu handhaben sind haben sie das gleich ganz weggelassen, Locking und Cache-Koherenz gibt es nur innerhalb eines Kerns, alles andere muß über zusätzliche externe Hardware gesondert verwaltet werden... das fühlt sich auf Assembler-Ebene stark wie MIPS R2000 im Jahr 1985 an... widerlich und unständlich. Das hat programmtechnisch zwar kaum noch was mit POWER zu tun aber naja, wer verwendet schon POWER.

Das zeigte damals auch sehr schön woran massives SMT (SMT2 ist nicht massiv) in der Praxis scheitert: Cache-Trashing. Die vielen Threads bringen das Cache-Management böse durcheinander. Im Prinzip könnte man da mit einem mehrfach grösserem Cache gegenhalten aber ein Cache braucht so viele Transistoren daß man dann besser SMT+Cache etwas reduziert und dafür mehr Kerne implementiert.
 
Zuletzt bearbeitet:
Crass Spektakel schrieb:
SMT ausschalten halte ich da für Schlangenöl. Wenn eine Anwendung tatsächlich von SMT ausgebremst wird reicht es die Anwendung auf feste CPU-Kerne zu pinnen, das bewirkt exakt das gleiche wie die Deaktivierung von SMT. Unter Linux mit cpulimit/cpupin, unter Windows im Taskmanager "Set CPU Affinity".
Ähm nein. Das kann man so allgemein nicht sagen.

Es gibt so widerliche Software, die so viele Prozesse/threads erzeugt wie sie Kerne sieht. Und da wird dann leider teils nicht zwischen echten und virtuellen cores unterschieden. Du hast dann entweder zwei threads oder gar zwei Prozesse auf einem vor laufen.

In diesem Fall bringt es viel, wenn man smt im BIOS aus macht
 
Verstehe es ist sehr schwer umzusetzen und auch beim Nutzen so gering das man es doch nicht so einfach erhöhen kann.
Ja alles hat wohl seinen preis. Darum hat ja auch der ryzen 9 3950 & 5950x auch weniger Cache als ein i9 9980xe. Das scheint aber der leistung ja keinen Einbruch beschwert zu haben.
Es ist ja auch von der jeweiligen archetekturen abhängig zu sein.
Wenn es ne archetektur ist wo mit weit weniger Cache umgehen kann weil es dann eben auch bei den aufgaben besser haushalten tut oder halt effizienter damit umgeht um weniger Bandbreite zu benötigen. Genau dann packt es das auch.
Der hersteller egal welcher, kann es so gut beim Aufbau machen damit man mit weniger cache keinen Nachteil hat.
Wie aufgaben besser strukturieren oder auch sammeln der Aufgaben.
Gehe auch mal davon aus das es bei mir so ist weil es ja 2 gleiche Programme sind, eben auch diese besser zusammen fassen kann. Das erklärt auch warum es der CPU egal ist das es weniger Cache gibt.
Und mir ist das auch egal.
Solange die leistung nicht darunter leidet, ist das ja auch völlig in Ordnung. Cache ist halt wie beim ram. Latenzen sind wichtiger als die Bandbreite.
Weil wir da eh schon so weit hoch gekommen sind.
Avx zu erhöhen erfordert fall ebenso mehr transsistoren. Wenn nun also amd Anfängt da avx 512 zu implementieren, brauchen die ebenso mehr Transistoren.
Verwendet man also garkein avx, so können diese Transistoren eben nicht für was anderes verwendet werden. Heißt diese liegen eben dann brach.
Darum wird etwas neues zu implementieren eben sehr schwer sein.
Ich habe auch leider bis heute nicht herausfinden können, wieviel transistoren für avx benötigt werden und ob man diese Einheiten nicht auch für andere Sachen außer nur für avx nutzen könnte.

Kein Wunder also das amd lieber wie hier einfach mal nur die Kernan Zahl erhöht.
Ich sehe aber hier ebenso Probleme. Warum na weil die Software weit der Hardware hinter her hängen tut.
Bin also gespannt was am Ende noch helfen wird. Wenn kein Cache, smt, keine avx Verbesserung kommen wird. Also so vieles bleibt ja dann am Ende nicht mehr übrig. Und ja auch der Platz für die transistoren ist begrenzt. So viel kann man garnicht mehr verkleinern um hier so viele unter zu kriegen.
Mehr Kerne ervordern allerdings auch mehr cache. Wenn man also die Kernanzahl verdoppeln würde also 32 anstatt 16 Kerne und dann den Cache halbiert.
Da kommt am Ende nicht mehr leistung dabei raus,
weil es sich gewiss dann rächen wird.
 
Skysnake schrieb:
Ähm nein. Das kann man so allgemein nicht sagen.

Es gibt so widerliche Software, die so viele Prozesse/threads erzeugt wie sie Kerne sieht. Und da wird dann leider teils nicht zwischen echten und virtuellen cores unterschieden. Du hast dann entweder zwei threads oder gar zwei Prozesse auf einem vor laufen.

In diesem Fall bringt es viel, wenn man smt im BIOS aus macht
Mit echtem Pinning "sieht" die Anwendung ja eben genau das was Du ihr zuteilst. Der Windows-Taskmanager ist da etwas eingeschränkt aber mit Prozeß-Explorer oder Sandboxy usw geht da etwas mehr. Davon abgesehen wenn man natürlich garnichts macht gibt es schon Software die darüber meßbar aber nicht spürbar leidet. Aber das ist mehrheitlich so altertümliche Software die macht auch auf einem Core2 mit Geforce 260 satte 100fps. Ob die jetzt auf einem Ryzen 5600 mit Geforce 3060 jetzt 500 oder 600fps macht, who cares? Welche Spiele sind denn heute noch ernsthaft von der CPU-Rechenleistung abhängig?

Ich kenne jedenfalls kein Spiel bei dem man SMT ausschalten muß um brauchbare 60fps zu erreichen. Und wenn es für 60fps nicht reicht bringt es allemal mehr die Bildqualität ganz allgemein runterzudrehen.
 
Wer hat von Spielen geredet?

Ich rede von wissenschaftlichen Anwendungen die direkt die capabilities der CPU abfragen und auf Clustern laufen.

Und ja, da wird pinning gemacht, aber manchmal ist die Software halt schon "seltsam"
 
Zurück
Oben