News Dynamic Local Mode: Neuer NUMA-Modus für Threadripper 2990WX/2970WX

Krautmaster schrieb:
wem bitte will man sowas zumuten?

Kann man TR Besitzer so was etwa nicht zumuten?

@Simon Wirklich? Am Markt vorbei entwickelt?! So was können nur Intel Fanboys sagen. Wie ist es am Markt vorbeientwickelt, wenn Windows für die reine Nutzung als Workstation einfach nur grotten schlecht läuft? Die Wurzel muss man dort anpacken.
 
  • Gefällt mir
Reaktionen: ThePowerOfDream, DarknessFalls, Fritzler und eine weitere Person
das er anfängt je nach Game irgendwelche Threads je nach CCX zu pinnen? Ich bin gewiss kein PC Noob aber sowas muss einfach OOB funktionieren, und AMD sieht das auch so, deswegen dieses Update hier.

Edit:

Das TR aufgrund des "4 Die -> 2 davon mit SI"-Design sehr viel Spezial Arbeit und Optimierung benötigt liegt in der Natur der Sache an sich.
Das wird auch kein Automatismus und Sheduler, weder Windows noch Linux, perfekt abnehmen.
Das Design ist einfach inhomogen da je nach zusammenarbeit von Threads und deren Speicherbereichen ganz unterschiedliche Latenzen und Bandbreiten benötigt werden.
Es gibt quasi mehrere Layer:

-> innerhalb des CCX (sehr schnell)
-> innerhalb der DIE (schnell)
-> Die zu Die (etwas träger)
-> Die zu Die zu Die (2 Sockel System) (noch träger)

Kein Automatismus weiß genau wie nun mit mehreren Threads kommuniziert werden soll, ob eher Bandbreiten oder Latenz kritische Operationen folgen.

Sonst wäre das, wie ich finde dämliche, Pennen von Prozessen auf diverse Kerne, gar nicht nötig. Genau wie der Uma / NUMA Modus.

Threadripper 2990WX ist ja quasi ein 4 Sockel System welches nur an 2 der 4 Prozessoren Arbeitsspeicher hängen hat. Wüsste nicht mal ob das bei gängigen 4 Sockel Systemen gehen würde.

Deswegen gibts schon ewig sowas wie NUMA. Das hält die Prozesse die zusammen gehören eben auf einem Prozessor eines Sockels damit die da gemeinsam schnell an ihr Arbeitsset rankommen.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: xexex
Klar. Was auch gut ist. Also das Update. Wunderbar, keine Frage.

Aber von Zumutung zu reden... Ich meine das muss man gewiss nicht in allen Spiele machen, weil es einem egal sein kann wenns mit 100 oder mit 90 FPS läuft. Wenn überhaupt dann störts vielleicht nur an 1-2 Spiele (so was wie CS:GO z.B.), jedenfalls mit einer Hand abzählbar in wahrscheinlich 99.7% der Fälle.
 
Zuletzt bearbeitet:
Schade, könnte auch für Ryzen kommen. Für den ganzen DX11 Krams doch ideal
 
Simon schrieb:
Tja, dummerweise ist Windows mit einem Marktanteil von > 90% im Desktop gesetzt.

Am Markt vorbei entwickeln kann sich heute kaum ein Unternehmen leisten, daher ist es völlig irrelevant, ob ein Nerd in irgendeinem Tech-Forum das kacke findet.

Wer das CCX Design nicht genial findet, auch wenn es die ein oder anderen Einbußen gibt, der ist wirklich nur schwer für Technik zu begeistern. Wo wurde denn am Markt vorbei entwickelt? Es gibt in Spezialfällen Probleme, für die nun relativ rasch Lösungen angeboten werden. Wie wäre es dir denn lieber - so zu entwickeln, dass 8 Kerner bei 1000€ beginnen?

Microsoft stößt da einem schon ein wenig sauer auf, aber auch die werden mit zunehmendem Marktanteil gezwungen sein Anpassungen vorzunehmen - und nein da gehts nicht um 1-2 Nerds in einem Tech-Forum, sondern um den Server als auch den HPC-Bereich.
 
  • Gefällt mir
Reaktionen: adretter_Erpel
@dMopp

ob das bei Ryzen viel bringt ist fraglich. Auch da nimmt dir das kein Automatismus ab (außerdem sind da die Latenzen schon recht überschaubar und wenn es Bandbreiten limitiert ist musst du das 2. CCX ins Spiel bringen). Aktuell switched der Automatismus @ TR @ Topic wohl im Game Mode dann auf NUMA da idR für Games besser. NUMA gibt es bei Ryzen nicht.

Da muss der Sheduler, anders als bei Intel wo "chaotisch" ( zwecks Temperatur Verteilung auf einer Die) die Threads befüllt werden, eine Logik dahinter die erst die Kerne innerhalb eines CCX füllt, also 0-3 (physikalisch).

Bei Intel ist jeder Kern "gleich weit" vom Ram weg. Bei AMD muss das CCX gewechselt werden, aber das ist alles noch im Rahmen. Ist eben ganz massiv davon abhängig ob die Aufgabe eher von Latenz oder Bandbreite profitiert. Dann kann der Scheduler ja nur "erahnen".

Man kann die Sache auch mal testen indem man z.B. den Parcour im CPU Limit mit 0+4 und 2+2 Mode bei einem 2700X durchspielen würde.
 
Naja, Ryzen profitiert ja ENORM von der Latenz in Spielen, daher der Wunsch. Ist aber für DX12 eh kaum noch notwendig, da eh meist alle Kerne ausgelastet werden
 
Zuliane schrieb:
Wer das CCX Design nicht genial findet, auch wenn es die ein oder anderen Einbußen gibt, der ist wirklich nur schwer für Technik zu begeistern. Wo wurde denn am Markt vorbei entwickelt? Es gibt in Spezialfällen Probleme, für die nun relativ rasch Lösungen angeboten werden. Wie wäre es dir denn lieber - so zu entwickeln, dass 8 Kerner bei 1000€ beginnen?

genial ist relativ. Meine Meinung. Es ist genial aus dem wirtschaftlichen Aspekt heraus jetzt konkurrenzfähige Produkte Intel um die Ohren zu schlagen. Ich finds auch absolut richtig dass AMD diesen Weg geht, auch wenn er so Probleme wie @ Topic mit sich bringt.

Endlich hat AMD erkannt dass es eher auf Time To Market und Wirtschaftlichkeit ankommt, weniger darum wer die Größe native Die vorzeigen kann.

AMDs aktuelles MultiChip Modell ist nicht viel anders als ein Multisockel System auf einem Sockel vereint, mit natürlich optimierter breitbandiger und latenzärmerer Inter Die Kommunikation.

Rein technisch gesehen ist das die "unsauberere" Lösung, aber wen juckt das wenn sie so gut funktioniert und deutlich wirtschaftlicher ist. So gut funktioniert dass Intel etwas schwimmt.
 
Krautmaster schrieb:
Man kann die Sache auch mal testen indem man z.B. den Parcour im CPU Limit mit 0+4 und 2+2 Mode bei einem 2700X durchspielen würde.
Sowas würde ich echt gerne mal durchtesten. Gab ja mal Videos Mitte 2017, wo das kaum Änderungen bewirkte. Aber ich denke, da kommt es stark auf die Software an.
 
dMopp schrieb:
Naja, Ryzen profitiert ja ENORM von der Latenz in Spielen, daher der Wunsch. Ist aber für DX12 eh kaum noch notwendig, da eh meist alle Kerne ausgelastet werden

Das ja, aber du darfst nicht vergessen dass sowas universal funktionieren muss. Wenn du zb alle "Spiele" auf ein CCX pinnen könntest wäre das in anderen Aufgaben - wie Rendern, ggf von Nachteil.

Angenommen du renderst auf deinem 2700X mit 4 Threads, anders als bei Games wäre es sinniger diese über beide CCX zu verteilen da sie für sich getrennt arbeiten, also jeweils möglichst schnell an ihren Ram rankommen müssen. Wenn man da erst ein CCX komplett "zu machet" wird dessen SI uU zum Flaschenhals.
Ergänzung ()

Colindo schrieb:
Sowas würde ich echt gerne mal durchtesten. Gab ja mal Videos Mitte 2017, wo das kaum Änderungen bewirkte. Aber ich denke, da kommt es stark auf die Software an.

this. Es kommt stark auf die Software an. Man hat aber nicht viel mehr Möglichkeiten als zu sagen Games so, Rest so.


Da sieht man zb wie 2 Thread wahllos mal auf demselben CCX landen, und mal auf verschiedenen. Das wäre jetzt noch bei TR interessant wenn es uU gar 2 Die sind.

Edit: Oder auch hier


-> aber wie gesagt, bei Ryzen ist das noch unkritisch und Intels "Mono Die" funktioniert auch nicht besser sobald mehrere Sockel zum Einsatz kommen.

Ich denke je mehr Threads ein System auslastet, umso autarker agieren die meist auch voneinander. Rendern ist nicht umsonst die Paradedisziplin von AMDs Epyc, Ryzen, Threadripper. Jeder Kern kann unabhängig "Vollgas" geben.
Den Weg den AMD hier geht ist wie gesagt absolut richtig.

Ich bin aber auch mal gespannt wie AMD dann 16 Kerne pro Die anbinden will. Das wird mit steigender Kernzahl immer schwerer.


Edit: Sobald ein Game >4 Kerne nutzt kann das Pinnen auf ein CCX zB auch nach hinten los gehen. genau wie TRs Game Mode wenn ggf wirklich mal 16 und mehr Threads belastet werden.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Colindo
Danke für den Link. Liest sich gut und dürfte die Sache mit TR vereinfachen. Hier geht es ja auch nicht um die CCX Thematik, sondern um die Dies. So wie ich das sehe schiebt der neue AMD Service dann die belasteten Threads auf die zwei Die die am RAM angebunden sind.

Dynamic Local Mode is implemented as a Windows® 10 background service that measures how much CPU time each thread on the system is consuming. These threads are then ranked from most to least demanding, and the top threads are automatically pushed to the CPU cores that contain direct memory access. Once these cores are consumed by work, additional threads are scheduled and executed on the next available CPU core. This process is continuous while the service is running, ensuring the most demanding threads always get preferential time on cores with local memory. (As a corollary, insignificant threads are pushed to other dies.)

Die Frage ist was passiert wenn man zb nebenher noch was anderes macht? Also zb was konvertiert oder nen Game aufzeichnet, also ausgelastete Thread >= Kerne auf Die mit direktem SI Zugriff.
 
etwas off topic:

bin letztens darüber gestoplert, dass man auch dual rank Ram benutzen kann - bringt es viel bei TR und Ryzen, wenn man den auf kurze Timings bringt oder kauft (CL14/15)? Wäre schön, wenn man dazu noch mal mehr Infos von CB bekommen könnte. Also zur Speichernutzung, Bestückung, Optimierung etc. Dual vs Single Rank.

topic:

sehr gut! So was hatte ich mich letztens schon gefragt. Ist der Gaming Mode vom 12 & 16 Kerner gut nutzbar und bringt einem einiges? Hätte in der Zukunft eine CPU die viel bringt bei Lightroom/PS aber auch zum Zocken super geeignet ist (Im Vergleich zu meinem 4790k)
 
Schön, dass das Problem erkannt und angegangen wurde.

An den teils exorbitanten Performanceunterschieden eines 2990WX/2970WX unter Windows und Linux, sieht man ja, dass das dringend notwendig gewesen ist.

Natürlich darf man auch AMD hier nicht ganz aus der Verantwortung nehmen, denn die kennen den Windows Scheduler schließlich auch nicht erst seit gestern und wissen, dass ein 2990WX/2970WX auch unter Windows genutzt wird und entsprechend performen muss.

Schöne entwicklung und sehr positiv für alle die eine HEDT-Workstation ihr eigen nennen und dennoch gelegentlich damit spielen wollen.

Liebe Grüße
Sven
 
  • Gefällt mir
Reaktionen: ThePowerOfDream, Smartcom5 und DarknessFalls
@RyzenCCX Issue

Ich hab das selbst mal mit Process Lasso getestet und es macht selbst im extrem dämlichen Fall, dass ich den Game Main Thread auf CCX0 pinne und alle WorkerThreads des Spiels auf CCX1 deutlich weniger als 5% aus. Das ganze ist imho eher theoretischer Natur. Ich hab zugegeben allerdings auch einen relativ hohen RAM (und damit IF) Takt. Bei einem aktuellen Ryzen lohnt sich da händisches Optimieren nur in einigen ganz wenigen Fällen.

Es ist aber schön zu sehen das AMD sich des Problems bei den 4 Die CPUs an nimmt und die Lösung scheint doch auch ganz handy zu sein/zu werden -->Chipsatztreiber

Im Grunde ließe sich gerade für Spiele doch sogar ein Profil hinterlegen das aus einer Performanceanalyse stammt. Die Frage ist ob das ganze den Aufwand überhaupt wert ist. Ich mein wer daddelt denn auf diesen CPUs?
 
deswegen denke ich auch nicht dass das mit den CCX wirklich ein Problem darstellt, ggf im äußersten CPU Limit Grenzfall.

Aber in der News gehts ja auch um Die zu Die - nicht um CCX zu CCX. Mit jeder Iteration wird es natürlich sinniger die Sache zu optimieren.

Auch dürfte das CCX Thema mit zunehmender Kernzahl dann an Gewichtung bekommen.
 
Qarrr³ schrieb:
Und deswegen spielen viele auf Konsole.
Ist natürlich DAS Argument für Konsolen, wenn sich Server CPUs für 1500€+ nicht ganz so gut zum Zocken eigenen und das zeitnah per Treiber gefixt werden soll :rolleyes:
 
  • Gefällt mir
Reaktionen: .fF und Taxxor
@DarknessFalls @FranzvonAssisi Ich denke es ist objektiv betrachtet nur mehr als fair, wenn man die Situation als solche umschreibt, daß man auf vielen Seiten schlicht nicht mit einer solch schnellen Verbreitung von einer erheblichen Mehranzahl an Kernen gerechnet hat.

Die Kern-Offensive die letzten bald zwei Jahre hat Viele, insbesondere aber Entwickler schlicht überrumpelt.


In diesem Sinne

Smartcom
 
  • Gefällt mir
Reaktionen: Colindo
Bei einer anderen Seite stand, dass Windos ab 63 Threads Probleme hat.
Dachte erst, das betrifft dann nur den 32-Kerner mit seinen 64T.
Dann wird es auch mal Zeit, dass das ach so tolle und "olle" Windoof 10 das hinbekommt.
Wird doch hier gehypt ohne Ende...

AMD bügelt somit ein "Problem/Nachteil" eines anderen aus.
Jetzt fehlt nur noch mehr Leistung (vorallem Takt) und Gamer können sich den TR zulegen.
Dann können die 32/64 Games kommen. :evillol:
 
Smartcom5 schrieb:
@DarknessFalls @FranzvonAssisi Ich denke es ist objektiv betrachtet nur mehr als fair, wenn man die Situation als solche umschreibt, daß man auf vielen Seiten schlicht nicht mit einer solch schnellen Verbreitung von einer erheblichen Mehranzahl an Kernen gerechnet hat.

Die Kern-Offensive die letzten bald zwei Jahre hat Viele, insbesondere aber Entwickler schlicht überrumpelt.
Nichts für ungut aber die Entwicklung zu immer mehr Kernen die sich vor allem im preissensitiven Desktop Segment auf mehrere DIE aufteilen könnten dürfte spätestens seit dem Phenom bzw. dem Core2 Quad absehbar gewesen sein, also seit locker 10 Jahren.
Wer davon "überrumpelt" wird hat sich einfach nur einen feuchten Dreck um die ernsthafte Weiterentwicklung der Software gekümmert.
 
  • Gefällt mir
Reaktionen: Ned Flanders und DarknessFalls
Zurück
Oben