News AMD AGESA Combo-AM4 v2 1.0.8.1: Firmware verbessert Inter-Kern-Latenz und -Bandbreite

Beitrag schrieb:
Und das weißt du woher?

Weil ich's getestet habe. Der Artikel heißt "Zwingt Hintergrundlast einen Quadcore in die Knie?" Aus Gründen des Anstands werde ich diesen nicht direkt verlinken.

Außerdem gilt mittlerweile als bestätigt (man weiß dies von den Epycs), dass Zen 3 über einen globalen L3 Cache verfügen wird. Das bedeutet, dass im Idealfall ein (lokaler) Ringbus kommt oder zumindest eine fast vollständig verbundene Cache-Slice-Topologie mit max. 2 Hops. Selbst eine Bridge zwischen den beiden L3 Domains würde zu einer signifikanten Verbesserung führen.

Ein anderer Aspekt, der sich rein von der Logik her ableiten lässt: AMD würde die Cache-Struktur nicht grundsätzlich aufbohren, wenn das nicht zu signifikanten Verbesserungen führen würde. Warum sollten sie dies ansonsten tun?

Hier mal eine mögliche Topologie des Cache Slice Netzwerkes vorgeschlagen von RetiredEngineer.


1599895342596.png
Quelle
 
Zuletzt bearbeitet von einem Moderator:
  • Gefällt mir
Reaktionen: Smartbomb, McTheRipper, M3930 und eine weitere Person
so langsam hab ich eher den Verdacht dass ausser Agesa 1.0.8.1 die Jungs von MSI eventuell selbst Optimierungen vorgenommen haben? Vielleicht mach ich mir mal die Muehe, fuer mein Brett gibts aber nur Agesa 1.0.8.0 Patch A
 
Bis auf eine minimale Verschlechterung des CB20 Wertes (4902 auf 4888) habe ich keinen anderen Veränderungen festgestellt.
Der CB15 Wert ist gleich geblieben.
 
  • Gefällt mir
Reaktionen: incurable
Bei mir blieb bei CB20 alles gleich (7417 Multi, 520 Single)
3900X -0.1V
 
  • Gefällt mir
Reaktionen: incurable
Verangry schrieb:
@t3chn0

Meine Testdaten sind auch höher bzw niedriger.

Anhang anzeigen 965356

Blau = agesa 1.0.8.1 nach dem "Powerstate Reset-Bug" nenn ich es mal
Rot = mit funktionierenden Powerstates direkt nach dem Flash vom Bios

Da stimmt halt noch etwas nicht 100% tig.

Ich behaupte aber mal, dass es mit weiteren Updates dann besser wird.

Als Anhang dazu dann noch das Sandra Logfile.

Und hier ein paar alte Ergebnisse mit vorherigen Agesa Versionen.

Rot = 1004B Modbios (mit HW Prefetcher)
Blau = 1005 Beta
Grün = 1004B
Gelb = Combo V2 Beta 1002

Anhang anzeigen 965358


Dabei waren die Settings was RAM OC und IF OC angeht immer identisch.
(2x 16GB 3733 CL16 mit Rev.E von Micron)
Powerstate Reset-Bug ?
 
MHumann schrieb:
Hab das mal auf meinem MEG X570 ACE geladen. Leider vorher vergessen die BIOS Einstellungen zu sichern. Jetzt muss ich mühsam Lüfterkurven und RAM-Timings eingeben 🙃
Die hätten sich auf dem neuen Bios eh nicht laden lassen, bei mir jedenfalls funktioniert das nur bei derselben BIOS Version.
 
Eben mühsam per Hand alle Lüfterkurven nachgebessert. Was mir aufgefallen ist: Mein Chipsatzlüfter lässt sich nicht mehr unter 20% PWM regeln. Hat das noch jemand? X570 MEG ACE, R7 3800X, NH-D15, 2x8GB Corsair Vengeance LPX 3600 CL18-22-22-42

Und mein Cinebench R20 Singlecore-Score hat sich verbessert - obwohl ich den RAM noch nicht optimiert habe (läuft nur XMP auf 3600MHz)
vorher: 513 - jetzt 520


edit: Singlecore Boost ist um 25-50MHz niedriger mit dem neuen BIOS bei mir
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: incurable
Auf meinem Gigabyte X570-Xtrem merke ich recht wenig - rein auf die Zahlen bezogen. Was ich aber merke ist eine wesentlich bessere Systemstabilität.
Es kamen ein paar Punkte zusammen, also Webcams funktionierten nicht mehr und das Azure Kinect SDK lief auch nicht mehr...
Also eine komplette Neuinstallation: F30a drauf, Windows 10 (Build 2004) frisch drauf und die Maschine rennt richtig gut. Man kann nun auch vier Kinects anschließen, was vorher nicht funktionierte (Framedrops etc...).
Bin zufrieden mit dem AGESA^^
 
  • Gefällt mir
Reaktionen: incurable und DannyA4
Ich kann ebenfalls bestätigen, dass der Singlecorewert bei CB 20 etwas gestiegen ist. Von 500 auf 510.
 
  • Gefällt mir
Reaktionen: incurable
MHumann schrieb:
Mein Chipsatzlüfter lässt sich nicht mehr unter 20% PWM regeln. Hat das noch jemand?

Lösung: silent profile.
Manuell geht es nicht mehr.
 
Bei mir hat sich an den Speicherlatenzen überhaupt nichts geändert.

Das mit den "vergessenen" Einstellungen klang für mich eher nach einem CMOS-Datenbug. Daher hab ich beim Flasch aufs neue Bios auch das CMOS davor und danach gelöscht und die Defaults geladen.

Wenigstens ist der Spuk mit meinem 35.000 rpm Chipsatzlüfter weg, muss ein Bug in der A50-Firmware gewesen sein, der leider ohne Change Note mitbehoben wurde. Für mich hat sich das Flaschen der A60 somit schon gelohnt.
 
  • Gefällt mir
Reaktionen: incurable
Komme mit der neuen AGESA auf 144.77GB/s und 56.6ns
Es erreichen bei mir jetzt auch mehr Kerne häufiger einen höheren Takt.
 
  • Gefällt mir
Reaktionen: computerfouler
Also bei mir hat sich gar nichts geändert. Latenzen sind praktisch identisch bis auf die Nachkommastelle (AIDA64 Cache & Mem), CB20 MC = 6920. Seit 1.0.0.2 habe ich da also ca. 100 Punkte verloren. Die Idle Temp ist ca. 2-3°C runter auf 38°C, die Kerne takten aber laut Hwinfo mehr oder weniger genau wie vorher auch (Vcore -0.1).

Edit: Idle temp ist auch identisch, hatte eine Lüfterkurve nicht korrekt wieder angepasst.
Auffällig ist, dass MC die Kerne erkennbar niedriger takten als vorher, maximal 4.419 bei mir auf einem Kern. Max je Kern im Mittel so bei 4.250, das aber sehr gleichmäßig verteilt.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: incurable
Golgorod schrieb:
Auf meinem Gigabyte X570-Xtrem merke ich recht wenig - rein auf die Zahlen bezogen. Was ich aber merke ist eine wesentlich bessere Systemstabilität.
Es kamen ein paar Punkte zusammen, also Webcams funktionierten nicht mehr und das Azure Kinect SDK lief auch nicht mehr...
Also eine komplette Neuinstallation: F30a drauf, Windows 10 (Build 2004) frisch drauf und die Maschine rennt richtig gut. Man kann nun auch vier Kinects anschließen, was vorher nicht funktionierte (Framedrops etc...).
Bin zufrieden mit dem AGESA^^

Kann ich bestätigen, mein System mit X570 Master fühlt sich seit F30a etwas flotter an, Speicherlatenz ist lt Aida64 um 1ns gesunken. Auch der Boost scheint wieder etwas aggressiver zu arbeiten, sehe nun wieder öfters 4.4GHz+ auf den Kernen meines 3700X :)
 
  • Gefällt mir
Reaktionen: incurable
mercsen schrieb:
Was genau ist denn mit der Kern zu Kern Latenz gemeint? 60ns klingen unglaublich viel, das sind tausende zyklen, in denen.... Die CPU was macht? Ein anderes Problem verarbeitet während sie auf Antwort wartet?

Wenn dein MultiThreaded Programm mit mehreren Kernen an einem Problem Arbeitet müssen ja uU Daten zwischen den Kernen ausgetauscht werden. Das können viele Abhängigkeiten sein, oder auch wenige. Zb einfach nur ein gemeinsame Variablen mit Werten im RAM / Speicher.

Wenige sind es zb bei Cinebench (deswegen auch AMDs Pradedisziplin). Hier kann jeder Kern sein Häppchen RAM haben und arbeitet einfach seine paar Kästchen / Rendern ab. Den einen Kern interessiert dabei wenig bis nicht was der andere rechnet.

Anders sieht es je nach Fall bei Spielen aus. Diese sind durchaus parallelisiert, aber es kann sein dass diese an einem gemeinsamen Speicherbereich arbeiten und auch Informationen zwischen den Threads auf verschiedenen Kernen austauschen - gar ein Kern auf den anderen warten muss bis das Ergebnis da ist. Dort ist es dann von Vorteil wenn diese möglichst schnell auf dem gemeinsamen Speicher zugreifen, dieser liegt dann zB im L3. Auf den Ram selbst soll ja möglichst selten zugegriffen werden (da es der langsamste Speicher ist, nach dem ROM).

Soweit ich weiß teilen sich bei AMD innerhalb eines 4 Kern CCX die Kerne also den L3 - auf diesen können alle zugreifen. Von einem CCX zu einem CCX ist der Weg aber etwas länger, deshalb muss AMD / Microsoft immer schauen dass die gleichen zugehörigen Threads quasi "nahe beieinander" auf die CPU gelegt werden. Ganz "krass" war das noch bei TR der ersten Gen bei denen quasi von Die Die gehüpft werden musste um "fremden L3" oder RAM am anderen SI abzugreifen. Sowas löst man dann ähnlich wie bei Multi CPU Systemen mit NUMA. Und das ist auch der Punkt die 2. Gen dank des SI Die eine homogeneres Gesamtbild abgibt da die Latenzen homogener sind.

Den Einfluss sieht man zb in diesem Video je nach dem wo die Threads draufliegen

Weitere Messungen und Vergleich zu Intel hier:
https://www.anandtech.com/show/1570...k-business-with-the-ryzen-9-4900hs-a-review/2

da ist sehr schön grafisch dargestellt wie die Kerne unterschiedlich lang brauchen um mit dem anderen zu "reden": Also zb beim 3950X, innerhab eines CCX, innerhalb eines Chiplets, oder Chiplet übergreifend.

Ryzen 9 3950X
1599911495896.png


Intel 6 Kern.
1599911525618.png

Man sieht auch gut wie homogen Intels Ringbus hier ist. Auch der wird aber mit mehr Kernen immer etwas langsamer. Heißt auf unterster Ebene im CCX hat AMD einen Vorteil, während Intel einen Vorteil bei der Homogenität hat (also weniger Abhängig vom Windows / Linux Sheduler ist)
 
  • Gefällt mir
Reaktionen: Smartbomb, goldeye, Kryss und 4 andere
Krautmaster schrieb:
Weitere Messungen und Vergleich zu Intel hier:
https://www.anandtech.com/show/1570...k-business-with-the-ryzen-9-4900hs-a-review/2

da ist sehr schön grafisch dargestellt wie die Kerne unterschiedlich lang brauchen um mit dem anderen zu "reden": Also zb beim 3950X, innerhab eines CCX, innerhalb eines Chiplets, oder Chiplet übergreifend.

Ryzen 9 3950X
Es gab eine umfangreiche Diskussion auf Twitter. Viele sind der Meinung, so auch ich, dass es zwischen Inter-CCD und Inter-CCX keinen Unterschied geben sollte. Es ist einfach nicht ersichtlich, woher die zusätzlichen Latenzen im I/O-Die kommen sollen.
 
Nach ein paar Benches muss ich sagen: bei mir läuft er langsamer als vorher. MC Dauerlast nur noch ca. 3.800 (vorher so um 3.950). SC Boost läuft auch nur noch maximal auf einem Kern bis 4.400 (vorher ca. 4.500) und beim CB20 SC wechselt der schnellste Kern wie vorher auch permanent, läuft aber fast durchgängig nur noch mit 4.250 (vorher ca. 4.400). Alle anderen settings sind identisch.

Also Verbesserung sieht anders aus.
 
  • Gefällt mir
Reaktionen: incurable
Zurück
Oben