News Gigabytes neue Kleider für Sockel AM3+ sind schwarz

Bärenmarke schrieb:
Selten so einen Unfug gelesen!
Lastet eine SW alle vorhanden Kerne aus, sind intel 4 kerner meilenweit davon entfernt auch nur ansatzweise schneller zu sein :freak:

Wenn du dich auf die IPC und Singlecoreleistung beziehst, kennzeichne es entsprechend!
Spiele-Engines laufen auf Gleitkomma-Prozessoren (FPU). Ein AMD "6-Kerner" hat davon 3 Stück, ein "8-Kerner" 4 Stück. Intel 4-Kerner haben davon ebenfalls 4 Stück, welche auch noch wesentlich performanter sind.

AMD kann weiter oben einfach nicht mehr mitreden, deswegen kommen auch keine neuen Chipsätze für AMDs Performance-Plattform mehr.
 
Zuletzt bearbeitet:
Intel 4-Kerner haben davon ebenfalls 4 Stück
Und Phenom II-Sechskerner haben 6 Stück, trotzdem ist jeder popelige i3 in allen Spielen schneller.

Spiele-Engines laufen auf Gleitkomma-Prozessoren (FPU)
Beschäftige dich erstmal eine Weile mit Programmierung und CPU-Architekturen. Damit die Bulldozer-FPU nur der Teilung wegen ein Flaschenhals sein kann, müsste sie erst einmal in einem gewissen Zeitfenster vollständig ausgelastet werden - das bekommt man allenfalls mal mit optimierten Stream-Funktionen hin und auch nur dann, wenn die Daten nicht noch alle aus dem RAM geladen werden müssen. Und selbst, wenn es doch mal der Fall ist - vom tatsächlich ausgeführten Code ist das auch nur die Minderheit.
 
VikingGe schrieb:
Und Phenom II-Sechskerner haben 6 Stück, trotzdem ist jeder popelige i3 in allen Spielen schneller.
Verständlich, die Architektur des K10 ist von 2007 und so veraltet, daß schon gegen den Core2 nicht mehr gut aussieht.
 
@VikingGe
Hast du dafür auch Benchmarks? Habe bisher keinen gefunden der deine These stützt.
 
Zuletzt bearbeitet:
Hast du dafür auch Benchmarks? Habe bisher keinen gefunden der deine These stützt.
PCGH spielt ganz gerne mal mit nem FX-8350 rum und testet die Kernskalierung, hier und hier ist der jeweils schon als Zweimoduler zum Beispiel schneller als der simulierte echte Dreikerner, also bringt CMT ja irgendwie trotz Shared FPU doch irgendwas.

Was man der FPU natürlich vorwerfen muss, sind extrem lange Latenzen - wenn man häufig 5-6 Takte auf das Ergebnis einer Vektor-Addition warten muss und dieses Ergebnis gerade für weitere Berechnungen braucht, dann ist klar, dass der Code am Ende langsamer läuft als auf CPUs, wo das nur 3 (Intel) oder 4 (K10) Takte dauert.

Verständlich, die Architektur des K10 ist von 2007
Und abgesehen von ein paar neuen Befehlssätzen, die unter Windows aber praktisch niemand benutzt, hat sich an der Intel-FPU zwischen Core 2 und Ivy Bridge auch nicht mehr so übermäßig viel getan, und der kam 2006. Trotzdem ist die Leistung pro Takt deutlich höher geworden, weil andere Teile auf dem Chip (Caches, Speicheranbindung, ...) eben gerade bei Spielen deutlich wichtiger sind.


BTW, ging es hier nicht ursprünglich mal um Boards? :freak:
 
Zuletzt bearbeitet:
Die Bulldozer-Architektur ist auf Server optimiert worden: Datenkompression, Textprocessing, Indizierung und Durchsuchen (Datenbanken) usw. Nichts, was in Spielen in relevanter Menge vorkommt, wo es hauptsächlich Geometrie- und Physikberechnungen gibt, die alle mit einfacher Genauigkeit (bei Star Cititzen nun mit doppelter Genauigkeit) von den Gleitkomma-Einheiten ausgeführt werden. Und davon hat der FX eben keine 6 oder 8, sondern maximal 4.

Wenn es noch mehr Threads geben sollte, wird vor allem Sockel 2011 davon profitieren.
Ergänzung ()

VikingGe schrieb:
Und abgesehen von ein paar neuen Befehlssätzen, die unter Windows aber praktisch niemand benutzt, hat sich an der Intel-FPU zwischen Core 2 und Ivy Bridge auch nicht mehr so übermäßig viel getan, und der kam 2006.
Kann es sein, daß du Nehalem/Sandy Bridge verpaßt hast? :D Da ging es gewaltig vorwärts.
 
Zuletzt bearbeitet:
jtsn schrieb:
... Und davon hat der FX eben keine 6 oder 8, sondern maximal 4. ...
Nur dann, wenn die Gleitkommarechnungen mit 256b-Befehlen daherkommen. Kommen klassische 128b-Befehle zum Einsatz, verarbeitet jede "FPU" zwei gleichzeitig, verhält sich also wie zwei FPUs. Eine Bulldozer FPU kann doppelt so viel wie eine K10-FPU - fällt häufig unter den Tisch, wenn über die AMD FX hergezogen wird. Naja, eigentlich kann sie noch mehr, weil sie ja zusätzlich eine 256b-AVX-Berechnung pro Takt durchführen kann, was mit dem K10 gar nicht geht.
 
Zuletzt bearbeitet:
Eine Bulldozer FPU kann doppelt so viel wie eine K10-FPU
Nur, wenn man ausschließlich addiert oder ausschließlich multipliziert, oder FMA-Befehle nutzt. K10 hat auch zwei FP-Pipes, nur, dass die jeweils nur eine Operation unterstützen, während Bulldozer zwei volle FMA-Pipes hat. 256b-Befehle werden da in zwei 128b-Operationen aufgesplittet und sind im Endeffekt häufig sogar langsamer als zwei echte 128b-Befehle.

Ergo sind die theoretischen Peak-FLOPS bei BD wegen FMA exakt doppelt so hoch, ohne FMA exakt gleich, beides hat aber häufig wenig mit der Praxis zu tun.

Kann es sein, daß du Nehalem/Sandy Bridge verpaßt hast? Da ging es gewaltig vorwärts.
Ich dachte, wir reden hier vom FPU-Part, und abgesehen wie gesagt von der Erweiterung auf 256 Bit durch neueren Befehlssätze, die aber bei (schon gar nicht älteren) Spielen quasi keine Relevanz haben, sehe ich da jetzt keine großen Unterschiede. Dafür aber eine neue Cache-Hierarchie, einen integrierten Speichercontroller, einen µOp-Cache und allgemein ein deutlich verbessertes Frontend, zwei L1-Read-Ports statt einem und so weiter und so fort.
 
Zuletzt bearbeitet:
ah sehr interessant, wieder was gelernt.. :)
 
Zurück
Oben