@MacroWelle
Hier tummeln sich Halbwissen und Halbwahrheiten.
Na, wer so große Töne spuckt haut jetzt bestimmt sein volles "Wissen" raus...
Und :
1) Ein BD-Core leistet nicht weniger als ein K10.5-Core ("IPC will rise"). Die Angabe mit den 90% beziehen sich auf ein BD-Modul, in dem nur ein Thread aktiv ist bzw. einen imaginären einzelnen Kern mit Bulldozer-Eigenschaften - das ist gemeint mit "klassischem Kern" (100%). Aufgrund der teilweise gemeinsam genutzten Einheiten skaliert die Leistung mit einem zweiten Thread im Modul nicht auf 200%, sondern weniger. Das hat AMD auch schon vor längerem (inklusive Zahlen) gesagt. Alles andere ist Quatsch und stammt aus voneinander abgeschriebenen Falschmeldungen.
RICHTIG...ähm, NEIN, FALSCH
Aber warte :
2) 50% mehr Leistung bei 33% mehr Kernen bezieht sich auf Server-Modelle und -Benchmarks. Das sind andere Welten. Auch weil mehr Kerne nicht automatisch entsprechend mehr Leistung bedeuten. Der Vergleich war übrigens nicht bezogen auf 4- oder 6-Kerner, sondern 12-Kerne zu 16-BD-Kerne.
3) Wenn BD rauskommt, dann dürfen wir lesen "buhuhu, die Lügner von AMD haben uns 50% mehr Leistung versprochen", darauf könnt ihr Gift nehmen.
RICHTIG...Oder? NEIN, schon wieder falsch!
Also wenn man schon großspurig in nem Thread mit der Keule des Wissens rumschleudert muss man Wissen was man tut.
Hier nochmal für dein Gedächtniss die AMD Ankündigung für die Cebit :
Der US-amerikanische CPU- und Chip-Hersteller AMD wird auf der CeBIT 2011 Prozessoren vorstellen, mit denen die Leistung der derzeitigen Top-Modelle der Phenom-II-Reihe um 50 Prozent übertroffen werden soll.
Und dein Punkt 1 ergibt keinen Sinn. Du schreibst
Ein BD-Core leistet nicht weniger als ein K10.5-Core ("IPC will rise").
und gleichzeitig schreibst du
Die Angabe mit den 90% beziehen sich auf ein BD-Modul, in dem nur ein Thread aktiv ist bzw.
in verbindung mit
Aufgrund der teilweise gemeinsam genutzten Einheiten skaliert die Leistung mit einem zweiten Thread im Modul nicht auf 200%, sondern weniger
D.h. bei einem Thread pro Modul erreicht der BD nicht die Leistung eines TYpischen K10.5 Kerns. Bei 2 Threads pro Modul kommt dieser ebenfalls nicht auf die Leistung zweier K10.5 Kerne. Und WO bitte schön soll er denn nicht weniger leisten?
Also nochmal :
Dieses Konzept nennt AMD "Core Multithreading" (CMT). Gegenüber einem Modul mit nur einem Integer-Kern – also einem klassischen "Kern" – kostet der zweite Integer-Kern rund 12 Prozent an Fläche (gemessen an einem Modul), dennoch soll die Leistung laut AMD im Mittel bei 80 Prozent der Leistung eines echten Zweikern-Prozessors liegen.
Und dadurch das bei nur einem Thread pro Modul ein Kern abgeschaltet werden kann können die ganzen shared recourcen an den beschäftigten Kern im Modul übergeben werden. Dies führt zu einer insgesamt bessere Performance als Vorher :
Gleitkomma-Einheit (FPU)
Wie bereits erwähnt teilen sich die beiden Kerne, oder besser gesagt die zwei Threads, die innerhalb eines Moduls abgearbeitet werden, die Gleitkomma-Einheit (FPU). Wie die beiden Kerne verfügt auch diese über einen eigenen Scheduler und einen eigenen Lade-Puffer. Die FPU beinhaltet darüber hinaus zwei Pipelines (MMX genannt), die SIMD-Befehle mit Integer-Operanden oder Gleitkomma-x86-Befehle durchführen können sowie zwei Pipelines, die jeweils einen Fused-Multiply-Add-Befehl (FMAC) oder äquivalente Instruktionen mit 128 Bit breiten (Gleitkomma-)Operanden ausführen können. Das Besondere an FMA-Befehlen ist, dass bei einer Operation der Art a*x + y nicht erst a*x berechnet wird, danach gerundet wird und dann y addiert wird sowie final gerundet wird, sondern nur einmal am Ende eine Rundung erfolgt. Dadurch ist das Ergebnis korrekter als bei einer einfachen Multiply-Add-Instruktion.
Außerdem kommt hier hinzu das AMD diese FPU als FlexFPU verwendet. D.h. 128bit pro Kern in Modul oder aber 256bit für nur einen Kern! Die FPU option bringt zwar nicht allen Anwendungen etwas. Aber es KANN eben das zünglein an der Waage sein!
Nicht vergessen sollte man auch das AMD zusätzlich die Integer überarbeitet hat :
Jeder Integer-Kern beinhaltet einen eigenen Scheduler, eine eigene Retire-Stufe – jene Einheit die bei der Out-of-Order-Ausführung dafür sorgt, dass die Befehle schlussendlich doch in der richtigen Reihenfolge beendet werden – eine eigene Logik zur Registerumbenennung sowie eine eigene Lade- und Speichereinheit. Letztere kann auf einen Puffer mit 40 Einträgen für Lade- und 24 Einträge für Speicher-Operationen zurückgreifen. Laut den Spezifikationen erlaubt diese Einheit die Durchführung von zwei Lade- oder einer Speicheroperation pro Zyklus. Ein aktueller Phenom II beinhaltet zum Vergleich pro Kern lediglich einen Puffer mit insgesamt 44 Einträgen und kann pro Kern zwei Lade- oder einer Speicheroperation pro Zyklus. Ein einzelner Integer-Kern dürfte hier somit geringfügig performanter als ein aktueller Phenom II sein.
Und dann erhöht sich die anzahl der Integer pro Core :
Für Lade- oder Speicheroperationen werden auch die zwei Adressgenerierungseinheiten (AGen) in zwei der vier Pipelines benötigt. In den beiden verbleibenden befindet sich jeweils eine Arithmetisch-Logische-Einheit (ALU), so dass pro Kern insgesamt zwei ALUs und zwei AGens vorhanden sind. Allerdings sind die beiden ALUs nicht komplett identisch, denn nur eine der beiden Einheiten unterstützt Multiplikationen und nur eine Divisionen. Ein Modul kommt somit insgesamt auf vier Integer-ALUs und vier AGens, womit man jeweils um eine Einheit stärker aufgestellt ist als ein Kern auf Basis der aktuellen Architektur.
Nicht zu vergessen ist das AMD mit dem BD alle aktuellen Befehlserweiterungen unterstützen wird von den Intel zum Teil schon heute Profitiert. Da wäre AES und SSE4 zu nennen. AVX kommt auch, wird aber unmittelbar noch nichts bringen weil kaum Software das unterstützt.
Ich denke es ist auch damit zu rechnen das AMD wie Intel den L3 mit CPU Takt laufen lassen wird.