Die Gerüchteküche mixt immer Phantastisches mit Tatsächlichem, bevor ich mich absolut festlege, warte ich auch lieber den offiziellen Start des Bulldozers ab sowie durchdachte Vermessungen. Herr Stiller des Magazins c't ist in dieser Disziplin ein echter Experte und ich freue mich schon auf seinen Kommentar.
Trotzdem sind doch die bisherigen Leistungswerte, sei nun mal dahingestellt ob vermurkstes B2-Stepping schuldig oder nicht, ungefähr das, was schon lange durch die Reihen der Wartenden schallt. AMD selbst hat ja irgendwann einmal erklärt, daß die IPC eines Kernes der eines Thuban entspräche. An der Architektur der ALU hat AMD wenig geändert, bis auf eine neue Arbiterlogik, welche die "Modulbauform" erlaubt. Bei der FPU stehen augenscheinlich mehr Änderungen an, wobei man dies mehr durch die neuen Möglichkeiten wie AES-IN, FMA und AVX sowie die Halbe-Halbe (2x 128Bit oder Ganze (1x 256 Bit) Organisation eher implizieren möchte. Ich bin kein Elektroingenieur, weiß also nicht abzuschätzen, inwieweit die Neuerungen Adaptionen ohne andere Designänderungen sind oder nicht.
Daß die FPU am L1 vorbei direkt auf den L2 zugreifen kann, war schon mal bei der (T)Itanium-CPU ein Kritikpunkt, INtel hatte hier wohl ein DEC Design der Alpha AXP zu kopieren versucht, wohl aber mit mäßigem Erfolg. Ob der zweiter AXP-Erbe, AMD, mit dieser Technik besser umgeht, wird sich noch beweisen müssen. Ich weiß nicht, ob dieses Verfahren als "Husarenstreich" zur Leistungsverbesserung dient oder ein mißlicher Kompromiß darstellt, um die FPU "verschmezungsfähig" zu machen, also das Aufteilen in zwei Hälften zur Dienbarkeit zwei ALU Herren und im AVX-Bedarf eben als eine einizge FPU fungierend. Ich denke, die Logik für eine Pipeline- und Cachesteuerung ist im universellen Fall sehr kompliziert und AMD hat eine Vereinfachung angestrebt - auf Kosten des Durchsatzes. Aber wie gesagt, abwarten.
Egal ob nun B2- oder C0/1 Stepping, die Leistungswerte schwanken für meine Begriffe zu gut um einen Mittelwert, als daß man wirklich noch den "Paukenschlag" von AMD erwarten dürfte. So spät und so kurz vor der endgültigen Vorstellung werden einige "Chinesen" oder "Balkanesen" gewiß schon fertiges Eisen in Händen halten und das Stepping B2 ist dann nur noch eine Schutzbehauptung, um die Quellen nicht zu gefährden. Das sind meine Gedanken zu der Sache. Andererseits wird AMD bei Bekanntwerden solcher Lecks oder Vermessungen im Vorfeld gewiß mit Schutzbehauptungen kontern. Wäre Llano nicht schon auf dem Markt und würde durch seine "Qualitäten" brillieren, würde ich den Diskussionen und Dementi hinsichtlich zu hoher Betriebsspannungen Glauben schenken. Man hört und liest ja immer wieder, daß AMD unzufrieden mit dem Silizium sei und deshalb vermutlich ein C0/C1 Stepping käme. 1,3 V Versorgungsspannung hört sich realistisch an. Llano "saugt" gleich mehr als 1,4 V und kommt mit einer TDP von 100 Watt daher, "verbrät" im Leistungstest bei Vermessung und Vergleich mit der Intelschen Konkurrenz gleich doppelt soviel Energie. Warum soll das bei der Bulldozer-Serie in 32nm Strukturbreite großartig anders sein? Insofern traue ich diesen Vorabtests.
Offenbar hat man bei AMD noch immer mit Problemen zu kämpfen - nicht nur finanziellen. Die Ideen, die das Unternehmen seinen Investoren darlegt, sind immer sehr gut anzuhören, aber letztlich hat sie dann der Konkurrent stets übernommen und viel besser umgesetzt. Es heißt zwar, daß AMDs neue FPU im Bulldozer wie ein Koprozessor organisiert sei und dieser in vager Zukunft durch eine GPU ergänzt oder ersetzt werden könnte, doch schon mit den ersten Opterons war es technisch möglich und vorgesehen, über den HyperTransport "Fremdprozessoren" direkt mit der CPU zu verbinden. Die HTX-Schnittstelle, die auf einigen guten Workstation- und Serversystemplatinen herausgeführt wurde, war ja explizit für solche Hybridisierungen vorgesehen. Sie fristete dann allerdings eher als "Mainboardexpander" und Infiniband-Schnittstelle ihr Dasein. Meines Wissens kam nie ein Spezialprozessor, wie einst geplant, für diese Technologie zum Einsatz.
Auch die Verschmelzung von CPU und GPU auf einem Chip ist AMDs Gedankenstuben zuzuschreiben - zumindest kann das Unternehmen behaupten, diese Idee zuerst in der Öffentlichkeit formuliert zu haben. Letztlich hat es dann Intel zuerst erfolgreich umgesetzt, obwohl ich mit meinem bescheidenen Wissen über die Architektur der Meinung bin, daß AMD hier die besseren KArten hat und hatte als Intel.
Wenn man sich aber überlegt, wie AMD auf der "Native-Vierkerne-CPU" herumgeritten ist und Intels-Billig-Klebe-Ansatz über die FSB-Verbindung zweier 2-Kern Prozessoren hergezogen hat, wundert mich allerdings nichts mehr. Betrachtet man die Leistung dieser "Klebe-Technik-Core2-Vierkerner" im Vergleich zu dem, was AMD dann hervorgebracht hatte, ergibt sich ein Bild der Traurigkeit. AMD hätte mindestens ein Jahr vor Intel mit derselben Technik, allerdings über den sehr viel schnelleren HT, viel früher eine Vierkern-CPU für den Massenmarkt bringen können. Bei den großen 8- und 16-Kern Opteronen hat es das Unternehmen ja auch so gemacht.
Also, irgendwie läuft da etwas nicht ganz richtig im Hause AMD, wenn ich das mit meiner bescheidenen Sicht so mal sagen darf. Das technische Potential wurde nicht ausgeschöpft und AMD hat dadurch fast ein eigenes Todesurteil ausgesprochen. Nun haben "the real men" schon keine eigenen Produktionsanlagen mehr. Der Konkurrent baut fröhlich weiter. Und während AMD nun im 32nm Prozeß mit Problemen zu kämpfen hat und dieser noch immer nicht "läuft", bastelt Chipzilla bereits mit 22nm Produkten herum.
Zu guter Letzt würde ich noch gerne etwas zu den Leistungsdaten des BD im Vergleich zum Intel Core-i7 2600K sagen. Die "Modulbauweise" suggeriert, je nach Aussage der Werbeleute, eine ähnliche Konstruktion wie Intels SMT. Deshalb wird gerne angeführt, daß AMD ja nur mit "vier Modulen" gegen einen 2500/2600K anträte. Technisch gesehen ist aber die interne Architektur der AMD Lösung eine 8 Kern CPU, denn alles ist ja auf einer ALU vorhanden, was ein autonomes Ausführungssystem braucht. Nach dem L1 wird also alle Logik geteilt. Es ist nicht bekannt, wieviel Gatterlaufzeiten die Arbiterlogik zur Zuteilung der FPU-Funktionalität "verbrennt". AMD hüllt sich in Schweigen. AMDs Aussage, ein BD-Modul sei schneller als zwei K10-Kerne halte ich für winkeladvokatisch und spitzfindig. Meint AMD wirklich K10? Die letzte Architektur firmierte unter der Bezeichnung K10.5 und das wurde von den AMD-Fanboys aller Coleure vehement verteidigt. Ist diese Aussage nun lasch formuliert oder ist sie doch sehr hintergedanklich formuliert?
Lassen wir uns doch "überraschen" - wobei ich nicht (mehr) an große Überraschungen glaube. Die nächste wirklich große Überraschung wird Intels Sandy-Bridge-E sein.