Anmerkung: Mit einem sehr kurzfristig anberaumten Briefing vor zwei Tagen am 26. März 2008 hat AMD einige Aussagen des in wochenlanger Arbeit angefertigten Artikels zumindest teilweise über den Haufen geworfen. Diese Änderungen bleiben jedoch nicht unbeachtet und werden in Kürze als Update erscheinen. Die Kernaussagen sowie die Benchmark-Ergebnisse und das wichtige Preis-Leistung-Verhältnis sind davon jedoch nicht betroffen, weshalb wir unseren Lesern diesen umfangreichen Artikel nicht vorenthalten wollen.
Am 19. November 2007 startete AMD mit der Spider-Plattform einen Großangriff auf die Bastion Intel. Neue Chipsätze, neue Grafikkarten und – als Hauptakteur – ein neuer Prozessor, der „Phenom“, sollten dem Marktführer endlich wieder ordentlich Konkurrenz verschaffen. Doch wie so oft kam alles anders als ursprünglich gedacht. Während die Grafikkarten in der Tat sehr gut eingeschlagen und auch die Mainboard-Chipsätze der 7-Series ihr Können inzwischen bewiesen haben, war gleichzeitig mit der CPU das größte Sorgenkind geboren. Dabei hatte AMD sogar noch vor dem Start zugeben müssen, dass der Prozessor einen Fehler enthält, der zu Leistungseinbußen führt. Hinzu kamen Taktraten, die weit unter den Erwartungen lagen, was sich prompt in teilweise vernichtenden Tests des Prozessors niederschlug.
Heute nun wollen wir alle verfügbaren und zukünftigen Varianten des AMD Phenom auf Basis des „Agena“-Kerns in unseren eigenen vier Wänden näher beleuchten. In wochenlangen Tests haben wir uns auch des TLB-Bugs angenommen und die Performance ermittelt, die ein überarbeitetes B3-Stepping gegenüber der aktuellen Revision B2 zeigen wird, wenn es in wenigen Wochen offiziell auf dem Markt erscheint. Herausgekommen sind am Ende Leistungsmessungen zu satten neun verschiedenen Modellen mit vier Kernen. Ihnen gegenüber stellen wir auch ein altes Modell von AMD, um zu zeigen, was sich mit der neuen Generation wirklich geändert hat. Zu diesem Zweck haben wir einen Athlon 64 X2 6000+ eingeladen, den wir auf derselben Taktfrequenz wie ein Modell mit vier Kernen betrieben haben. Natürlich bleibt in einem weiteren Durchlauf auch die maximale Leistung des 3-GHz-Boliden erhalten, damit er nochmals zeigen kann, was er auf einem modernen AMD-790FX-Mainboard zu leisten im Stande ist.
Den alten und neuen AMD-Prozessoren stellen wir darüber hinaus auch alle bisher getesteten Intel-Prozessoren gegenüber, so dass ein großer Schlagabtausch stattfinden kann: Elf AMD-Prozessoren treffen auf elf CPUs aus dem Hause Intel. Dies mag in vielerlei Hinsicht auf dem Papier nicht immer fair erscheinen, jedoch wird das abschließende Preis-Leistung-Rating aufzeigen, welche CPUs die besten Prozessoren für das meist viel zu knappe Geld sind. Und dieses Ranking, soviel sei zu Beginn gleich gesagt, verspricht einige Überraschungen.
Einen guten, ersten Überblick über die neuen Eigenschaften eines AMD Phenom liefert das kleine Tool CPU-Z [1]. So wird beispielsweise der hier links abgebildete Prozessor mit dem Barcelona-Kern und einer Thermal Design Power von 95 Watt wie alle aktuellen Phenom-Modelle im Stepping „B2“ ausgeliefert. Im 2. Quartal 2008 wird dann die im rechten Bild erkenntliche Revision „B3“ auf den Markt kommen und die bekannten Probleme mit dem so genannten TLB-Bug beheben und schnellere Prozessoren mit 2,4 GHz und darüber hinaus ermöglichen. Der L2-Cache aller aktuellen und kommenden Phenom besitzt eine Größe von 4 x 512 KB und erstmals seit geraumer Zeit kommt bei AMD auch wieder ein L3-Cache in der Größe von 2 MB zum Einsatz. Die Spannung unserer 2,2 und 2,3 GHz schnellen Prozessoren rangiert mit offiziellen 1,25 Volt etwas unter der des bisherigen Athlon 64 X2, das Engineering Sample des 2,4 GHz schnellen Phenom arbeitet außer Konkurrenz mit 1,3 Volt. Zu den unterstützten Befehlssätzen gehören neben den alt bekannten Erweiterungen wie 3DNow! und MMX auch die neuen Streaming SIMD Extensions (SSE) in der Version 4A, die aber nicht kompatibel mit Intels SSE4.1 sind.
Der erste gravierende Unterschied zu bisherigen Modellen von AMD besteht neben dem L3-Cache in der Anzahl der Kerne. Aber auch die weiteren Eigenschaften des Prozessors und sein Ökosystem wurden auf den aktuellen Stand gebracht. Der HyperTransport-Link wurde auf bis zu 2.000 MHz angehoben und auch der Arbeitsspeicher arbeitet fortan mit der Frequenz, die man ihm zuweist. Auf viele dieser Einzelheiten gehen wir in den folgenden Abschnitten näher ein.
Runde 460 Millionen Transistoren vereint AMD auf einem neuen Prozessor mit vier Kernen. Die 65-nm-Fertigung erlaubte dabei die Verdoppelung der Anzahl der Transistoren, welche beim Athlon 64 X2 mit zwei Kernen bei etwa 227 Millionen lag. Fasst man die neuen und alten Eckdaten der Prozessoren in einem Schaubild zusammen, zeigen sich die markanten Unterschiede zum Vorgänger, aber auch zum direkten 65-nm-Konkurrenten von Intel, Codename Kentsfield, auf. Auch viele Gemeinsamkeiten sind bei den Prozessoren zu finden, insbesondere wenn man sich den K8 und den K10 genauer ansieht.
Neben einem handelsüblichen Phenom 9500 haben wir auch einen Prozessor mit freiem Multiplikator in den Test einbezogen, mit dem sich viele Aussagen über die nahe Zukunft treffen lassen. Mit diesen beiden Modellen lassen sich ganze acht Phenom-Prozessoren nachbilden, die bereits jetzt verfügbar sind, oder in den kommenden Wochen und Monaten auf den Markt kommen sollen.
Die vereinfachte Abbildung eines Prozessors wollen wir jedoch nicht allein im Raum stehen lassen. Im Detail sieht ein AMD Phenom natürlich weit komplizierter aus. Man erkennt, dank der Beschriftung des ersten Kerns, welches technische Bauteil sich genau an welcher Stelle im Prozessor befindet. Die Aufteilung des L1-Caches in seine zwei unterschiedlichen Bereiche ist dabei genau so aufgezeigt wie die Positionierung des pro Kern zur Verfügung stehenden L2-Caches und des umrahmenden L3-Caches, auf den jeder Kern zugreift.
Bildquelle: AMD ISSCC 2007 Präsentation
Mouseover zeigt die beschrifteten Einzelteile
Die Vielfalt aktueller Prozessoren macht AMDs Produktportfolio teilweise sehr unübersichtlich. In einigen Bereichen tummeln sich vier verschiedene Prozessorkerne mit jeweils unterschiedlichem L2-Cache, die sich lediglich zwei Namen teilen. Hinzu kommt der Faktor, dass AMD den Athlon 64 X2 Zug um Zug von 90 auf 65 nm umstellt, was zum Teil erneut doppelte Belegungen der Bezeichnungen zur Folge hat. Die folgende Tabelle versucht, den Überblick und die Unterschiede zwischen den Varianten zurück zu gewinnen.
| Merkmale | AMD Phenom | Athlon 64 X2 | Athlon 64 Sempron 64 |
| Logo |
|
|
|
| Codename | Agena Barcelona (Deerhound) |
Windsor (1 MB/512 kB) Brisbane (512 kB) |
Lima (512 kB) Manila (256 kB/128 kB) Sparta (512 kB/256 kB) Orleans (1 MB/512 kB) |
| Taktrate oder Modellnummer (Takt in GHz) |
9950 (2,6 GHz) 9850 (2,5 GHz) 9750 (2,4 GHz) 9650 (2,3 GHz) 9600 (2,3 GHz) 9550 (2,2 GHz) 9500 (2,2 GHz) 9150e (1,8 GHz) 9100e (1,8 GHz) |
3800+ (2,0 GHz, 2x 512 kB) 3800+ EE (2,0 GHz, 2x 512 kB) 4000+ (2,1 GHz, 2x 512 kB) 4200+ (2,2 GHz, 2x 512 kB) 4200+ EE (2,2 GHz, 2x 512 kB) 4400+ (2,3 GHz, 2x 512 kB) 4600+ (2,4 GHz, 2x 512 kB) 4600+ EE (2,4 GHz, 2x 512 kB) 4800+ (2,5 GHz, 2x 512 kB) 5000+ (2,6 GHz, 2x 512 kB) 5000+ EE (2,6 GHz, 2x 512 kB) 5200+ (2,7 GHz, 2x 512 kB) 5200+ (2,6 GHz, 2x 1 MB) 5200+ EE (2,6 GHz, 2x 1 MB) 5400+ (2,8 GHz, 2x 512 kB) 5600+ (2,8 GHz, 2x 1 MB) 6000+ (3,0 GHz, 2x 1 MB) 6000+ EE (3,0 GHz, 2x 1 MB) 6400+ (3,2 GHz, 2x 1 MB) BE-2300 (1,9 GHz, 2x 512kB) BE-2350 (2,1 GHz, 2x 512kB) BE-2400 (2,3 GHz, 2x 512kB) |
Athlon 64 4000+ (2,6 GHz, 512kB) 3800+ (2,4 GHz, 512 kB) 3500+ (2,2 GHz, 512 kB) 3200+ (2,0 GHz, 512 kB) 3000+ (1,8 GHz, 512 kB) LE-1600 (2,2 GHz, 1 MB) LE-1620 (2,4 GHz, 1 MB) LE-1640 (2,6 GHz, 1 MB) Sempron 64 3800+ (2,2 GHz, 256 kB) 3600+ (2,0 GHz, 256 kB) 3500+ (2,0 GHz, 128 kB) 3400+ (1,8 GHz, 256 kB) 3200+ (1,8 GHz, 128 kB) 3000+ (1,6 GHz, 256 kB) 2800+ (1,6 GHz, 128 kB) LE-1100 (1,9 GHz, 256 kB) LE-1150 (2,0 GHz, 256 kB) LE-1200 (2,1 GHz, 256 kB) LE-1250 (2,2 GHz, 256 kB) LE-1300 (2,3 GHz, 256 kB) |
| Fertigung | 65 nm | 90 nm 65 nm |
90 nm |
| Sockel | Sockel AM2+ (940) | Sockel AM2 (940) | Sockel AM2 (940) |
| Quad-Core | √ | X | X |
| Dual-Core | X | √ | X |
| Multithreading | √ | X | X |
| Frontside-Bus | entfällt | entfällt | entfällt |
| Frontside-Bus-Last | entfällt | entfällt | entfällt |
| Peripherieinterface | 14,4 GB/s HyperTransport | 8 GB/s HyperTransport | 8 GB/s HyperTransport 6,4 GB/s HyperTransport |
| Speichercontroller | integriert für DDR2-1.066 |
integriert für DDR2-800 |
integriert für DDR2-667 |
| Transistoren | 463 Mio. (4x 512 kB + 2MB) | 153,8 Mio. (2x 512 kB) 227,4 Mio. (2x 1MB) |
kA (128 kB) 81,1 Mio. (256 kB) 81,1 Mio. (512 kB) |
| Chipgröße | 283 mm² | 183 mm² (2x512 kB) 230 mm² (2x 1MB) |
kA (128 kB) 103 mm² (256 kB) 103mm² (512 kB) |
| L1-Execution-Cache | 4x 64 kB | 2x 64 kB | 64 kB |
| L1-Daten-Cache | 4x 64 kB | 2x 64 kB | 64 kB |
| L2-Cache | 4x 512 kB | 2x 512 kB 2x 1024 kB |
128 kB 256 kB 512 kB |
| L2-Anbindung | 128 Bit | 128 Bit | 128 Bit |
| L2-Modus | L1 exklusiv | L1 exklusiv | L1 exklusiv |
| L3-Cache | 2 MB (shared) | - | - |
| L3-Modus | L2 exklusiv | - | - |
Da es sich bei den Komponenten im Testsystem komplett um im Handel verfügbare und zum Teil auch dort erworbene Prozessoren handelt, wollen wir einen Einblick in die Probleme geben, die uns in den Tagen und Wochen vor dem und beim Test aufgefallen sind.
Bereits im Dezember haben wir den Grundstein für diesen umfangreichen Artikel gelegt, jedoch gab es einige Rückschläge. Den größten und auch noch offiziell abgesegneten Umstand steuerte AMD in Form des TLB-Bugs dabei selbst bei. Der Hersteller rief alle Mainboardfabrikanten dazu auf, ihre Platinen mit einem entsprechenden Fix auszurüsten, so dass der Prozessor zwar künstlich gebremst, dafür aber zu 100 Prozent sicher laufen wird. Dabei tat sich für den Test natürlich die Frage auf, wie genau wir diesen „Workaround“ am besten handhaben sollen. Nach Rücksprache mit einigen Mainboardherstellern wurde schnell klar, dass die meisten den Fix in Kürze implementieren würden. Einige Anbieter würden darüber hinaus aber eine Option im BIOS bereitstellen, die dem Nutzer die Wahl lässt, ob er ein Plus an Geschwindigkeit mit dem Risiko für einen Fehler selbst wählen möchte. Gegen Ende Dezember standen die offiziellen BIOS-Varianten bereit, die es erlaubten, den TLB-Fix ein- bzw. auszuschalten.
Nachdem diese Position geklärt war, blieben die Platinen von Asus und Gigabyte übrig, zwischen denen die Wahl getroffen werden musste. Da das Asus M3A32-MVP Deluxe in der neuen Revision 1.02G aber den Dienst verweigerte, griffen wir zwangsweise zum Gigabyte MA790FX-DQ6. Dieses wurde für die ersten Tests mit der neuesten BIOS-Version F3 bespielt, so dass der TLB-Fix selbst eingestellt werden konnte.
Nach einigen Neustarts und ersten Benchmarks stellten sich dann jedoch die ersten Merkwürdigkeiten ein. Während der DDR2-Speicher von Aeneon bei einem Athlon 64 X2 6000+ problemlos lief, gab es mit dem Phenom 9500 Fehler. Mit dem Wechsel auf den Speicher von OCZ waren die Probleme urplötzlich gelöst. Eine weitere Auffälligkeit war darüber hinaus bereits beim Betreten des BIOS' zu bestaunen: Ab und zu fror nach zwei bis zehn Sekunden im BIOS der Rechner komplett ein, ohne dass man auch nur eine Einstellung geändert hatte. Selbst der Wechsel des Speichermodus' oder das Ein- oder Ausschalten des TLB-Fixes wurde so zu einem Glücksspiel. Doch diese Hänger waren nicht auf das BIOS beschränkt. Selbst beim normalen Hochfahren des Rechners waren, bis auf dem Bildschirm die IRQ-Belegung aufgezeigt wird, sporadische Hänger an der Tagesordnung. Wurde dieser Punkt jedoch erst einmal überschritten und Windows geladen, lief das System vollkommen stabil und stürzte nicht ein einziges Mal ab.
In Windows Vista gab es dann und wann allerdings wieder etwas anderes zu bemerken: Einige Male wurden dem Quad-Core-Prozessor die Kerne geraubt! Sporadisch trat dieses äußerst skurrile Phänomen auf, das sich sofort in den Benchmarks niederschlug und auch in CPU-Z bewiesen werden konnte. Vollkommen zufällig wurde der Phenom manchmal nur mit drei Kernen, mal zwei, aber auch das eine oder andere Mal nur mit einem Kern zum Arbeiten bewegt. Dies hatte unter anderem auch zur Folge, dass zum Beispiel Quake 4 den Multi-Core-Support im Spiel deaktiviert, beim Start mit allen vier Kernen aber nicht wieder allein aktiviert – eine Tatsache, auf die wir mehr als einmal hereingefallen sind. Die Ursache konnten wir bisher nicht in Erfahrung bringen, sie könnte sowohl beim Mainboard, als auch beim Betriebssystem oder direkt an der CPU liegen. Nach einem Neustart waren jedes Mal alle vier Kerne wieder arbeitswillig.
Das zweite Mysterium betraf die Cool’n’Quiet-Funktion des Prozessors, die sich über die Energieeinstellungen des PCs direkt in Windows Vista regeln lässt. Klappte diese Prozedur das eine Mal vollkommen korrekt, war nach einem Neustart die Einstellung in den Energieoptionen plötzlich gar nicht mehr verfügbar und die CPU arbeitete auch im Ruhezustand immer mit maximalem Takt und maximaler Spannung. Auch der Prozessortreiber von AMD für den Phenom brachte keine Abhilfe. Wie aus dem offiziellen Forum von Gigabyte [2] hervorgeht, ist dieses Problem in der Zwischenzeit bekannt und soll demnächst gelöst werden. Ursache ist unter anderem die Auswahlmöglichkeit im BIOS, den Multiplikator selbst festzulegen, anstatt ihn automatisch erkennen zu lassen. Dies hat zur Folge, dass selbst dann, wenn man den Multiplikator von Hand auf den Referenzwert einstellt, Cool’n’Quiet unter Windows nicht funktioniert. Da wir die Option aber nur zur Feststellung des Leistungsverbrauchs benötigten, gewichtet dieses Problem in unserem Test nicht all zu schwer.
Alles in allem gesehen kommt man sich jedoch auch einige Monate nach dem offiziellen Start der Plattform des Öfteren noch vor wie ein Beta-Tester für ein neues Produkt. Kleinere Kinderkrankheiten, alles nicht wirklich von Belang, nerven auf Dauer eigentlich nur, ohne dass sie großen bzw. eigentlich gar keinen Schaden anrichten. Da man diese Probleme zuletzt von den Tests mit neuen X38-Platinen von Intel nebst passenden Penryn-Prozessoren gar nicht mehr kannte, fielen die genannten Dinge besonders auf. Dort wurden die meisten Probleme aber schon mit der P965-Generation gelöst, die ähnliche Krankheiten vorweisen konnte. Einige dieser aktuellen, kleineren Bugs werden in naher Zukunft sicher noch durch optimierte Treiber und BIOS-Updates gelöst. Jedoch sollten diese Ereignisse unserer Ansicht nach, da es sich komplett um im Handel verfügbare Produkte handelt, zum aktuellen Zeitpunkt nicht vollkommen ungenannt bleiben.
Der Phenom unterscheidet sich von den bisherigen AMD-Prozessoren in einigen Punkten – rein äußerlich, wenn es um die Wahl des Taktes geht, aber auch intern, zum Beispiel beim Thema der Kommunikation des Arbeitsspeichers und deren Einstellungen. Beim Phenom wird erstmals der Speichertakt nicht mehr vom Prozessortakt abgeleitet, da als Grundlage nur der Referenztakt der CPU dient. In der Praxis heißt dies, dass sich mit der Erhöhung des Frontside-Bus logischerweise auch der Speichertakt erhöht, jedoch nicht mehr, wie zu K8-Zeiten, wenn am Multiplikator geschraubt wird. Der Standard DDR2-1066, was erstmals mit dem AMD Phenom zur Verfügung steht, ist bei jedem Modell, egal mit welchem Referenztakt dieses arbeitet, auch wirklich DDR2-1066. Damit ist der erste Grundstein zu Gunsten des neuen Prozessors gelegt.
Beim K8 hingegen war der Speichertakt bei jedem Modell ein anderer, wie unsere Tabelle noch einmal verdeutlicht. Der Speichertakt konnte nicht wirklich frei gewählt werden und damit wurde z.B. DDR2-800-Speicher nicht immer mit den vorgesehen 400 MHz betrieben. Diese Eigenheit des integrierten Speichercontrollers ist jedoch schon seit Jahren bekannt und sorgte bereits im Sockel 754, Sockel 939 und Sockel 940 für nicht immer ganz korrekte Taktraten [3]. Durch halbe Multiplikatoren hat sich dies sogar noch verstärkt.
| Prozessortakt | DDR2-400 (Ziel: 200 MHz) | DDR2-533 (Ziel: 266 MHz) | DDR2-667 (Ziel: 333 MHz) | DDR2-800 (Ziel: 400 MHz) |
| 1,6 GHz (8x200) | 200 MHz (Teiler 8) | 266 MHz (Teiler 6) | 320 MHz (Teiler 5) | - |
| 1,8 GHz (9x200) | 200 MHz (Teiler 9) | 257 MHz (Teiler 7) | 300 MHz (Teiler 6) | 360 MHz (Teiler 5) |
| 2,0 GHz (10x200) | 200 MHz (Teiler 10) | 250 MHz (Teiler 8) | 333 MHz (Teiler 6) | 400 MHz (Teiler 5) |
| 2,2 GHz (11x200) | 200 MHz (Teiler 11) | 244 MHz (Teiler 9) | 314 MHz (Teiler 7) | 366 MHz (Teiler 6) |
| 2,4 GHz (12x200) | 200 MHz (Teiler 12) | 240 MHz (Teiler 10) | 300 MHz (Teiler 8) | 400 MHz (Teiler 6) |
| 2,6 GHz (13x200) | 200 MHz (Teiler 13) | 260 MHz (Teiler 10) | 325 MHz (Teiler 8) | 371 MHz (Teiler 7) |
| 2,8 GHz (14x200) | 200 MHz (Teiler 14) | 254 MHz (Teiler 11) | 311 MHz (Teiler 9) | 400 MHz (Teiler 7) |
| 3,0 GHz (15x200) | 200 MHz (Teiler 15) | 250 MHz (Teiler 12) | 333 MHz (Teiler 9) | 375 MHz (Teiler 8) |
Erstmals unterstützt AMDs neuer Phenom-Prozessor verschiedene Speichermodi. Die Optionen „Ganged“ und „Unganged“ beschreiben dabei die Arbeitsweise des Speichercontrollers des K10. Der neue Modus „Unganged“ soll speziell bei speicherlastigen Anwendungen Performancegewinne versprechen, in dem die volle Bandbreite zur Verfügung steht. Das folgende Bild erklärt dabei die Arbeitsweise des Controllers in der jeweiligen Einstellung.
Die Einstellung des Arbeitsspeichers in die Variante „Ganged“ oder „Unganged“ ist den meisten Programmen jedoch noch viel zu neu, so dass diese fehlerhaft oder gar nicht erkannt werden. Dies hat zur Folge, dass zum Beispiel der „Unganged“-Modus als Single-Channel-Speicher erkannt wird, selbst von AMD-eigenen Tools wie OverDrive. Ähnlich geht es dabei auch Everest in der offiziellen Version 4.20, quasi alle bisherigen CPU-Z-Varianten sind ebenfalls betroffen. Erst die am 8. Februar 2008 erschienene Version 1.44 von CPU-Z erkennt viele Dinge des Phenom im Zusammenspiel mit neuen Hauptplatinen vollkommen korrekt, unter anderem die richtige Einstellung des HT-Links und natürlich des Speichers und dessen eingestellten Modus.
Genau so wie die Programme diesen Modus erkennen – oder eben auch nicht – so wird dieser gehandhabt. Während zum Beispiel die integrierte Benchmark-Funktion von Everest dem Ganged-Modus eine schnellere Performance bescheinigt, ist es bei dem Speicherbenchmark von SiSoft Sandra genau umgekehrt. Dort kann der Unganged-Modus fast 10 Prozent mehr Speicherbandbreite für sich verbuchen, während der Vorteil von Everest im Unganged-Modus bei lediglich runden fünf Prozent liegt. In den meisten Anwendungen ist aber quasi kein Unterschied zwischen den beiden Modi zu begutachten. Da die Variante Unganged aber erstmals mit der neuen Prozessorgeneration und den dazu passenden Mainboards der Spider-Plattform zur Verfügung steht, haben wir den kompletten Test im Modus Unganged durchgeführt. Je nach Einsatz des PCs sollte der geneigte Käufer dieses aber selbst überprüfen und somit heraus finden, welches für ihn die vorteilhafteste Lösung ist – ein wirkliches Patentrezept gibt es aktuell nicht.
Kein Wort, vielmehr nur ein Kürzel, sorgte seit dem Start des neuen Prozessors für mehr Aufsehen: TLB. Genauer gesagt ist die Rede vom „TLB-Erratum 298“. Dies ist ein Fehler in der Speicherverwaltung des Prozessors, der zu Datenverlusten führen kann. Traditionell wird in einem Prozessor jede angeforderte virtuelle Adresse zuerst durch die „Memory Management Unit“ in eine physische Adresse umgerechnet, bevor sie auf den Adressbus geschrieben wird. Die MMU verfügt über spezielle Cache-Speicher, den Translation Lookaside Buffer (TLB), welcher jeweils die letzten Adressübersetzungen in Form einer Tabelle abspeichert. Dabei wird die virtuelle (logische) Adresse in mehreren Arbeitsschritten zu einer meist baumartig organisierten Seitentabelle zur physischen Adresse umgerechnet. Dieser zeitintensive Vorgang wird aus Performancegründen im TLB gepuffert. Der TLB kann eine begrenzte Menge dieser Einträge halten und dadurch Ausführung von Speicherzugriffen deutlich beschleunigen. Durch den Fehler in diesem Bereich war AMD gezwungen, Teile davon komplett zu deaktivieren – der sogenannte TLB-Fix war geboren.
Bildquelle: Wikipedia [4]
AMD hat nach dem Bekanntwerden des Fehlers die Auslieferung der Server-Prozessoren des Typs Opteron auf Basis des gleichen Barcelona-Kerns eingefroren, bis ein neues Stepping zur Verfügung steht, da dort dieser Fehler eher auftreten könnte als bei den Desktop-Modellen. Trotzdem hat AMD auch Mainboardherstellern der neuen Platinen eine Weisung mit auf den Weg gegeben, einen Fix in ihre Platinen zu integrieren, der das Problem behebt. Dies hat aber zur Folge, dass teilweise massive Einbrüche in der Performance zu sehen sind, während AMD großzügig von maximal 10 Prozent weniger Leistung spricht.
Ende Februar, der Artikel war eigentlich schon fertig, hat es AMD endlich geschafft, den Fehler offiziell in ihren Revisionsguide aufzunehmen. Seite 39 des besagten PDF-Dokuments [5] zeigt die genaue Fehlerbeschreibung, die wir an der Stelle einfügen möchten. Wirklich schlauer ist man nach dem Lesen dieser Informationen aber auch nicht.
Das besagte Dokument offenbart zudem weitere kleine Fehler, die in einem kommenden Stepping behoben werden, was nicht zwangsläufig bedeutet, dass dies alles im B3-Stepping geschieht. So liefern die internen Sensoren der neuen Prozessoren widersprüchliche Temperaturwerte, so dass AMD sogar empfiehlt, diese nicht zu nutzen. Dieses Erratum 319 wiegt dabei sicherlich weniger schwer als der Fehler 309, der von Abstürzen unter bestimmten Bedingungen berichtet. All diese kleinen Fehler hat jedoch jeder Prozessor unabhängig des Herstellers, so dass wir darauf nicht näher eingehen. Interessierte finden das komplette Dokument zum AMD Phenom [4] direkt bei AMD.
Das kleine Tool AMD OverDrive (AOD) erlaubt es, im laufenden Betrieb unter Windows den TLB-Fix auszuschalten. Als Status-Anzeige, aber auch als zu verstellendes Element dient dabei die kleine grüne Lampe in der rechten oberen Ecke. Ist diese lediglich grün, heißt es, dass der TLB-Patch initialisiert ist und das System „absolut sicher“ läuft. Wird die grüne Lampe jedoch von einer gelben Umrandung geschmückt, ist der TLB-Patch aus, was eine höhere Performance verspricht. Die dritte, rote Umrandung setzt zudem einige Register in einen schnelleren Modus, welches an besonderen Stellen noch einmal einige Prozent Leistungszuwachs versprechen soll. Da die Unterlagen und Beschreibung der drei Modi sehr zu wünschen übrig lassen, sind genaue Details leider Mangelware.
In den ersten Gehversuchen mit dem Tool wurde schnell klar, was dieses von den Mainboardeinstellungen im BIOS übernimmt. War der TLB-Fix im BIOS eingeschaltet, leuchtet in Windows die Lampe grün, war er aus wurde bei Start des Tools eine gelbe Umrandung gezeigt. Wollte man diesen aber in die eine oder andere Richtung zurückstellen, kam es zu merkwürdigen Ergebnissen. In der Praxis bedeutet dies, dass mit einem eingeschalteten TLB-Fix das System stabil lief und man diesen in Windows auch (theoretisch) ausschalten konnte. Nimmt man dieses aber in Angriff, kommen nicht die gleichen Ergebnisse zum Vorschein, als wenn man den TLB-Fix gleich im BIOS aus gelassen hätte. Auch anders herum zeigt sich ein ähnliches, manchmal aber auch skurriles Bild – TLB-Fix im BIOS aus, dann unter Windows an, ist manchmal nochmals leicht langsamer als eine Aktivierung direkt im BIOS, manchmal aber auch leicht schneller, wie die folgenden Diagramme zeigen. Dies mag ein Grund sein, warum das Tool von AMD seit Monaten immer noch im Beta-Status verharrt und vom Hersteller bisher nur über Dritt-Anbieter – selbst auch auf der eigenen Seite – publiziert wird.
Einige Testergebnisse wollen wir aber doch aufzeigen, in denen wir den „sicheren Modus“ von AMD nutzen. Dazu ist der TLB-Fix im BIOS eingeschaltet, alle anderen Optionen werden nur über OverDrive gesteuert. Parallel dazu zeigen wir aber gleich auch das Ergebnis auf, welches zustande kommt, wenn man den TLB-Fix ausschaltet und dann in OverDrive herumspielt.
AMD OverDrive – Latenz
Angaben in Nanosekunden
|
Die Ergebnisse in den theoretischen Tests wie der Speicherlatenz von Sciencemark oder SiSoft Sandra sind zum Teil erschreckend. Wie stark der TLB-Bug doch einschränkt, ist am besten an den Latenzzeiten zu erkennen. Die Schwankungen von AOD werden aber wie bereit beschrieben auch noch einmal aufgezeigt. Zwar sind diese nicht besonders groß, Cinebench legt diese jedoch dar. Lässt man beispielsweise den TLB-Fix aus, schaltet ihn unter Windows dann aber ein, ist das System immer noch schneller, als wenn man den TLB-Fix im BIOS direkt einstellt. Eine Differenz von 200 Punkten im Multi-Core-Test von einem zum anderen Modus ist zwar kein hoher Prozentsatz, jedoch liegt er weitab, um als Schwankung im Messergebnis durchzugehen. Andererseits liefert Cinebench jedoch auch merkwürdige Ergebnisse. So ist der Single-Core-Test im grünen und gelben Modus gleich schnell, legt im roten Bereich aber um 200 Punkte zu. Parallel dazu ist der Multi-Core-Test in identischen Bedingungen nur im grünen Modus 200 Punkte langsamer, während der gelbe und rote Modus gleich schnell arbeiten. Ist der TLB-Fix bereits im BIOS festgelegt, lassen sich einige Anwendungen auch im gelben oder roten Modus nicht zu einer Leistungssteigerung bewegen, wie der Speichertest von Sandra eindrucksvoll unter Beweis stellt. Die Anwendung einer Software unter Windows, die die Hardware verändern soll, bleibt also in diesem Falle ein sehr zweischneidiges Schwert.
Rating AMD OverDrive & TLB-Fix
Angaben in Prozent
|
Zusammenfassend lässt sich deshalb sagen, dass der rote Modus durchweg der schnellste ist und an AMD OverDrive auf dem Weg zur maximalen Performance kaum ein Weg vorbei führen dürfte. Eine Variante bleibt aber weiterhin verfügbar, wenn man nicht so sehr auf Software im Beta-Status steht. Cool’n’Quiet einfach im BIOS deaktivieren und dazu den TLB-Fix ausschalten (sofern es denn möglich ist) – schon ist für die maximal mögliche Performance der Grundstein gelegt, da man sich auch ohne die Software AMD OverDrive ganz allein durch die hardwareseitigen Einstellungen durchweg auf Höhe des ersten und zweiten Platzes unseres Ratings bewegt.
In den letzten Tagen des Tests vermehrten sich die Meldungen in Foren, dass das Service Pack 1 für Windows Vista den TLB-Fix auf jeden Fall in Betrieb nimmt, egal was vorher im BIOS eingestellt wurde. Tests in der Redaktion können diese Einstellungen unter Windows Vista Ultimate x64 bestätigen. Der TLB-Fix kann mit dem Service Pack 1 nur mit AMD OverDrive in Windows direkt wieder zurückgeschaltet werden. Dadurch würde man in unserer Performance-Tabelle auf den dritten Platz abrutschen. An dieser Stelle können dann nur noch Einträge direkt in das Register helfen, was jedoch nur Profis empfohlen ist, oder das Warten auf das B3-Stepping, das diesen gesamten Abschnitt des Artikel ad acta legt. Wer genau wissen möchte, wie das Deaktivieren des TLB-Patches auch unter Vista mit dem SP1 gelingt, dem sei der ausführliche Bericht unserer Kollegen von Planet3DNow! [6] ans Herz gelegt, der zeigt, wie mit dem Tool CrystalCPUID der Patch im Autostart von Windows Vista deaktiviert wird.
Der Unterschied in den einzelnen Phenom-Prozessoren liegt im Detail. Dieses ist zum einen für jedermann gleich sichtbar, zum Beispiel in Form der Taktfrequenz, steckt aber auch weitergehend in tieferen Gefilden. Die Versionen Phenom 9500 und 9600 besitzen eine Northbridge-Frequenz von 1,8 GHz. Genau diese Taktung schließt aber auch die Frequenz mit ein, mit der sowohl L3-Cache als auch der HyperTransport-Link (HT-Link) betrieben werden. Bei den Varianten ab 2,5 GHz, genauer gesagt bei den Modellen Phenom 9850 und 9950, wird dieser auf 2 GHz erhöht. Der Phenom 9750 wurde in letzter Sekunde auf den gleichen HT-Link von 1,8 GHz herunter gestuft, den die aktuellen Phenom 9500 und 9600 haben. Im Gegensatz dazu sollte ursprünglich der Phenom 9100e/9150 mit einem nochmals zurechtgestutzten HT-Link von 1,6 GHz arbeiten – die Frequenzen von Northbridge und L3-Cache natürlich inbegriffen. Dieses wurde jedoch am 26. März widerrufen – der Phenom 9100e wird wie fast alle anderen Modelle auch einen HT-Link von 1,8 GHz besitzen. Da dieser Abschnitt aber bereits fertig getestet und geschrieben war, wollen wir ihn nicht vorenthalten.
Um die Unterschiede zwischen den verschiedenen Taktfrequenzen der Northbridge und seiner zwei Verbündeten zu analysieren, haben wir einige Tests nur darauf bezogen durchgeführt. Als Grundlage dient ein Phenom mit 2,3 GHz, der im BIOS auf 1.600 MHz Northbridge und ebenfalls 1.600 MHz HT-Link getrimmt wird. Anders herum gestaltet sich das Ganze jedoch ein wenig schwieriger. Zwar kann man die Northbridge-Frequenz im BIOS auch auf 2.000 MHz anheben und dem HT-Link sagen, dass er dies übernehmen soll, jedoch ist dies nicht der Fall. Alle Anwendungen, die diese Daten in Windows auslesen können, bestätigen, dass lediglich der NB-Takt 2 GHz beträgt, während der HT-Link unabhängig davon weiter mit einem kleineren Multiplikator auf 1,8 GHz arbeitet – trotz eingestellter 2 GHz im BIOS. Abhilfe schafft an der Stelle aber das Tool AMD OverDrive, mit dem sich der HT-Link-Multiplikator auf 10 erhöhen lässt und so endlich die gewünschten 2 GHz zur Verfügung stehen.
Für den Nachweis haben wir aus jeder großen Kategorie in unserem Testfeld ein oder zwei Programme heraus gepickt und die Werte aufgenommen. Aus diesen Applikationen haben wir dann ein kleines Performancerating erstellt, um die Unterschiede zwischen den drei Varianten des Northbridge-Takts und dazu passender HT-Link-Frequenz zu ermitteln. Basierend auf den Tests 3DMark06, PCMark05, Cinebench R10, WinRAR, SuperPi, OGG, TMGEnc, Fear und Quake 4 kamen wir zu folgendem Ergebnis:
Performancerating NB-Takt & HT-Link
Angaben in Prozent
|
Dass es keinen Vorteil, insbesondere wenn man die Abweichung von 1.600 auf 2.000 MHz berücksichtigt, für eine schnellere Ansteuerung der Northbridge inklusive dem HT-Link gibt, wollen wir nicht behaupten. Jedoch fällt er prozentual sehr gering aus, dass man zu dem Schluss kommt, dass im alltäglichen Einsatz kein Unterschied bzw. Vor- oder Nachteil festzustellen ist. Da diese Änderungen so aber nie in Prozessoren mit gleichem Takt anzutreffen sind, bleiben dies theoretische Aussagen. Eine Ausnahme bildet dabei jedoch das Overclocking. Für das Übertakten ist der Punkt deshalb so interessant, da dort meist der HT-Link und auch die Northbridge-Frequenz zur Sicherheit lieber mit einigen MHz weniger an den Start gehen (sollten), um den Prozessor nicht zu beschädigen. Das kleine Rating liefert einmal mehr den Beweis, dass man in diesem Punkt auch weiterhin lieber auf Nummer sicher gehen kann/sollte und vor dem Übertakten, sei es mittels Erhöhung des Frontside-Bus oder Multiplikators, die beiden Frequenzen in der Nähe des Referenztakts belässt. Vielmehr sollte der Overclocker den Fokus auf die Speichereinstellungen und deren Modi Ganged bzw. Unganged legen, da dort deutlich mehr Potential zur Optimierung des eigenen Systems besteht und eine Beschädigung des Prozessors umgangen wird.
Erläuterungen
Um einen möglichst fairen und realitätsnahen Vergleich zwischen den Kontrahenten zu ermöglichen, werden sämtliche Tests in einem geschlossenen Midi-Tower mit werksseitiger Lüfterbestückung (ein Lüfter rückseitig saugend, einer beim Festplattenkäfig in Front blasend) durchgeführt, um so auch auf thermische Probleme bei den Boliden aufmerksam zu werden. Zum Einsatz kommt ein „Coolermaster Stacker RC-832“, der uns von Caseking [11] zur Verfügung gestellt wurde. Das Gehäuse erlaubt den Einsatz von bis zu neun 120-mm-Lüftern, von denen die beiden verwendeten Lüfter zum Lieferumfang gehören.
Mit zwei Phenom-Prozessoren haben wir den kompletten Testparcour absolviert. Der Phenom 9500 kam dabei für die Tests Phenom 9500/9550 und 9100e/9150e zum Einsatz, während der Phenom 9600 in der Black Edition für die restlichen Werte genutzt wurde. Auf die Frage, warum man bereits mit den heutigen Prozessoren im B2-Stepping die kommenden mit dem B3-Stepping simulieren kann, gibt es eine einfache Antwort: Die Performance der 9x50-Prozessoren, für die das B3-Stepping ja steht, soll vollkommen identisch mit denen der B2-Phenom sein, wenn der TLB-Fix deaktiviert ist. Hauptgrund dafür ist schlicht und einfach der, dass das neue Stepping einzig und allein der Fehlerberichtigung dient. Ergo stehen die normalen und bisher im Handel verfügbaren Modelle 9100, 9500 und 9600 auch im Test für die Performance mit aktiviertem TLB-Fix, so wie es AMD vorschreibt. Die weiteren Probanden 9150e, 9550, 9650, 9750, 9850 und 9950 hingegen verzichten auf den TLB-Fix und geben einen Ausblick auf die zu erwartende Performance der bugfreien Phenom-Prozessoren, die in den folgenden Wochen in den Handel kommen.
Als am höchsten getakteter, „alter“ Dual-Core-Ableger kommt bei AMD ein Athlon 64 X2 6000+ im F3-Stepping und bei dem Vergleichsprozessor von Intel ein mit freiem Multiplikator ausgerüsteter X6800 mit DDR3-1066-Speicher zum Einsatz. Und da gerade die Prozessoren der E6x50-Serie sich großer Beliebtheit erfreuen, haben wir auch diese in Form des Core 2 Duo E6850 und des E6750 in die Übersicht mit aufgenommen. Für den weiteren Vergleich nach unten runden wir den Test mit den betagteren Prozessoren Core 2 Duo E6600 und E6420 ab, auf Seiten von AMD haben wir den 6000+ mit einem kleineren Multiplikator (x11) versehen und Benchmarks mit 2,2 GHz durchgeführt, um die Unterschiede und Beeinflussungen der neuen Architektur des Phenom und dessen erhöhte Anzahl von Prozessorkernen zu veranschaulichen.
Alle Prozessoren von AMD werden von uns auf ein neues Gigabyte-Mainboard des Typs MA790FX-DQ6 gesetzt, dass auf den AMD-790FX-Chipsatz vertraut. Dem Gespann steht schneller DDR2-Speicher von Aeneon mit maximal 1.066 MHz zur Verfügung, kontrolliert wird das Ergebnis noch einmal mit dem dreifach so teuren Speicher von OCZ. Für den weiteren Vergleich zum Einstiegsbereich in den Markt der vier Kerne werden ein Q6600 mit 2,40 GHz im G0-Stepping und ein Q6700 mit 2,66 GHz im älteren B3-Stepping des schärfsten Konkurrenten Intel eingesetzt. In beiden Fällen wird analog zum FSB1066 passender Speicher des Typs DDR3-1066 genutzt. Natürlich bleiben auch alle Ergebnisse der schnelleren Prozessoren von Intel dem Vergleich erhalten, um das Bild zu vervollständigen.
Alle getätigten Benchmarks wurden unter Windows Vista in einer Auflösung von 1280 x 1024 Bildpunkten durchgeführt. Vor allem bei Spielen kann es jedoch zu leichten Abweichungen in den Auflösungen und Grafikeinstellungen kommen. Wie genau diese aussehen, wird an Ort und Stelle im Text erwähnt.
Viele der von uns ausgewählten Programme sind frei verfügbar, so dass man die Tests am heimischen PC nachvollziehen kann. Anbei die genauen Versionsnummern bzw. Programmvarianten, die wir für den Test ausgewählt haben.
Egal ob es um Mainboard, Speicher, Festplatte, Peripherie, Steckkarten, Prozessor, Netzwerk, Schnittstellen BIOS, Windows oder DirectX geht, SiSoft Sandra hat umfangreiche Antworten parat. Für einen Großteil der Hardware im PC gibt es zudem Benchmark-Tests, mit denen sich der PC auf seine Performance im Vergleich zu einigen Referenz-Rechnern testen lässt. All diese Werte sind jedoch fast ausschließlich rein theoretischer Natur und haben wenig Bezug zur Praxis, jedoch lassen sich Prozessoren in ihren theoretischen Möglichkeiten gut vergleichen.
Download: SiSoft Sandra [12]
Sandra XIIc CPU-Arithmetik Drystone
Angaben in MIPS
|
Sandra XIIc CPU-Arithmetik Whetstone
Angaben in MFLOPS
|
Sandra XIIc CPU-Multimedia Fließkomma
Angaben in Instruktionen pro Sekunde (it/s)
|
Sandra XIIc CPU-Multimedia Integer
Angaben in Instruktionen pro Sekunde (it/s)
|
Sandra XIIc Speicher Fließkomma
Angaben in Megabyte pro Sekunde (MB/s)
|
Sandra XIIc Speicher Integer
|