ComputerBase

Test: Intel Core 2 Extreme QX9650

von Volker Rißka, Simon Knappe, Thomas Hübner

Vorwort

Mit dem heutigen Tag lässt Intel den ersten Prozessor der neuen Generation vom Stapel laufen, die bislang unter dem Codenamen „Penryn“ firmierte. Die größte Neuerung des Flaggschiffs Core 2 Extreme QX9650 mit „Yorkfield“-Kern, das sich zum Test in der Redaktion eingefunden hat, ist der Herstellungsprozess in der 45-nm-Technologie. Diese verspricht nicht nur eine geringere Leistungsaufnahme, sondern soll auch die Effizienz des gesamten Prozessors erhöhen. Parallel dazu bekommt der Neuling zusätzliche Instruktionen und einen auf 12 MB vergrößerten L2-Cache spendiert. Das Zusammenspiel soll die derzeitig (noch) unangefochtene Spitzenposition von Intel in quasi allen Bereichen der Desktop-Prozessoren sichern.

Core 2 Extreme Logo

Wir zeigen die Leistungsfähigkeit von Intels neuestem Prozessor und lassen diesen zusätzlich gegen seinen Vorgänger und weitere Modelle aus Intels Produktpalette antreten. Einen betagten AMD-Prozessor vom Typ Athlon 64 X2 als einziges Modell in diesen Vergleich mit aufzunehmen, erachten wir nicht als wirklich sinnvoll. In Kürze wird es hoffentlich in dieser Richtung einen weiteren Artikel mit einem komplett neuen Testsystem geben, der sich sowohl mit den alten als auch den kommenden AMD-Prozessoren befasst.

Intel Core 2 Extreme QX9650 – Perspektive

Im folgenden Abschnitt stellen wir den Core 2 Extreme QX9650 vor. Den Anfang macht der Überblick, anschließend analysieren wir die Architektur-Mikroarchitektur und stellen die 45-nm-Fertigung im Detail vor. Nach der Besprechung des Chipsatz-Supports lassen wir auf den folgenden 20 Seiten Zahlen für den neuen Prozessor sprechen.

Überblick

In der Übersicht stellen wir den neuen Core 2 Extreme QX9650 seinen Vorgängern und parallel laufenden Modellen gegenüber. Genauere technische Details zur Architektur und zum Fertigungsprozess folgen auf den kommenden Seiten.

Intel Core 2 Extreme QX9650 – Oben Intel Core 2 Extreme QX9650 – Unten

Die Prozessoren im Überblick
Merkmale Core 2
Extreme
(Quad-Core)
Core 2 Quad,
Core 2
Extreme
(Quad-Core)
Core 2 Duo,
Core 2
Extreme
(Dual-Core)
Core 2 Duo
(Dual-Core)
Logo
Core 2 Extreme
Core 2 Extreme
Core 2 Duo
Core 2 Duo
Codename Yorkfield
(2x Wolfdale)
Kentsfield
(2x Conroe)
Conroe Allendale
Taktrate oder
Modellnummer
(Takt in GHz)
QX9650 (3,00) Q6600 (2,40)
QX6700 (2,66)
QX6800 (2,93)
QX6850 (3,00)1
E6300 (1,86)3
E6320 (1,86)
E6400 (2,13)3
E6420 (2,13)
E6540 (2,33)
E6550 (2,33)1, 4
E6600 (2,4)
E6700 (2,66)
E6750 (2,66)1, 4
X6800 (2,93)
E6850 (3,00)1, 4
E4300 (1,80)2, 5
E4400 (2,00)2, 5
E4500 (2,20)2, 5
E4600 (2,40)2, 5
E6300 (1,86)
E6400 (2,13)
Fertigung 45 nm 65 nm 65 nm 65 nm
Sockel Sockel 775 Sockel 775 Sockel 775 Sockel 775
Kerne 4 (MCP) 4 (MCP) 2 2
Multithreading X X X X
Frontside-Bus 1333 MHz QDR 1066 MHz QDR
1333 MHz QDR0
1066 MHz QDR
1333 MHz QDR0
800 MHz QDR0
1066 MHz QDR
Frontside-Bus-Last 2 2 1 1
Peripherieinterface Extern Extern Extern Extern
Speichercontroller Extern Extern Extern Extern
Transistoren 2x410 Mio. 2x291 Mio. 291 Mio. 167 Mio.
Chipgröße 2x107 mm² 2x143 mm² 143 mm² 111 mm²
L1-Execution-Cache 2x2x32 kB 2x2x32 kB 2x32 kB 2x32 kB
L1-Daten-Cache 2x2x32 kB 2x2x32 kB 2x32 kB 2x32 kB
L2-Cache 2x6144 kB 2x4096 kB 1x2048 kB0
1x4096 kB
1x2048 kB
L2-Anbindung 256 Bit 256 Bit 256 Bit 256 Bit
L2-Modus L1 inclusive L1 inclusive L1 inclusive L1 inclusive
Cache insgesamt 2x6144 kB 2x4096 kB 2048 kB0
4096 kB
2048 kB
Energiesparfunktion C1E, Enhanced
SpeedStep (EIST)
C1E, Enhanced
SpeedStep (EIST)
C1E, Enhanced
SpeedStep (EIST)
C1E, Enhanced
SpeedStep (EIST)
Date Execution
Prevention (NX-Bit)
64-Bit-Technologie √ (EM64T) √ (EM64T) √ (EM64T) √ (EM64T)
Virtualisierungs-
Technologie
√ (Vanderpool) √ (Vanderpool) √ (Vanderpool) √ (Vanderpool)0
CPU-Architektur 14-stufige
Pipeline (Core)
14-stufige
Pipeline (Core)
14-stufige
Pipeline (Core)
14-stufige
Pipeline (Core)
Befehlssätze MMX
SSE
SSE2
SSE3
SSSE3
SSE4.1
VT
MMX
SSE
SSE2
SSE3
SSSE3
VT
MMX
SSE
SSE2
SSE3
SSSE3
VT
TXT
MMX
SSE
SSE2
SSE3
SSSE3
VT
0 Nur bei ausgesuchten Modellen
1 Besitzt einen 1333 MHz schnellen Frontside-Bus
2 Besitzt einen 800 MHz schnellen Frontside-Bus
3 Besitzt 2 MB L2 Cache (Im Silizium sind 4 MB vorhanden, 2 MB sind deaktiviert)
4 Unterstützt Trusted Execution Technology (TXT, ehemals La Grande)
5 Unterstützt keine Virtualisierungstechnologie (VT, ehemals Vanderpool)

Der Core 2 Extreme QX9650 basiert auf der Penryn-Mikroarchitektur. Hierbei handelt es sich um eine Weiterentwicklung der Core Mikroarchitektur (NGMA, Merom-Mikroarchitektur). Im Rahmen des Tick-Tock-Modells handelt es um ein „Tick“, die als Pioniere einer neuen Fertigungstechnologie (45 nm) dienen und wenig aufwendige Verbesserungen an einer bestehenden Architektur beinhalten. Obwohl die neuen Produkte bis zu 45 Prozent schneller sind – dazu später mehr –, nimmt man dies nicht zum Anlass, um bereits auf „Core 3“ als Produktnamen zu setzen. Diesen Schritt hebt man sich wohl für die wirklich gravierenden Architekturverbesserungen/-änderungen auf, die mit Nehalem, dem nächsten „Tock“ [1] anstehen.

Intel Tick-Tock-Modell

Wurde die „Merom“ Generation noch in Israel entwickelt, findet die Entwicklung von „Penryn“ hauptsächlich in Folsom, Santa Clara und Costa Rica statt. Das Designteam umfasst ca. 150 Mitarbeiter, während das komplette Team aus rund 400 Mitarbeitern besteht. Die beiden Nachfolge-Generationen „Nehalem“ (Tock, 2008) und „Westmere“ (Tick, 2009) werden derzeit in Oregon entwickelt. Die Entwicklung der über übernächsten Generation „Sandy Bridge“ (Tock, 2010) findet hingegen wieder in den Intel Entwicklungsstätten von Isreal statt.

Einen groben Überblick über die neuen Eigenschaften des Intel Core 2 Extreme QX9650 liefert bereits das kleine Tool CPU-Z [2]. Der Prozessor mit dem neuen „Yorkfield“-Kern und einer Thermal Design Power von 130 Watt wird bereits im Stepping „C0“ (Stepping 6) ausgeliefert und der L2-Cache wie erwartet eine Größe von 2x 6 MB. Die Spannung rangiert mit knapp über 1,21 Volt etwa 0,1 – 0,15 Volt unter den bisherigen Core 2 Duo/Extreme Modellen mit 3,0 GHz.

Zu den unterstützten Befehlsätzen gehören erstmals die Streaming SIMD Extensions (SSE) in der Version 4.1. Kein Unterschied besteht in der Ansteuerung des Prozessors mit einem Systemtakt von 333 MHz, welcher wie üblich einen Quad-Pumped-Bus von 1.333 MHz bedeutet. Wie bei den anderen Extreme-Editions von Intel ist auch beim neuen QX9650 der Multiplikator nach oben hin offen. Standardmäßig steht er jedoch auf 9 und erzeugt somit im normalem Zustand die 3,0 GHz Taktfrequenz. Auf Änderungen des Multiplikators und des eingestellten Frontside-Bus kommen wir später im Abschnitt „Übertakten“ zu sprechen.

Intel Core 2 Extreme QX9650 – CPU-Z

Ursprünglich sah die Revisions-Planung einen Rhythmus von A0 -> A1 -> B0 -> B1 vor, wovon letztere die finale Revision werden sollte. Im Zuge der letzten Monate hat man sich jedoch gegen die Revision B1 entschieden und stattdessen an der Revision C0 gearbeitet. Dabei gilt: Bei einer Änderung des Buchstaben werden nicht nur die Metallschichten, sondern auch die Siliziumschichten neu erstellt. Ändert sich nur die Zahl, bleibt das Silizium ohne Änderungen. Prinzipiell ist es somit möglich, vorab entsprechend viele Siliziumschichten zu produzieren, um dann mit neueren Metallschichten noch den Produktionsprozess und damit auch das Stepping zu verändern. Offenbar ließ der Zeitplan Intel genug Spielraum, um auch die Silizium-Schichten in letzter Instanz zu verbessern.

Penryn-Architektur

Die Penryn-Mikroarchitektur wird in den Bereichen Mobile, Desktop, Workstation (DP) und Server (MP) eingesetzt werden. Ihrem Einsatzgebiet entsprechend besitzen einige dieser Boliden besondere Funktionen. In einem solchen Fall wird explizit darauf hingewiesen. Als naher Verwandter der Core-Mikroarchitektur wird auf vererbte Besonderheiten im Vergleich zu Pentium 4 und Athlon 64 nicht gesondert eingegangen. Für ein Grundverständnis von Core und der Befehlsausführung innerhalb einer Out-of-Order Pipeline wird eine Betrachtung der folgenden Bildgalerie empfohlen.

Bildstrecke „Intel Core Mikroarchitektur (Merom) im Überblick“ (5 Bilder)
Intel Core Mikroarchitektur im Überblick

Doch nun zur Penryn-Familie: Nach dem derzeitigen Wissenstand sind Modelle mit zwei bis sechs Prozessorkernen geplant, die die folgenden Codenamen tragen.

Die Verbesserungen von Penryn konzentrieren sich in den Bereichen Out-of-Order Execution, Cache/Speicher und Power Management. Im Bereich Execution wurde die bisherige Radix-4- durch eine Radix-16-Dividierer/Quadratwurzeleinheit ersetzt. Außerdem beschleunigt die neue Super Shuffle Engine SSE-Befehle, die mit der Bitmanipulation zu tun haben. Des Weiteren unterstützten die drei vorhandenen SSE-Einheiten nun SSE4. Im Bereich Cache/Speicher wurde das Store Forwarding verbessert und die Assoziativität des L2-Caches erhöht. Das Power Management wurde um einen C6-State (Deep Power Down) und eine verbesserte Dynamic Acceleration Technology (EDAT) komplettiert. Darüber hinaus gibt es einige Optimierungen im Detail.

Ein Penryn-Chip (Dual Core) besitzt 410 Millionen Transistoren auf einer Fläche von 107 mm². Für den Aufbau einer Cache-Speicherzelle (SRAM) werden 6 Transistoren benötigt. Bei einem 6 MByte großen L2-Cache entfallen auf diesen 288 Mio. Transistoren (+Steuerlogik). Merom kam bei 4 MB L2-Cache auf insgesamt 291. Mio. Transistoren. Bei einer Transistordifferenz von 119 Mio. entfallen rund 100 Mio. auf den größeren Cache, die übrigen 19 Mio. schlagen sich in den neuen und verbesserten Funktionseinheiten nieder.

Penryn Die-Shot
Hallo, ich bin Penryn!

Das Front-End der Pipeline wurde nicht verändert. Bei 64-Bit-Befehlen ist daher Macro-Ops-Fusion auch weiterhin nicht aktiv. Intel hat eine Änderung des Front-Ends in Betracht gezogen, die benötigten Änderungen hätten jedoch zu viele Datenpfade in ihrer Breite verändert und weitere Anpassungen erfordert – zu viel für ein „Tick“.

Out of Order Execution: SSE4
Zur Beschleunigung von Multimedia-Anwendungen wartet Penryn mit SSE4.1 auf. Diese SIMD-Erweiterung beinhaltet 47 neue Befehle, die sich über verschiedene Bereiche erstrecken. Obwohl die neuen Befehle verschiedene Bereiche abdecken, sieht Intel eigentlich nur einen Bereich, in dem SSE4 für einen massiven Geschwindigkeitsschub sorgen kann: Videoencoding. Allgemeiner ausgedrückt: alle Algorithmen, die eine Motion Estimation durchführen müssen – Spiele gehören in aller Regel nicht dazu. Details zu SSE4 und Beispiele sind der Bildgalerie zu entnehmen.

Bildstrecke „Intel SSE4.1 als Teil von Penryn“ (15 Bilder)
SSE4.1-Erweiterung von Penryn

Als erste Applikation unterstützt DivX seit Version 6.6.1 die neuen Befehle. Je nach Einstellung sehen Intels Messungen einen Geschwindigkeitsvorteil von bis zu 63 Prozent. Unsere Ergebnisse in diesem Bereich sehen wir später. Weitere SSE4-Anwendungen sind bereits am Horizont: das Anfang November erwartete TMPGenc Xpress 4.4 wird sie unterstützen und soll ein Performanceplus von 40 Prozent erfahren. Für Adobe Premiere CS3 ist ein Patch in der Entwicklung, das Ende 2007 erscheinen soll und ein Speedup von bis zu 38 Prozent bewirkt. Auch Adobe Photoshop CS3 soll mit einem Update für die neuen Befehle gerüstet werden. Dieses erscheint voraussichtlich jedoch nicht im nächsten halben Jahr.

Out of Order Execution: Radix-16 Divider/Squareroot und Super Shuffle Engine
Bei Penryn hat Intel die Divisionseinheit gravierend beschleunigt. Während bisher ein Algorithmus genutzt wurde, der 2 Bits pro Arbeitsschritt betrachtet (Radix-4), wird man zukünftig mit Radix-16 gleich 4 Bits pro Takt verarbeiten. Diese Technik wird nicht nur sowohl bei Gleitkomma- (Floating-Point) als auch Integer-Operationen genutzt, sondern beschleunigt auch das Berechnen von Quadratwurzeln. Verglichen mit dem Core 2 Duo soll das Ergebnis eine im Durchschnitt doppelt so schnelle Verarbeitung sein. Von der Radix-16-Einheit profitieren alle Befehle (z.B DIVF, SQRT) die Divisionen oder Wurzelberechnungen auf verschiedenen Bitbreiten durchführen.

Penryn-Architektur Penryn-Architektur Penryn-Architektur Penryn-Architektur

Wie das Blockdiagramm zeigt, hat Intel Radix-16 in Form von zwei Radix-4-Einheiten implementiert, die auf unterschiedlichen Taktflanken (Double Pumped) arbeiten. Für ein weiteres Verständnis der Radix-Problematik sei auf Computer Architecture: A Quantitative Approach [3] (Hennessy, Patterson) oder z. B. IEEE 9040080 [4] verwiesen.

Mit der stetig wachsenden Anzahl an SSE-Befehlen (SIMD) hängt die Ausführungsgeschwindigkeit zunehmend davon ab, wie schnell die für SSE benötigten Datenvektoren aus 32- oder 64-Bit Paketen zusammengebaut oder die Ergebnisse nach ihrer Berechnung zerlegt und an die richtigen Stellen geschrieben werden können. Um diesen Prozess zu beschleunigen, hat Penryn die „Super Shuffle Engine“ die all diejenigen (bereits vorhandenen) SSE-Befehle beschleunigt, die für die Vorbereitung der Daten zuständig sind. Insbesondere die 32 SSSE3-Befehle (TNI), die mit Merom vorgestellt wurden, sollen von der neuen Einheit stark profitieren.

Cache/Speicher: Store Forwarding Misaligned Store und Sonstiges
Der Memory Order Buffer (MOB) kann Store Operationen an nicht ausgerichtete Adressen nun besser verwalten. Im Programmablauf kommt es sehr häufig vor, dass an eine Adresse im Speicher zuerst Daten geschrieben und kurze Zeit später erneut gelesen werden. Da Speicherzugriffe mit einer hohen Latenz verbunden sind und die Speicherbandbreite ebenfalls begrenzt ist, wird versucht, unnötige Zugriffe zu vermeiden. Im Idealfall reicht ein Store-Befehl sein Ergebnis direkt an einen später auf die selbe Adresse stattfinden Load weiter. Dieser Prozess wird als Store-Forwarding bezeichnet und vom MOB durchgeführt. Im Vergleich zu Merom kann der MOB diesen Vorgang nun auch bei unglücklich platzierten Operationen häufiger durchführen, was der effektiven Bandbreite zu Gute kommt.

Penryn-Architektur

Penryn besitzt pro Dual-Core einen gemeinsam nutzbaren und 6 MB großen L2-Cache (Quad-Core besteht aus zwei Dual-Core-Chips). Während die Assoziativität von Merom (Anzahl der Stellen, an denen ein Element mit einer bestimmten Adresse im Cache abgelegt werden kann) beim 4 MB-Modell noch 16-Way betrug, kann der in 45 nm gefertigte Enkel mit 24 Ways aufwarten. Dies verringert die Wahrscheinlichkeit von Datenkonflikten.

Ursprünglich waren für Penryn außerdem „Split Load Cache Enhancements“ geplant, mit Hilfe derer zwei unabhängige Zugriffe auf den Cache möglich gewesen wären. Das ist immer dann von Vorteil, wenn auf Daten (L1-Data-Cache) zugegriffen wird, die nicht korrekt an Adressen ausgerichtet sind. Überlappt ein Dateneintrag (kleiner 128 Bit) zwei Cache-Lines, so sind hierfür aktuell zwei getrennte Zugriffe nötig. Penryn hätte einen 128-Bit-Zugriff aufteilen – wahrscheinlich in zwei 64-Bit-Zugriffe – und so bei „glücklich unausgerichteten“ Daten in einem Takt den kompletten Informationssatz in die Arbeitsregister laden können. In den jüngsten Präsentationen ist von diesem Feature nicht mehr die Rede. Eine Stellungnahme der Pressestelle steht noch aus.

Power Management: Deep Power Down (C6)
Speziell für die kommenden Notebook-Prozessoren der Penryn-Generation hat Intel zwei Innovationen in der Hinterhand. Die neue Deep Power Down Technology (C6) schaltet im Idle-Zustand nahezu den kompletten Prozessor ab hilft somit erheblich Strom zu sparen. Es wird ein Chipsatz vorausgesetzt, der C6 unterstützt. Sowohl Santa Rosa (GM/PM965) als auch die 2008 erscheinende Montevina-Plattform sind hierfür vorbereitet.

Penryn-Architektur
Penryn-Architektur Penryn-Architektur Penryn-Architektur Penryn-Architektur

Deep Power Down (DPD) funktioniert folgendermaßen: Ist der Rechner unbelastet (Idle), führen heutige Betriebssysteme den mwait-Befehl aus. Dieser Befehl zusammen mit einem Paramater sagt dem Prozessor, welchen Stromsparzustand er bis zum nächsten Interrupt (dem Signal zum Aufwachen) einnehmen soll. Lautet der Parameter C6, beginnt eine längere Ereigniskette (siehe Bild), an dessen Ende der Prozessor seinen aktuellen Zustand in einem 8 kB großen SRAM-Speicher sichert. Die Spannung kann nun zu allen Bereichen bis auf die Mini-Speicher abgeschaltet werden. Die Restspannung beträgt Laut Intel 0,3 Volt und der Prozessor verbraucht nur noch 100 mW. Die Rückkehr in den aktiven C0-State (Prozessor rechnet) kommt einem Reset gleich. Im Vergleich zum Warmstart werden jedoch die Informationen aus den 8 kB SRAMs zurückgespielt.

Aufgrund der langwierigen Prozedur und der Spannungsanpassung macht C6 nur Sinn, wenn der Prozessor mindestens 4-5 ms schlafen kann, bevor er vom Chipsatz aufgeweckt wird (z.B. Timer-Interrupt, Keyboard-Interrupt etc.). Bei geöffneten Windows Media Player erhöht Windows automatisch die Interrupt-Refrequenz von 16 auf eine 1 ms. Damit C6 in diesem Fall nicht zum Nachteil wird (das Betriebssystem kennt C6 nicht explizit), wurde ein Gedächtnis implementiert. Hat sich C6 die letzten Male nicht gelohnt, tritt Auto-demote in Kraft und die Anforderung des Betriebssystems wird beispielsweise mit C4 überschreiben.

Power Management: Enhanced Dynamic Acceleration Technology (EDAT)
Die „Dynamic Acceleration Technology“ (DAT) (erstmals bei der Santa-Rosa-Plattform und Merom-Prozessoren dabei) wird Penryn in einer erweiterten Variante unterstützen. Zur Erklärung: DAT ist eine Technologie, bei der ein Prozessorkern eines Dual-Core-Chips automatisch mit dem nächst höheren Multiplikator betrieben wird, sofern der andere in einem Stromsparzustand (z. B. CC3) ist. Als Neuerung kann EDAT nun auch dann aktiv sein, wenn kurzzeitig beide Prozessoren aktiv sind. Eine Logik entscheidet abhängig von den vergangenen Aktivitäten des Idle-Kerns, wie zu verfahren ist. Diese Hysterese sorgt für eine Performance-Steigerung von bis zu 7 Prozent.

Penryn-Architektur Penryn-Architektur Penryn-Architektur

Das Feature wird weiterhin exklusiv für die Notebook-Prozessoren bleiben. Die Taktfrequenz bei diesen Prozessoren wird nicht danach gewählt, was technisch möglich, sondern was von der Thermal Design Power (TDP), also dem Stromverbrauch, vorgesehen ist. Dadurch besitzen Mobile-Chips einen gewissen Taktspielraum, der bei Desktop-Prozessoren von vornherein ausgenutzt wird.

Power Management: Core C3 (CC3) und weitere Detailverbesserungen
Für Server von Bedeutung, jedoch bei allen Produkten verfügbar, soll Penryn auch bei Virtuellen Maschinen punkten. Mit Hilfe von „VMCS state management caching“ können Befehle zum Betreten und Verlassen einer Virtuellen Maschine (VMentry, VMexit) wesentlich schneller ausgeführt werden, da Sicherheitsanfragen ggf. aus dem State Cache abgefragt werden können. Der Prozess-Wechsel (Task Switch) bei virtuellen Maschinen soll um 25 bis 75 Prozent schneller durchgeführt werden können.

Der zunehmenden Anzahl an Ereignissen und Geräten trägt Intel mit zwei Detailverbesserungen Rechnung: das Maskieren von Interrupts über die Befehle CLI (Clear Interrupts) und TSI (Transparent System Interrupt) erfolgt nun doppelt so schnell. Die bei Datenbank-Servern häufig benutzte Zeitabfrage mitteils RDTSC (Read Time Stamp Counter) wurde um den gleichen Faktor beschleunigt.

Penryn-Architektur Penryn-Architektur Penryn-Architektur
Penryn-Architektur Penryn-Architektur

Exklusiv für Wolfdale-DP, Harpertown und Dunnington besitzt die Penryn-Architektur einen Core-C3-Zustand. Bisher unterstützen die Desktop- und Server-Prozessoren die Betriebsmodi C0 (Active), C1/C1E (Halt State, Enhanced Halt State) und C2 (Stop Grant, selten genutzt, da vom Chipsatz anzuordnen), während die Mobil-Prozessoren auf Merom-Basis darüber hinaus C3 (Deep Sleep) und C4 (Deeper Sleep) bieten.

Das Problem bei Servern: Es muss Datenkohärenz sichergestellt werden. Dies erreicht man durch Snooping (Schnüffeln). Hierbei lauschen alle Kerne auf den Speicherbussen und greifen ein, sofern in ihrem Cache ein Datum liegt, das neuer als das im Speicher ist (bzw. als exklusiv markiert war, MESI-Protokoll). L1-Cache-Snooping kostet bei Idle-Prozessoren unnötig Strom und ist leicht zu vermeiden, wenn einzelne Kerne in den C3 (daher der Name CC3) wechseln. Im CC3-Zustand wird der L1-Cache geleert und abgeschaltet (Sleep-Transistor). Als Nebeneffekt wird L1-Cache-Snooping für diesen Kern unterbunden. Der Stromverbrauch lässt sich hiermit um bis zu 16 Prozent senken.

45 nm Fertigung

Einmal mehr ist es die Fertigungstechnologie, die Intel einen gehörigen Vorteil verschafft. Nach dem Reinfall mit 90-nm-Strukturen – Stromverbrauch und Wärmeabgabe waren sehr problematisch – konnte der seit Ende 2005 eingesetzte P1264-Herstellungsprozess (65 nm) die Produktionskosten senken und wusste beim Stromverbrauch eine kontinuierliche Verbesserung einzuleiten. Selbst die als verschwenderisch bekannte Netburst-Architektur des Pentium 4 konnte mit dem in 65 nm gefertigten Presler (bzw. Cedar Mill als Single-Core-Vertreter) gezügelt werden [5]. Mit P1266 – so die korrekte Bezeichnung für die 45-nm-Lithographie von Intel – soll der Zauber weiter gehen.

ProzessnameP856P858Px60P1262P1264P1266P1268*P1270*P1272*
Produktionsstart1997199920012003/420052007200920112013
Prozess (nm)250180130906545322216
Lichtquelle (nm)2482482481931931931931313
Wafergröße (mm)200200200/300300300300300300?
Interconnects
MaterialAlAlCuCuCuCuCu??
Lagen566789???
KanalmaterialSiSiSiStrained
Si
Strained
Si
Strained
Si
Strained
Si
Strained
Si
?
Gate
KontaktmaterialPoly-SiPoly-SiPoly-SiPoly-SiPoly-SiMetallMetallMetall?
DielektrikumSiO2SiO2SiO2SiO2SiO2High-kHigh-kHigk-k?
Dielektrikumdicke (nm)4,082,01,51,21,2????
Länge ( nm)2001307050352516???
SRAM-Größe (µm²)10,65,62,091,000,5700,3460,182??
* Angaben können sich Jederzeit ändern

Intel Siliziumtechnologie – Überblick

Die Tabelle zeigt einen Überblick über die bei Intel eingesetzten Prozesstechnologien der vergangenen zehn Jahre. Moores Law folge leistend, wurden die Grundbausteine eines jeden Prozessors, der (MOS-)Transistor, kontinuierlich verkleinert, um eine Verdopplung der Transistoranzahl alle zwei Jahre zu ermöglichen. Für einen kleineren Transistor müssen neben der Transistorfläche verschiedene andere Parameter angepasst werden. Bereits mit dem Anfang 2004 etwas verspätet eingeführten 90-nm-Herstellungsprozess wurde dabei die Dicke des Gate-Oxids, eine Isolatorschicht im Transistor, die das Gate elektrisch vom Kanal trennt, zu dünn, um seiner Aufgabe nachzukommen. Hohe Leckströme und damit ein hoher Stromverbrauch waren die Folge. Beim 65 nm wurde daher zum Leidtragen der Transistoreigenschaften auf eine weitere Reduzierung verzichtet. Unglücklicherweise war bei der nächst kleineren Technologiestufe ein solches Vorgehen nicht mehr möglich.

Das Problem: Seit den 1960ern hat sich die grundlegende Bauweise der Transistoren nicht geändert. Bei einem Wechsel zu 45-nm-Strukturen waren daher tief greifende Veränderungen erforderlich. Die Forschungsarbeiten in diesem Bereich haben bereits Mitte der 1990er Jahre begonnen. Des Problems Lösung: ein völlig neues High-k-Gate-Material und eine auf Metall basierte Gate-Elektrode. Zwei neue Materialien, die den kompletten Transistorherstellungsprozess auf den Kopf stellen sollten.

Die 45-nm-Technologie kommt erstmalig bei der Penryn-Mikroarchitektur zum Einsatz. Insgesamt hat Intel derzeit 15 Produkte auf Basis von 45 nm in der Entwicklung, die sich über die Produktbereiche Mobile, Desktop, Workstation und Enterprise (Server) erstrecken. Es folgt eine Vorstellung von P1266 im Detail.

Details
Mit P1266 kann Intel ohne kostspielige Neuausrüstung der Fabs, d. h. unter Einsatz bestehender Tools und der Benutzung von Lichtquellen mit 193-nm-Wellenlänge, die Transistordichte verdoppeln oder aber die Chipfläche der Prozessoren reduzieren und somit die Stückzahlen drastisch steigern. Die für einen Schaltvorgang benötigte Energie – bei CMOS als Schaltungstechnik fließt aufgrund der komplementär arbeitenden N- und P-Kanal-Transistoren ausschließlich beim Zustandswechsel (z. B. von 0 auf 1) ein Strom – konnte um 30 Prozent reduziert werden. Die Schaltgeschwindigkeit konnte um 20 Prozent gesteigert werden. Damit klettert auch die mögliche Taktfrequenz der Gesamtschaltung nach oben. Gleichfalls können mit dieser Verbesserung, ohne am Takt zu drehen, unerwünschte parasitäre Ströme von Source nach Drain (den beiden Anschlüssen des „Schalters“) um das fünffache abgesenkt werden. Das Leck unter dem Gate ist um eine Zehnerpotenz geschrumpft (im Rahmen von Forschungsveröffentlichungen mit größeren Strukturbreiten war noch von Faktor 100 die Rede).

P1266 – High-K Metal Gate Transistor

Die 20 Prozent höhere Schaltgeschwindigkeit kann nicht nach Belieben gegen die um den Faktor 5 reduzierten Leckströme (Ioff) ausgetauscht werden. Vielmehr handelt es sich hierbei um einen Paramater (Threshold-Spannung) die bei der Prozessorproduktion festgelegt wird. Mit der Wahl dieser Spannung bewegt man sich auf einer Geraden die den Zusammenhang zwischen Transistorgeschwindigkeit und Leckströme aufzeigt (siehe Bild). Die 45-nm-Fertigung der Desktop-/Server-Prozessoren wurden auf Geschwindigkeit ausgelegt, die der Notebook-Prozessoren auf Stromsparen.

P1266 – 45 nm High-k Performance Power Benefits

Die große Innovation und die Ursache für die geringeren Leckströme und höhere Performance von P1266 ist der Einsatz eines neuen Gate-Materials und eines neuen Gate-Isolators. Beim Gate-Oxid setzt Intel auf ein nicht näher bekanntes Material auf Hafnium-Basis das gegenüber dem zuletzt nur noch 1,2 nm dicken Siliziumoxid (5 Atomlagen), das Tunneln der Elektronen wesentlich effektiver behindert. In ersten Forschungspublikationen aus dem November 2003 wurde mit einer Dicke von 3,0 nm gearbeitet. Seitdem hat Intel keine neuen Angaben gemacht. Klar ist nur, dass es dicker als 1,2 nm ist und dadurch die Leckströme stark reduziert, ohne dabei die Transistorperformance zu beeinträchtigen.

P1266 – Gate Oxid Dicke und Leakage

Für die Geschwindigkeit eines Transistors ist die Oxidkapazität eine ausschlaggebende Größe. Sie gibt an, wie viele Ladungsträger bei einer am Gate anliegenden Spannung im Kanal für einen Stromtransport zur Verfügung stehen. Bei einer konstanten Dielektrizitätskonstante k (im deutschen eigentlich Epsilon) muss die Oxid-Dicke zu Gunsten schneller Transistoren jedoch kleiner werden. Denn je dünner, desto größer die Oxidkapazität und damit auch die gegenüberliegende Inversionskapazität im Kanal zwischen Source und Drain. Je größer diese Kapazität, desto größer ist der Strom, der durch den Transistor fließen kann und desto schneller kann er (an ihn angeschlossene Gates) schalten. Das bisher eingesetzte Siliziumdioxid hat eine Dielektrizitätskonstante von 3,9. Der Wert des neuen Materials ist nicht bekannt, allerdings hat Intel 2002 einige Messwerte für die Größe der Oxidkapazität bekannt gegeben.

P1266 – Forschungsergebnisse für High-k Gate Dielektrika

Das nun auf Metall basierte Gate war im Zuge der Umstellung auf High-k nötig, da auf Hafniumverbindungen basierende Dielektrika und das bisher eingesetzte Polysilizium nicht miteinander harmonieren. Genauer gesagt hat der Transistor unter Verwendung von polykristallinem Silizium schlechtere Eigenschaften gezeigt als sein Vorgänger. Das Metal-Gate hat jedoch einen gravierenden Nachteil: es hält den Temperaturen bei den Dotierungsprozessen nicht stand. Damit kann das Gate nicht mehr als erste Struktur (Gate-First) erstellt werden. Die Self-Alignment-Eigenschaften für die Dotierung von Source und Drain gehen verloren und das Gate folgt nun im letzten Technologieschritt auf Siliziumebene (Gate-Last). Welche Materialien Intel genau einsetzt und wie der Gate-Last-Prozess funktioniert, ist noch geheim, da das Unternehmen hier einen besonderen Wettbewerbsvorteil vermutet. Es wird davon ausgegangen, dass AMD zwar bereits 2008 ebenfalls auf ein High-k-Gateoxid setzten wird, ein Metall-Gate allerdings erst wesentlich später Einzug halten wird.

Mit dem 45-nm-Prozess steht gleichermaßen eine Technologie-Bibliothek bereit, die sämtliche Standard- (Inverter, NAND, NOR mit 2 oder wesentlich mehr Dateneingängen) und auch Komplexgatter (z. B. Multiplexer) beinhaltet, von dem jeder Transistor per Hand gezeichnet und auf optimale Leistung hin bearbeitet wurde (und das mit Programmen, die überaus unhandlich in der Bedienung sind). Hierin besteht – neben dem Beherrschen einer jeden Lithographie-Stufe – die eigentliche Kunst. So führt beispielsweise AMDs 65-nm-Prozess im Vergleich zu Intels P1264 zu einem Cache mit größerem Platzbedarf.

Chipsatz-Support

Wer auf die Frage „Unterstützt mein Chipsatz die neuen 45 nm-Prozessoren?“ ein klares „Ja!“ hören möchte, setzt vorzugsweise auf ein Mainboard mit einem Intel-Chipsatz aus der 3er Serie (X38, P35, G35, Q35, G33, Q33, P31 und G31). Hier unterstützen alle Chipsätze den Einsatz von Intels neusten Sprössling und bieten – mit Ausnahme der Value-Chips P31 und G31 – Support für einen 1.333 MHz schnellen Frontside-Bus. Einzig die Extreme Edition bleibt den Performance-Chipsätzen P35, X38 und in Zukunft dem X48 vorbehalten. Die Unterstützung für die Vier-Kern-Variante „Yorkfield“ auf Boards mit G31- oder P31-Chipsatz wird derzeit noch überprüft.

Asus Maximus Formula mit Intel X38 Chipsatz

IntelX48P45G45Q4xX38P35G35Q35G33Q33P31G31
Codename
Eaglelake-Familie
Bearlake-Familie
CPU-Unterstützung
C2E QX9770JaNeinNeinNeinNeinNeinNeinNeinNeinNeinNeinNein
C2E QX9650JaJaJaNeinJaJaNeinNeinNeinNeinNeinNein
C2Q Q9550JaJaJaJaJaJaJaJaJaJa??
C2Q Q9450JaJaJaJaJaJaJaJaJaJa??
C2Q Q9300JaJaJaJaJaJaJaJaJaJa??
C2D E8500JaJaJaJaJaJaJaJaJaJaJaJa
C2D E8400JaJaJaJaJaJaJaJaJaJaJaJa
C2D E8200JaJaJaJaJaJaJaJaJaJaJaJa
FSB-Unterstützung
FSB 1600Ja???NeinNeinNeinNeinNeinNeinNeinNein
FSB 1333Ja???JaJaJaJaJaJaNeinNein
FSB 1066Ja???JaJaJaJaJaJaJaJa
FSB 800Ja???JaJaJaJaJaJaJaJa
RAM-Unterstützung
DDR3-1600Ja???NeinNeinNeinNeinNeinNeinNeinNein
DDR3-1333Ja???JaNeinNeinNeinNeinNeinNeinNein
DDR3-1066Ja???JaJaNeinNeinJaNeinNeinNein
DDR3-800Ja???JaJaNeinNeinJaNeinNeinNein
DDR2-800Nein???JaJaJaJaJaJaJaJa
DDR2-667Nein???JaJaJaJaJaJaJaJa
Features
Grafik--??--GMA X3500GMA 3100GMA 3100GMA 3100-GMA 3100
PCIe 2.0Ja???JaNeinNeinNeinNeinNeinNeinNein
PCIe 1.1Ja???JaNeinNeinNeinNeinNeinNeinNein
*? = noch nicht entschieden
Bildstrecke „Intel Bearlake Präsentation“ (19 Bilder)
Intel Bearlake01

Bei den Angaben handelt es sich um offizielle Informationen seitens Intel. In der Realität gibt es jedoch je nach Boardhersteller graduelle Unterschiede, sodass sich die Unterstützung von Board zu Board unterscheiden kann. Bereits im Juli hatte unter anderem Asus eine Liste veröffentlicht [6], welche vor allem den Besitzern von Mainboards mit Intels P965, Nvidias nForce 650/680i oder gar dem zwei Jahre alten Intel-i975X-Chipsatz (Asus P5WDH) ein Lächeln ins Gesicht gezaubert haben dürfte. Auch Gigabyte hat eine offizielle Liste online gestellt [7], welche jedoch nur Mainboards mit den oben genannten Chipsätzen aus Intels 3er Serie enthält. In Bezug auf die etwas kleineren Chipschmieden VIA und SiS gibt es bislang noch relativ wenig Informationen über den entsprechenden 45-nm-Support. Im Zweifelsfall lohnt sich ein Blick auf die Homepage des jeweiligen Mainboard-Herstellers, ob nicht vielleicht BIOS-Updates oder Kompatibilitätslisten für das meist teuer erkaufte Mainboard verfügbar sind.

Bildstrecke „Intel X38 (Bearlake-X)“ (14 Bilder)
Intel Bearlake-Chipsätze im Überblick

Testsystem

Um einen möglichst fairen und realitätsnahen Vergleich zwischen den Kontrahenten zu ermöglichen, wurden sämtliche Tests in einem geschlossenen Midi-Tower mit vollständiger Lüfterbestückung (ein Lüfter rückseitig saugend, einer beim Festplattenkäfig seitlich blasend) durchgeführt, um so auch auf thermische Probleme bei den Boliden aufmerksam zu werden.

Im Zuge der neuen Prozessorgeneration haben wir das komplette Testsystem aufgewertet. Benchmarks finden fortan unter einem frisch installierten Windows Vista Ultimate in der 32-Bit-Version statt. Doch nicht nur bei der Software wurde der Grundstein für weitere Tests gelegt, auch die Hardware hat ein umfangreiches Update erfahren. Um aktuelle und auch kommende Prozessoren voll auszureizen, haben wir uns bei dem Intel-Testsystem für ein Mainboard mit X38-Chipsatz entschieden, dass mit 2 GByte DDR3-Speicher bestückt wird. In Zusammenarbeit mit einer Radeon HD 2900 XT stellt dieses System für die kommenden Monate die Referenz dar. Im gleichen Atemzug wurden natürlich alle Treiber aktualisiert und die Benchmarks auf Vordermann gebracht.

Als Prozessoren kommt neben dem neuen Core 2 Extreme QX9650 auf Basis des Yorkfield-Kerns dessen Vorgänger, der QX6850 mit Kentsfield-Kern im G0-Stepping, zum Einsatz. Beide Prozessoren setzen auf 333 MHz Frontside-Bus, weshalb DDR3-1333 als Arbeitsspeicher die Aufgaben der Prozessoren unterstützt. Für den Vergleich zum Einsteigerbereich in den Markt der vier Kerne wurde ein Q6600 mit 2,40 GHz im G0-Stepping mit DDR3-1066 eingesetzt. Ebenfalls, als höchst getakteter Dual-Core-Ableger von Intel, wird das alte Schlachtross X6800 mit DDR3-1066-Speicher seine Werte beisteuern. Für den Vergleich nach unten runden wir den Test mit einem Core 2 Duo E6600 ab.

Benchmarks

Alle getätigten Benchmarks wurden unter Windows Vista in einer Auflösung von 1280 x 1024 Bildpunkten durchgeführt. Je nach Test, vor allem bei Spielen, kann es jedoch zu leichten Abweichungen in den Auflösungen und Grafikeinstellungen kommen. Wie genau diese aussehen wurde an Ort und Stelle der Beschreibung im Text erwähnt.

Viele der von uns ausgewählten Programme sind frei verfügbar, so dass man die Tests am heimischen PC nachvollziehen kann. Anbei die genauen Versionsnummern bzw. Programmvarianten, die wir für den Test ausgewählt haben.

SiSoft Sandra XIIc

Egal ob es um Mainboard, Speicher, Festplatte, Peripherie, Steckkarten, Prozessor, Netzwerk, Schnittstellen BIOS, Windows oder DirectX geht, SiSoft Sandra hat umfangreiche Antworten parat. Für einen Großteil der Hardware im PC gibt es zudem Benchmark-Tests, mit denen sich der PC auf seine Performance im Vergleich zu einigen Referenz-Rechnern testen lässt. All diese Werte sind jedoch fast ausschließlich rein theoretischer Natur und haben wenig Bezug zur Praxis, jedoch lassen sich Prozessoren in ihren theoretischen Möglichkeiten gut vergleichen.

Download: SiSoft Sandra [8]

Sandra XIIc CPU-Arithmetik Drystone

Core 2 Extreme QX9650
55.349
Core 2 Extreme QX6850
55.260
Core 2 Quad Q6600
44.103
Core 2 Extreme X6800
27.013
Core 2 Duo E6600
22.099
Angaben in MIPS

Sandra XIIc CPU-Arithmetik Whetstone

Core 2 Extreme QX9650
44.295
Core 2 Extreme QX6850
38.701
Core 2 Quad Q6600
30.848
Core 2 Extreme X6800
18.851
Core 2 Duo E6600
15.434
Angaben in MFLOPS

Sandra XIIc CPU-Multimedia Fließkomma

Core 2 Extreme QX9650
181.148
Core 2 Extreme QX6850
180.226
Core 2 Quad Q6600
143.816
Core 2 Extreme X6800
88.293
Core 2 Duo E6600
72.236
Angaben in Instruktionen pro Sekunde (it/s)

Sandra XIIc CPU-Multimedia Integer

Core 2 Extreme QX9650
390.236
Hinweis: SSE4 optimiert
Core 2 Extreme QX6850
331.891
Core 2 Quad Q6600
264.713
Core 2 Extreme X6800
162.536
Core 2 Duo E6600
132.922
Angaben in Instruktionen pro Sekunde (it/s)

Sandra XIIc Speicher Fließkomma

Core 2 Extreme QX9650
7.353
Core 2 Extreme QX6850
6.889
Core 2 Extreme X6800
5.665
Core 2 Quad Q6600
5.599
Core 2 Duo E6600
5.510
Angaben in Megabyte pro Sekunde (MB/s)

Sandra XIIc Speicher Integer

Core 2 Extreme QX9650
7.344
Core 2 Extreme QX6850
6.882
Core 2 Extreme X6800
5.662
Core 2 Quad Q6600
5.591
Core 2 Duo E6600
5.531
Angaben in Megabyte pro Sekunde (MB/s)

Super PI

Super Pi ist eine recht simple und vor allem kleine Software, mit der PI auf mehrere Millionen Stellen nach dem Komma berechnet wird. Die dafür benötigte Zeit wird gemessen und kann für Leistungsvergleiche von Prozessoren verwendet werden. Wir testen mit einer modifizierten Version 1.5 XS den Standard-Test „1M“, welches auch in unserem Forum von vielen Lesern praktiziert wird [9].

Download: Super Pi [10]

Super PI 1M

Core 2 Extreme QX9650
15,523
Core 2 Extreme QX6850
17,160
Core 2 Extreme X6800
17,753
Core 2 Quad Q6600
21,388
Core 2 Duo E6600
21,534
Angaben in Sekunden

Sciencemark

In einem weiteren Test der Bandbreite muss sich der Arbeitsspeicher, das dazugehörige Mainboard und der Prozessor dem Tool Sciencemark 2.0 stellen. Dieses ermittelt nicht nur die Bandbreite, sondern auch die Latenz des Arbeitsspeichers. Weiterhin kann der Cache des Prozessors einer Überprüfung unterzogen werden.

Sciencemark 2.0 - Speicherbandbreite

Core 2 Extreme QX9650
7.012
Core 2 Extreme QX6850
6.427
Core 2 Extreme X6800
5.229
Core 2 Duo E6600
5.216
Core 2 Quad Q6600
5.157
Angaben in Megabyte pro Sekunde (MB/s)

Sciencemark 2.0 - Speicherlatenz

Core 2 Quad Q6600
109
Core 2 Duo E6600
112
Core 2 Extreme QX6850
119
Core 2 Extreme QX9650
125
Core 2 Extreme X6800
127
Angaben in Taktzyklen

Everest

Das Bild der Speicherbegutachtung runden wir mit dem Programm Everest in Version 4.20 ab. Dieses Tool verfügt über einige integrierte Benchmark-Funktionen und Tools, die den Rechner komplett auslasten und auf Fehler überprüfen. Wir haben Everest neben der Temperaturmessung genutzt, um den Speicherbenchmark in zwei Bildern als Vergleich vom QX6850 zum neuen Prozessor QX9650 darzulegen.

Download: Everest [11]

Everest-Speicherbenchmark mit dem QX9650
Mouseover zeigt die Unterschiede zwischen QX9650 und QX6850

PCMark05

Die PCMark-Suite bietet dem Benutzer seit dem Juni 2005 eine ausführliche Übersicht über die Leistungsfähigkeit der im PC verbauten Komponenten wie Prozessor, Speicher, Grafikkarte und Festplatte. Dazu werden verschiedene Einzeltest durchgeführt, deren Einzelergebnisse zum Schluss als Gesamtwert aufgerechnet werden. Einige Tests sind dabei immer noch hochaktuell, gerade wenn es um syncrone Arbeiten geht. Deshalb findet sich auch in unserem neuen Benchmarkparcour der vermeintlich angestaubte PCMark05 wieder.

Download: PCMark05 [12]

PCMark05 Gesamt

Core 2 Extreme QX9650
9.930
Core 2 Extreme QX6850
9.724
Core 2 Quad Q6600
8.530
Core 2 Extreme X6800
8.387
Core 2 Duo E6600
7.229
Angaben in Punkten

PCMark05 Prozessortest

Core 2 Extreme QX9650
9.642
Core 2 Extreme QX6850
9.586
Core 2 Quad Q6600
7.690
Core 2 Extreme X6800
7.151
Core 2 Duo E6600
6.100
Angaben in Punkten

PCMark05 Speichertest

Core 2 Extreme QX9650
6.759
Core 2 Extreme QX6850
6.520
Core 2 Extreme X6800
5.900
Core 2 Quad Q6600
5.328
Core 2 Duo E6600
5.300
Angaben in Punkten

PCMark05 Grafikkartentest

Core 2 Extreme QX9650
14.975
Core 2 Extreme QX6850
14.291
Core 2 Extreme X6800
14.229
Core 2 Duo E6600
13.965
Core 2 Quad Q6600
13.885
Angaben in Punkten

PCMark Vantage

Etwas über zwei Jahre nach der Vorstellung des PCMark05, dem Futuremark-Benchmark zur Beurteilung der Leistung eines Rechners in verschiedensten Anwendungsszenarien, stellt der finnische Hersteller den PCMark07, „PCMark Vantage“ genannt, vor. Einmal mehr sollen Privatanwender und Firmen anhand eines kompakten Programmes in der Lage sein, die Leistung eines Rechners auf Grundlage einer breiten Basis an Tests möglichst objektiv bewerten zu können. Alle Details zu dem neuen Benchmark stellt unser Artikel zu PCMark Vantage [13] bereit. Die größte Hürde in den Systemanforderungen des PCMark Vantage ist das Betriebssystem, denn die Benchmarkversion des Jahres 2007 verrichtet nur noch auf Windows Vista ihren Dienst – einen Grund mehr, unser neues Testsystem mit Windows Vista einer gründlichen Prüfung zu unterziehen.

Download: PCMark Vantage [14]

PCMark Vantage – PCMark Suite

Core 2 Extreme QX9650
5.876
Core 2 Extreme QX6850
5.765
Core 2 Quad Q6600
4.796
Core 2 Extreme X6800
4.451
Core 2 Duo E6600
3.885
Angaben in Punkten

PCMark Vantage – Memories Suite

Core 2 Extreme QX9650
4.318
Core 2 Extreme QX6850
4.184
Core 2 Quad Q6600
3.780
Core 2 Extreme X6800
3.628
Core 2 Duo E6600
3.315
Angaben in Punkten

PCMark Vantage – Gaming Suite

Core 2 Extreme QX9650
5.508
Core 2 Extreme QX6850
5.364
Core 2 Quad Q6600
4.871
Core 2 Extreme X6800
4.203
Core 2 Duo E6600
3.840
Angaben in Punkten

System & Rendering

7-Zip

Die Datenkompressionssoftware 7-Zip hat in den vergangenen Jahren stark an Popularität gewonnen. Hierzu trug nicht nur die im Vergleich zu anderen Packern bessere Kompressionsrate bei ZIP und GZIP oder dem hauseigenen Format 7z bei. Im Vergleich zur Konkurrenz ist die Software kostenlos und werbefrei und steht darüber hinaus in einer 64-Bit-Version zur Verfügung. Wir testen mit der seit bereits Mai 2006 aktuellen finalen Version 4.42. Es wird der Ordner von Anno 1701 in höchster Qualitätsstufe komprimiert.

Download: 7-Zip [15]

7-Zip 4.42

Core 2 Extreme QX9650
03:53
Core 2 Extreme QX6850
04:08
Core 2 Extreme X6800
04:45
Core 2 Quad Q6600
04:54
Core 2 Duo E6600
05:02
Angaben in Minuten, Sekunden

WinRAR

Obwohl 7-Zip kostenlos und in Sachen Kompressionsrate vielen Konkurrenten überlegen ist, kommt die Software in Sachen Verbreitung bei Weitem nicht an WinRAR heran, das in Form von RAR seit DOS und Windows 3.1 verfügbar ist. Mittlerweile ist WinRAR zwar in der Lage neben rar auch andere Formate wie beispielsweise 7z zu entpacken, zum Komprimieren stehen allerdings nur rar und zip zur Verfügung. Seit WinRAR 3.60 [16] bietet nun auch der beliebte Packer Multi-Core-Support. Anzumerken ist dem Programm, dass mit jeder neuen Version und schnelleren Prozessoren alles ein klein wenig schneller und besser komprimiert wird, so dass der Vorsprung von 7-Zip deutlich geringer geworden ist. Das Programm muss (wie 7-Zip) den Programmordner von Anno 1701 bei maximalen Qualitätseinstellungen in das Format .rar komprimieren.

Download: WinRAR [17]

WinRAR 3.71

 RAR:
Core 2 Extreme QX9650
04:09
Core 2 Extreme QX6850
04:26
Core 2 Quad Q6600
05:23
Core 2 Extreme X6800
07:13
Core 2 Duo E6600
07:54
Angaben in Minuten, Sekunden

Cinema4D

Das populäre, aus Deutschland stammende Maxon Cinema4D ist in unserem Benchmarkparcours in Form von Cinebench 2003 und deren Nachfolger Cinebench R10 vertreten. Die Software nutzt zum Raytracing bis zu 16 Prozessoren und profitiert damit von allen derzeit am Markt erhältlichen Desktop-Prozessoren von AMD oder Intel. In unserem Test präsentieren wir sowohl die altbekannte Variante von Cinebench 2003, als auch die Mitte 2007 veröffentlichte Version Cinebench R10. Wie üblich zeigen die Diagramme einerseits den Test mit nur einem Prozessorkern, zum anderen auch den Multi-Core-Test.

Download: Cinebench [18]

Maxon Cinebench 2003

 Rendering (1 CPU):
Core 2 Extreme QX9650
562
Core 2 Extreme QX6850
524
Core 2 Extreme X6800
508
Core 2 Quad Q6600
418
Core 2 Duo E6600
415
 Rendering (x CPU):
Core 2 Extreme QX9650
1.846
Core 2 Extreme QX6850
1.687
Core 2 Quad Q6600
1.341
Core 2 Extreme X6800
940
Core 2 Duo E6600
773
Angaben in Punkten

Maxon Cinebench R10

 Rendering (1 CPU):
Core 2 Extreme QX9650
3.305
Core 2 Extreme QX6850
3.077
Core 2 Extreme X6800
2.998
Core 2 Duo E6600
2.458
Core 2 Quad Q6600
2.452
 Rendering (x CPU):
Core 2 Extreme QX9650
11.820
Core 2 Extreme QX6850
10.942
Core 2 Quad Q6600
8.716
Core 2 Extreme X6800
5.700
Core 2 Duo E6600
4.698
Angaben in Punkten

Lightwave

NewTek Lightwave 3D [19] kann auf eine lange Geschichte zurückblicken und wurde unter anderem für Spezialeffekte bei Kinofilmen wie Jurassic Park, Titanic, X-Men, Spiderman oder Star Wars: Angriff der Klonkrieger eingesetzt. Auch bei TV-Serien wie Stargate SG-1 wird auf die Fähigkeiten der Raytracing-Software zurückgegriffen. Die offizielle Liste an Filmen [20] ist eindrucksvoller und vor allem länger. Auch bei Computerspielen [21] wie Quake 4 oder Serious Sam 2 führte kein Weg an Lightwave vorbei.

Newtek Lightwave 8.5

 2 Threads:
Core 2 Extreme QX9650
01:01
Core 2 Extreme QX6850
01:04
Core 2 Extreme X6800
01:07
Core 2 Quad Q6600
01:20
Core 2 Duo E6600
01:21
 4 Threads:
Core 2 Extreme QX9650
00:36
Core 2 Extreme QX6850
00:38
Core 2 Quad Q6600
00:47
Core 2 Extreme X6800
00:51
Core 2 Duo E6600
01:02
 8 Threads:
Core 2 Extreme QX9650
00:30
Core 2 Extreme QX6850
00:31
Core 2 Quad Q6600
00:38
Core 2 Extreme X6800
00:47
Core 2 Duo E6600
00:57
Angaben in Minuten, Sekunden

Videoencoding

Nero Recode

Auch wenn sich mit der Blu-ray Disc (BD) und High Density-DVD (HD-DVD) bereits die Nachfolger der DVD für den Startschuss rüsten, wird die marktbeherrschende Stellung der DVD auf absehbare Zeit nicht gebrochen werden. Dafür wird nicht zuletzt die breite Basis an installierten DVD-Playern und -Recodern sowie der zum Start hohe Preis der Neulinge sorgen.

Die DVD ist und bleibt damit vorerst das Medium der ersten Wahl, insbesondere wenn es um die Veröffentlichung neuer Filme geht. Ebenso bedeutend ist damit die Duplizierung (nicht kopiergeschützter) Medien zur Datensicherung. Da Filme üblicherweise auf einer DVD-9 (zweilagig) mit einer Kapazität von 8,5 GB ausgeliefert werden, müssen diese neu codiert werden, damit sie auf einer handelsüblichen DVD-5 mit 4,7 GB Fassungsvermögen passen. Damit dies gelingt, wird die Qualität des als MPEG2 vorliegenden Videos entsprechend reduziert. Software zum Verkleinern einer DVD-Video profitiert im Allgemeinen von mehreren Prozessorkernen.

In unserem Test wird mit Hilfe von Nero Recode der Hauptfilm einer DVD neu berechnet. Als Tonspuren werden dabei Deutsch 5.1 und Englisch 2.0 unverändert übernommen. Das Ergebnis ist eine regulär im DVD-Player spielbare Version mit Menü. Die konkreten Programmparameter setzt Nero automatisch. Für Nero Recode haben wir uns entschieden, da die Anwendung von Prozessoren mit mehr als einem Kern profitiert und Teil der weit verbreiteten und aktuellen „Nero 8“-Suite ist.

Nero Recode DVD9 zu DVD-5

Core 2 Extreme QX9650
03:29
Core 2 Extreme QX6850
03:35
Core 2 Quad Q6600
03:51
Core 2 Extreme X6800
04:38
Core 2 Duo E6600
05:18
Angaben in Minuten, Sekunden

DivX 6.7

Seit DivX 6.1 (Codename Helium) [22] unterstützt der für Videos sehr beliebte MPEG-4/ASP-Codec auch Dual-Core-Prozessoren und erreicht je nach Konfiguration eine Steigerung der Encoding-Rate um mehr als 150 Prozent. Die Leistungsunterschiede sind dabei umso stärker ausgeprägt, je höher die gewählte Qualitätsstufe ist. Bei früheren Prozessortests wurde DV- und MPEG2-Videomaterial mit unterschiedlichen Qualitätseinstellungen nach DivX 6.1 encodiert. Tendenziell waren auch hier die Ergebnisse gleich. Die bei DV gewählten, niedrigen Qualitätseinstellungen für Audio- und Video-Encoding ließen Single-Core-Prozessoren ein wenig besser abschneiden. Aufgrund des größeren Praxisbezugs werden fortan nur noch die Ergebnisse des MPEG2-Encodings veröffentlicht.

DivX 6.7 mit SSE4

Erstmals zum Einsatz kommt DivX 6.7, der experimentelle Unterstützung für die SSE4-Befehlssätze beinhaltet. Intel hat gerade durch diese Instruktionen im Zusammenspiel mit DivX einen großen Performanceschub für Anwender versprochen, der in Ansätzen bereits erkennbar ist. An der Stelle hängt jedoch viel von der Art der Betrachtung ab. Intel hat in einem kleinen Guide die optimalen Einstellungen für ein möglichst gutes Ergebnis geliefert, jedoch haben diese, dank Einstellungen wie „No Sound“ wenig Bezug zur Realität. Deshalb verwenden wir unser angestammtes Video und behalten die originalen Einstellungen bei. Mit dem neuen Prozessor testen wir deshalb einmal in der herkömmlichen SSE2-Optimierung, wie sie derzeit jede CPU unterstützt, als auch in der neuen aber noch experimentellen SSE4-Variante.

TMPGenc Xpress 4: MPEG2 zu DivX 6.7

 SSE4:
Core 2 Extreme QX9650
05:07
 SSE2:
Core 2 Extreme QX9650
06:01
Core 2 Extreme QX6850
06:33
Core 2 Quad Q6600
07:56
Core 2 Extreme X6800
10:03
Core 2 Duo E6600
12:11
Angaben in Minuten, Sekunden

MPEG 2

Das Zielformat für alle Hobby-Filmer ist (zumindest vorerst) nach wie vor die DVD und damit ein Film im MPEG2-Standard. Das Videomaterial selbst liegt dabei üblicherweise als Digital Video (DV) vor. Für den Test haben wir auf TMPGEnc 4.0 XPress 4.3.1.222 vertraut.

TMPGenc Xpress 4: DV zu MPEG2

Core 2 Extreme QX9650
00:34
Core 2 Extreme QX6850
00:36
Core 2 Quad Q6600
00:46
Core 2 Extreme X6800
01:02
Core 2 Duo E6600
01:12
Angaben in Minuten, Sekunden

WMV

Soll es einmal schnell gehen, greift der eine oder andere vielleicht doch auf den mit Windows XP (x64) ausgelieferten bzw. separat als Update verfügbaren Windows Movie Maker in der Version 2.0 zurück. Aufgrund der wahrscheinlich gar nicht so geringen User-Basis wurde dieser Benchmark in den Parcours aufgenommen. Das zuvor bereits mehrfach genutzte DV-Material wird mit der 1,7 Mbps Bitrate nach WMV konvertiert.

TMPGenc Xpress 4: DV zu WMV AVC

Core 2 Extreme QX9650
00:35
Core 2 Extreme QX6850
00:36
Core 2 Quad Q6600
00:45
Core 2 Extreme X6800
00:58
Core 2 Duo E6600
01:08
Angaben in Minuten, Sekunden

Audioencoding

MP3

Das 1985 entwickelte Audiokompressionverfahren MP3 ist das heute vorherrschende Format für Musik. Es wird von einer breiten Palette an Endgeräten unterstützt und bietet in der letzten Weiterentwicklung sogar Support für 5.1 Mehrkanal-Audio [23]. Das Spektrum an Encodern für MP3 ist mannigfaltig. Für unseren Test haben wir uns zwei Vertreter herausgegriffen.

Besonders populär ist die kostenlose Software Lame [24], die von verschiedenen Programmen eingesetzt wird. Wir testen mit Beta 2 von Lame 3.97. Hierbei handelt es sich um eine 32-Bit-Applikation, die Performance auf Niveau der letzten finalen Version 3.96.1 liefert und keinen Gebrauch von mehreren Prozessorkernen macht. Somit profitieren Dual-Core-Prozessoren nur dann, wenn mehrere Dateien parallel umgewandelt werden. Neben dieser Version existiert eine Machbarkeitsstudie [25] (Dokumentation [26]), die zeigt, dass Lame in begrenztem Maße für Multi-Prozessor-Systeme optimiert werden kann. Von dieser experimentellen Alpha-Version stehen Versionen mit Intel- und Microsoft-Compiler für Windows x32 und x64 zur Verfügung. Aufgrund der Performance testen wir die Version mit Intel Compiler.

Lame: WAV zu MP3

 3.97b:
Core 2 Extreme QX9650
03:10
Core 2 Extreme QX6850
03:13
Core 2 Extreme X6800
03:19
Core 2 Duo E6600
04:03
Core 2 Quad Q6600
04:03
 3.97a Alpha 2 ohne MT (Intel x32):
Core 2 Extreme QX9650
02:02
Core 2 Extreme QX6850
02:13
Core 2 Extreme X6800
02:16
Core 2 Duo E6600
02:46
Core 2 Quad Q6600
02:46
 3.97a Alpha 2 mit MT (Intel x32):
Core 2 Extreme QX9650
01:11
Core 2 Extreme QX6850
01:19
Core 2 Extreme X6800
01:21
Core 2 Quad Q6600
01:38
Core 2 Duo E6600
01:39
Angaben in Minuten,