Vorwort
Mit dem heutigen Tag lässt Intel den ersten Prozessor der neuen Generation vom Stapel laufen, die bislang unter dem Codenamen „Penryn“ firmierte. Die größte Neuerung des Flaggschiffs Core 2 Extreme QX9650 mit „Yorkfield“-Kern, das sich zum Test in der Redaktion eingefunden hat, ist der Herstellungsprozess in der 45-nm-Technologie. Diese verspricht nicht nur eine geringere Leistungsaufnahme, sondern soll auch die Effizienz des gesamten Prozessors erhöhen. Parallel dazu bekommt der Neuling zusätzliche Instruktionen und einen auf 12 MB vergrößerten L2-Cache spendiert. Das Zusammenspiel soll die derzeitig (noch) unangefochtene Spitzenposition von Intel in quasi allen Bereichen der Desktop-Prozessoren sichern.
Wir zeigen die Leistungsfähigkeit von Intels neuestem Prozessor und lassen diesen zusätzlich gegen seinen Vorgänger und weitere Modelle aus Intels Produktpalette antreten. Einen betagten AMD-Prozessor vom Typ Athlon 64 X2 als einziges Modell in diesen Vergleich mit aufzunehmen, erachten wir nicht als wirklich sinnvoll. In Kürze wird es hoffentlich in dieser Richtung einen weiteren Artikel mit einem komplett neuen Testsystem geben, der sich sowohl mit den alten als auch den kommenden AMD-Prozessoren befasst.
Im folgenden Abschnitt stellen wir den Core 2 Extreme QX9650 vor. Den Anfang macht der Überblick, anschließend analysieren wir die Architektur-Mikroarchitektur und stellen die 45-nm-Fertigung im Detail vor. Nach der Besprechung des Chipsatz-Supports lassen wir auf den folgenden 20 Seiten Zahlen für den neuen Prozessor sprechen.
Überblick
In der Übersicht stellen wir den neuen Core 2 Extreme QX9650 seinen Vorgängern und parallel laufenden Modellen gegenüber. Genauere technische Details zur Architektur und zum Fertigungsprozess folgen auf den kommenden Seiten.


| Merkmale | Core 2 Extreme (Quad-Core) |
Core 2 Quad, Core 2 Extreme (Quad-Core) |
Core 2 Duo, Core 2 Extreme (Dual-Core) |
Core 2 Duo (Dual-Core) |
|---|---|---|---|---|
| Logo | ![]() |
![]() |
![]() |
![]() |
| Codename | Yorkfield (2x Wolfdale) |
Kentsfield (2x Conroe) |
Conroe | Allendale |
| Taktrate oder Modellnummer (Takt in GHz) |
QX9650 (3,00) | Q6600 (2,40) QX6700 (2,66) QX6800 (2,93) QX6850 (3,00)1 |
E6300 (1,86)3 E6320 (1,86) E6400 (2,13)3 E6420 (2,13) E6540 (2,33) E6550 (2,33)1, 4 E6600 (2,4) E6700 (2,66) E6750 (2,66)1, 4 X6800 (2,93) E6850 (3,00)1, 4 |
E4300 (1,80)2, 5 E4400 (2,00)2, 5 E4500 (2,20)2, 5 E4600 (2,40)2, 5 E6300 (1,86) E6400 (2,13) |
| Fertigung | 45 nm | 65 nm | 65 nm | 65 nm |
| Sockel | Sockel 775 | Sockel 775 | Sockel 775 | Sockel 775 |
| Kerne | 4 (MCP) | 4 (MCP) | 2 | 2 |
| Multithreading | X | X | X | X |
| Frontside-Bus | 1333 MHz QDR | 1066 MHz QDR 1333 MHz QDR0 |
1066 MHz QDR 1333 MHz QDR0 |
800 MHz QDR0 1066 MHz QDR |
| Frontside-Bus-Last | 2 | 2 | 1 | 1 |
| Peripherieinterface | Extern | Extern | Extern | Extern |
| Speichercontroller | Extern | Extern | Extern | Extern |
| Transistoren | 2x410 Mio. | 2x291 Mio. | 291 Mio. | 167 Mio. |
| Chipgröße | 2x107 mm² | 2x143 mm² | 143 mm² | 111 mm² |
| L1-Execution-Cache | 2x2x32 kB | 2x2x32 kB | 2x32 kB | 2x32 kB |
| L1-Daten-Cache | 2x2x32 kB | 2x2x32 kB | 2x32 kB | 2x32 kB |
| L2-Cache | 2x6144 kB | 2x4096 kB | 1x2048 kB0 1x4096 kB |
1x2048 kB |
| L2-Anbindung | 256 Bit | 256 Bit | 256 Bit | 256 Bit |
| L2-Modus | L1 inclusive | L1 inclusive | L1 inclusive | L1 inclusive |
| Cache insgesamt | 2x6144 kB | 2x4096 kB | 2048 kB0 4096 kB |
2048 kB |
| Energiesparfunktion | C1E, Enhanced SpeedStep (EIST) |
C1E, Enhanced SpeedStep (EIST) |
C1E, Enhanced SpeedStep (EIST) |
C1E, Enhanced SpeedStep (EIST) |
| Date Execution Prevention (NX-Bit) |
✓ | ✓ | ✓ | ✓ |
| 64-Bit-Technologie | ✓ (EM64T) | ✓ (EM64T) | ✓ (EM64T) | ✓ (EM64T) |
| Virtualisierungs- Technologie |
✓ (Vanderpool) | ✓ (Vanderpool) | ✓ (Vanderpool) | ✓ (Vanderpool)0 |
| CPU-Architektur | 14-stufige Pipeline (Core) |
14-stufige Pipeline (Core) |
14-stufige Pipeline (Core) |
14-stufige Pipeline (Core) |
| Befehlssätze | MMX SSE SSE2 SSE3 SSSE3 SSE4.1 VT |
MMX SSE SSE2 SSE3 SSSE3 VT |
MMX SSE SSE2 SSE3 SSSE3 VT TXT |
MMX SSE SSE2 SSE3 SSSE3 VT |
| 0 Nur bei ausgesuchten Modellen 1 Besitzt einen 1333 MHz schnellen Frontside-Bus 2 Besitzt einen 800 MHz schnellen Frontside-Bus 3 Besitzt 2 MB L2 Cache (Im Silizium sind 4 MB vorhanden, 2 MB sind deaktiviert) 4 Unterstützt Trusted Execution Technology (TXT, ehemals La Grande) 5 Unterstützt keine Virtualisierungstechnologie (VT, ehemals Vanderpool) |
||||
Der Core 2 Extreme QX9650 basiert auf der Penryn-Mikroarchitektur. Hierbei handelt es sich um eine Weiterentwicklung der Core Mikroarchitektur (NGMA, Merom-Mikroarchitektur). Im Rahmen des Tick-Tock-Modells handelt es um ein „Tick“, die als Pioniere einer neuen Fertigungstechnologie (45 nm) dienen und wenig aufwendige Verbesserungen an einer bestehenden Architektur beinhalten. Obwohl die neuen Produkte bis zu 45 Prozent schneller sind – dazu später mehr –, nimmt man dies nicht zum Anlass, um bereits auf „Core 3“ als Produktnamen zu setzen. Diesen Schritt hebt man sich wohl für die wirklich gravierenden Architekturverbesserungen/-änderungen auf, die mit Nehalem, dem nächsten „Tock“ [1] anstehen.
Wurde die „Merom“ Generation noch in Israel entwickelt, findet die Entwicklung von „Penryn“ hauptsächlich in Folsom, Santa Clara und Costa Rica statt. Das Designteam umfasst ca. 150 Mitarbeiter, während das komplette Team aus rund 400 Mitarbeitern besteht. Die beiden Nachfolge-Generationen „Nehalem“ (Tock, 2008) und „Westmere“ (Tick, 2009) werden derzeit in Oregon entwickelt. Die Entwicklung der über übernächsten Generation „Sandy Bridge“ (Tock, 2010) findet hingegen wieder in den Intel Entwicklungsstätten von Isreal statt.
Einen groben Überblick über die neuen Eigenschaften des Intel Core 2 Extreme QX9650 liefert bereits das kleine Tool CPU-Z [2]. Der Prozessor mit dem neuen „Yorkfield“-Kern und einer Thermal Design Power von 130 Watt wird bereits im Stepping „C0“ (Stepping 6) ausgeliefert und der L2-Cache wie erwartet eine Größe von 2x 6 MB. Die Spannung rangiert mit knapp über 1,21 Volt etwa 0,1 – 0,15 Volt unter den bisherigen Core 2 Duo/Extreme Modellen mit 3,0 GHz.
Zu den unterstützten Befehlsätzen gehören erstmals die Streaming SIMD Extensions (SSE) in der Version 4.1. Kein Unterschied besteht in der Ansteuerung des Prozessors mit einem Systemtakt von 333 MHz, welcher wie üblich einen Quad-Pumped-Bus von 1.333 MHz bedeutet. Wie bei den anderen Extreme-Editions von Intel ist auch beim neuen QX9650 der Multiplikator nach oben hin offen. Standardmäßig steht er jedoch auf 9 und erzeugt somit im normalem Zustand die 3,0 GHz Taktfrequenz. Auf Änderungen des Multiplikators und des eingestellten Frontside-Bus kommen wir später im Abschnitt „Übertakten“ zu sprechen.
Ursprünglich sah die Revisions-Planung einen Rhythmus von A0 -> A1 -> B0 -> B1 vor, wovon letztere die finale Revision werden sollte. Im Zuge der letzten Monate hat man sich jedoch gegen die Revision B1 entschieden und stattdessen an der Revision C0 gearbeitet. Dabei gilt: Bei einer Änderung des Buchstaben werden nicht nur die Metallschichten, sondern auch die Siliziumschichten neu erstellt. Ändert sich nur die Zahl, bleibt das Silizium ohne Änderungen. Prinzipiell ist es somit möglich, vorab entsprechend viele Siliziumschichten zu produzieren, um dann mit neueren Metallschichten noch den Produktionsprozess und damit auch das Stepping zu verändern. Offenbar ließ der Zeitplan Intel genug Spielraum, um auch die Silizium-Schichten in letzter Instanz zu verbessern.
Penryn-Architektur
Die Penryn-Mikroarchitektur wird in den Bereichen Mobile, Desktop, Workstation (DP) und Server (MP) eingesetzt werden. Ihrem Einsatzgebiet entsprechend besitzen einige dieser Boliden besondere Funktionen. In einem solchen Fall wird explizit darauf hingewiesen. Als naher Verwandter der Core-Mikroarchitektur wird auf vererbte Besonderheiten im Vergleich zu Pentium 4 und Athlon 64 nicht gesondert eingegangen. Für ein Grundverständnis von Core und der Befehlsausführung innerhalb einer Out-of-Order Pipeline wird eine Betrachtung der folgenden Bildgalerie empfohlen.
Doch nun zur Penryn-Familie: Nach dem derzeitigen Wissenstand sind Modelle mit zwei bis sechs Prozessorkernen geplant, die die folgenden Codenamen tragen.
- Mobile: Penryn (Dual Core), ? (Quad Core, zwei Penryn-Chips)
- Desktop: Wolfdale (Dual Core), Yorkfield (Quad Core, zwei Penryn-Chips)
- Workstation: Wolfdale-DP (Dual Core), Harpertown (Quad Core, zwei Penryn-Chips)
- Server: Dunnington (6-Core, ein Chip, ungesichertes Gerücht)
Die Verbesserungen von Penryn konzentrieren sich in den Bereichen Out-of-Order Execution, Cache/Speicher und Power Management. Im Bereich Execution wurde die bisherige Radix-4- durch eine Radix-16-Dividierer/Quadratwurzeleinheit ersetzt. Außerdem beschleunigt die neue Super Shuffle Engine SSE-Befehle, die mit der Bitmanipulation zu tun haben. Des Weiteren unterstützten die drei vorhandenen SSE-Einheiten nun SSE4. Im Bereich Cache/Speicher wurde das Store Forwarding verbessert und die Assoziativität des L2-Caches erhöht. Das Power Management wurde um einen C6-State (Deep Power Down) und eine verbesserte Dynamic Acceleration Technology (EDAT) komplettiert. Darüber hinaus gibt es einige Optimierungen im Detail.
Ein Penryn-Chip (Dual Core) besitzt 410 Millionen Transistoren auf einer Fläche von 107 mm². Für den Aufbau einer Cache-Speicherzelle (SRAM) werden 6 Transistoren benötigt. Bei einem 6 MByte großen L2-Cache entfallen auf diesen 288 Mio. Transistoren (+Steuerlogik). Merom kam bei 4 MB L2-Cache auf insgesamt 291. Mio. Transistoren. Bei einer Transistordifferenz von 119 Mio. entfallen rund 100 Mio. auf den größeren Cache, die übrigen 19 Mio. schlagen sich in den neuen und verbesserten Funktionseinheiten nieder.
Das Front-End der Pipeline wurde nicht verändert. Bei 64-Bit-Befehlen ist daher Macro-Ops-Fusion auch weiterhin nicht aktiv. Intel hat eine Änderung des Front-Ends in Betracht gezogen, die benötigten Änderungen hätten jedoch zu viele Datenpfade in ihrer Breite verändert und weitere Anpassungen erfordert – zu viel für ein „Tick“.
Out of Order Execution: SSE4
Zur Beschleunigung von Multimedia-Anwendungen wartet Penryn mit SSE4.1 auf. Diese SIMD-Erweiterung beinhaltet 47 neue Befehle, die sich über verschiedene Bereiche erstrecken. Obwohl die neuen Befehle verschiedene Bereiche abdecken, sieht Intel eigentlich nur einen Bereich, in dem SSE4 für einen massiven Geschwindigkeitsschub sorgen kann: Videoencoding. Allgemeiner ausgedrückt: alle Algorithmen, die eine Motion Estimation durchführen müssen – Spiele gehören in aller Regel nicht dazu. Details zu SSE4 und Beispiele sind der Bildgalerie zu entnehmen.
Als erste Applikation unterstützt DivX seit Version 6.6.1 die neuen Befehle. Je nach Einstellung sehen Intels Messungen einen Geschwindigkeitsvorteil von bis zu 63 Prozent. Unsere Ergebnisse in diesem Bereich sehen wir später. Weitere SSE4-Anwendungen sind bereits am Horizont: das Anfang November erwartete TMPGenc Xpress 4.4 wird sie unterstützen und soll ein Performanceplus von 40 Prozent erfahren. Für Adobe Premiere CS3 ist ein Patch in der Entwicklung, das Ende 2007 erscheinen soll und ein Speedup von bis zu 38 Prozent bewirkt. Auch Adobe Photoshop CS3 soll mit einem Update für die neuen Befehle gerüstet werden. Dieses erscheint voraussichtlich jedoch nicht im nächsten halben Jahr.
Out of Order Execution: Radix-16 Divider/Squareroot und Super Shuffle Engine
Bei Penryn hat Intel die Divisionseinheit gravierend beschleunigt. Während bisher ein Algorithmus genutzt wurde, der 2 Bits pro Arbeitsschritt betrachtet (Radix-4), wird man zukünftig mit Radix-16 gleich 4 Bits pro Takt verarbeiten. Diese Technik wird nicht nur sowohl bei Gleitkomma- (Floating-Point) als auch Integer-Operationen genutzt, sondern beschleunigt auch das Berechnen von Quadratwurzeln. Verglichen mit dem Core 2 Duo soll das Ergebnis eine im Durchschnitt doppelt so schnelle Verarbeitung sein. Von der Radix-16-Einheit profitieren alle Befehle (z.B DIVF, SQRT) die Divisionen oder Wurzelberechnungen auf verschiedenen Bitbreiten durchführen.




Wie das Blockdiagramm zeigt, hat Intel Radix-16 in Form von zwei Radix-4-Einheiten implementiert, die auf unterschiedlichen Taktflanken (Double Pumped) arbeiten. Für ein weiteres Verständnis der Radix-Problematik sei auf Computer Architecture: A Quantitative Approach [3] (Hennessy, Patterson) oder z. B. IEEE 9040080 [4] verwiesen.
Mit der stetig wachsenden Anzahl an SSE-Befehlen (SIMD) hängt die Ausführungsgeschwindigkeit zunehmend davon ab, wie schnell die für SSE benötigten Datenvektoren aus 32- oder 64-Bit Paketen zusammengebaut oder die Ergebnisse nach ihrer Berechnung zerlegt und an die richtigen Stellen geschrieben werden können. Um diesen Prozess zu beschleunigen, hat Penryn die „Super Shuffle Engine“ die all diejenigen (bereits vorhandenen) SSE-Befehle beschleunigt, die für die Vorbereitung der Daten zuständig sind. Insbesondere die 32 SSSE3-Befehle (TNI), die mit Merom vorgestellt wurden, sollen von der neuen Einheit stark profitieren.
Cache/Speicher: Store Forwarding Misaligned Store und Sonstiges
Der Memory Order Buffer (MOB) kann Store Operationen an nicht ausgerichtete Adressen nun besser verwalten. Im Programmablauf kommt es sehr häufig vor, dass an eine Adresse im Speicher zuerst Daten geschrieben und kurze Zeit später erneut gelesen werden. Da Speicherzugriffe mit einer hohen Latenz verbunden sind und die Speicherbandbreite ebenfalls begrenzt ist, wird versucht, unnötige Zugriffe zu vermeiden. Im Idealfall reicht ein Store-Befehl sein Ergebnis direkt an einen später auf die selbe Adresse stattfinden Load weiter. Dieser Prozess wird als Store-Forwarding bezeichnet und vom MOB durchgeführt. Im Vergleich zu Merom kann der MOB diesen Vorgang nun auch bei unglücklich platzierten Operationen häufiger durchführen, was der effektiven Bandbreite zu Gute kommt.
Penryn besitzt pro Dual-Core einen gemeinsam nutzbaren und 6 MB großen L2-Cache (Quad-Core besteht aus zwei Dual-Core-Chips). Während die Assoziativität von Merom (Anzahl der Stellen, an denen ein Element mit einer bestimmten Adresse im Cache abgelegt werden kann) beim 4 MB-Modell noch 16-Way betrug, kann der in 45 nm gefertigte Enkel mit 24 Ways aufwarten. Dies verringert die Wahrscheinlichkeit von Datenkonflikten.
Ursprünglich waren für Penryn außerdem „Split Load Cache Enhancements“ geplant, mit Hilfe derer zwei unabhängige Zugriffe auf den Cache möglich gewesen wären. Das ist immer dann von Vorteil, wenn auf Daten (L1-Data-Cache) zugegriffen wird, die nicht korrekt an Adressen ausgerichtet sind. Überlappt ein Dateneintrag (kleiner 128 Bit) zwei Cache-Lines, so sind hierfür aktuell zwei getrennte Zugriffe nötig. Penryn hätte einen 128-Bit-Zugriff aufteilen – wahrscheinlich in zwei 64-Bit-Zugriffe – und so bei „glücklich unausgerichteten“ Daten in einem Takt den kompletten Informationssatz in die Arbeitsregister laden können. In den jüngsten Präsentationen ist von diesem Feature nicht mehr die Rede. Eine Stellungnahme der Pressestelle steht noch aus.
Power Management: Deep Power Down (C6)
Speziell für die kommenden Notebook-Prozessoren der Penryn-Generation hat Intel zwei Innovationen in der Hinterhand. Die neue Deep Power Down Technology (C6) schaltet im Idle-Zustand nahezu den kompletten Prozessor ab hilft somit erheblich Strom zu sparen. Es wird ein Chipsatz vorausgesetzt, der C6 unterstützt. Sowohl Santa Rosa (GM/PM965) als auch die 2008 erscheinende Montevina-Plattform sind hierfür vorbereitet.





Deep Power Down (DPD) funktioniert folgendermaßen: Ist der Rechner unbelastet (Idle), führen heutige Betriebssysteme den mwait-Befehl aus. Dieser Befehl zusammen mit einem Paramater sagt dem Prozessor, welchen Stromsparzustand er bis zum nächsten Interrupt (dem Signal zum Aufwachen) einnehmen soll. Lautet der Parameter C6, beginnt eine längere Ereigniskette (siehe Bild), an dessen Ende der Prozessor seinen aktuellen Zustand in einem 8 kB großen SRAM-Speicher sichert. Die Spannung kann nun zu allen Bereichen bis auf die Mini-Speicher abgeschaltet werden. Die Restspannung beträgt Laut Intel 0,3 Volt und der Prozessor verbraucht nur noch 100 mW. Die Rückkehr in den aktiven C0-State (Prozessor rechnet) kommt einem Reset gleich. Im Vergleich zum Warmstart werden jedoch die Informationen aus den 8 kB SRAMs zurückgespielt.
Aufgrund der langwierigen Prozedur und der Spannungsanpassung macht C6 nur Sinn, wenn der Prozessor mindestens 4-5 ms schlafen kann, bevor er vom Chipsatz aufgeweckt wird (z.B. Timer-Interrupt, Keyboard-Interrupt etc.). Bei geöffneten Windows Media Player erhöht Windows automatisch die Interrupt-Refrequenz von 16 auf eine 1 ms. Damit C6 in diesem Fall nicht zum Nachteil wird (das Betriebssystem kennt C6 nicht explizit), wurde ein Gedächtnis implementiert. Hat sich C6 die letzten Male nicht gelohnt, tritt Auto-demote in Kraft und die Anforderung des Betriebssystems wird beispielsweise mit C4 überschreiben.
Power Management: Enhanced Dynamic Acceleration Technology (EDAT)
Die „Dynamic Acceleration Technology“ (DAT) (erstmals bei der Santa-Rosa-Plattform und Merom-Prozessoren dabei) wird Penryn in einer erweiterten Variante unterstützen. Zur Erklärung: DAT ist eine Technologie, bei der ein Prozessorkern eines Dual-Core-Chips automatisch mit dem nächst höheren Multiplikator betrieben wird, sofern der andere in einem Stromsparzustand (z. B. CC3) ist. Als Neuerung kann EDAT nun auch dann aktiv sein, wenn kurzzeitig beide Prozessoren aktiv sind. Eine Logik entscheidet abhängig von den vergangenen Aktivitäten des Idle-Kerns, wie zu verfahren ist. Diese Hysterese sorgt für eine Performance-Steigerung von bis zu 7 Prozent.



Das Feature wird weiterhin exklusiv für die Notebook-Prozessoren bleiben. Die Taktfrequenz bei diesen Prozessoren wird nicht danach gewählt, was technisch möglich, sondern was von der Thermal Design Power (TDP), also dem Stromverbrauch, vorgesehen ist. Dadurch besitzen Mobile-Chips einen gewissen Taktspielraum, der bei Desktop-Prozessoren von vornherein ausgenutzt wird.
Power Management: Core C3 (CC3) und weitere Detailverbesserungen
Für Server von Bedeutung, jedoch bei allen Produkten verfügbar, soll Penryn auch bei Virtuellen Maschinen punkten. Mit Hilfe von „VMCS state management caching“ können Befehle zum Betreten und Verlassen einer Virtuellen Maschine (VMentry, VMexit) wesentlich schneller ausgeführt werden, da Sicherheitsanfragen ggf. aus dem State Cache abgefragt werden können. Der Prozess-Wechsel (Task Switch) bei virtuellen Maschinen soll um 25 bis 75 Prozent schneller durchgeführt werden können.
Der zunehmenden Anzahl an Ereignissen und Geräten trägt Intel mit zwei Detailverbesserungen Rechnung: das Maskieren von Interrupts über die Befehle CLI (Clear Interrupts) und TSI (Transparent System Interrupt) erfolgt nun doppelt so schnell. Die bei Datenbank-Servern häufig benutzte Zeitabfrage mitteils RDTSC (Read Time Stamp Counter) wurde um den gleichen Faktor beschleunigt.





Exklusiv für Wolfdale-DP, Harpertown und Dunnington besitzt die Penryn-Architektur einen Core-C3-Zustand. Bisher unterstützen die Desktop- und Server-Prozessoren die Betriebsmodi C0 (Active), C1/C1E (Halt State, Enhanced Halt State) und C2 (Stop Grant, selten genutzt, da vom Chipsatz anzuordnen), während die Mobil-Prozessoren auf Merom-Basis darüber hinaus C3 (Deep Sleep) und C4 (Deeper Sleep) bieten.
Das Problem bei Servern: Es muss Datenkohärenz sichergestellt werden. Dies erreicht man durch Snooping (Schnüffeln). Hierbei lauschen alle Kerne auf den Speicherbussen und greifen ein, sofern in ihrem Cache ein Datum liegt, das neuer als das im Speicher ist (bzw. als exklusiv markiert war, MESI-Protokoll). L1-Cache-Snooping kostet bei Idle-Prozessoren unnötig Strom und ist leicht zu vermeiden, wenn einzelne Kerne in den C3 (daher der Name CC3) wechseln. Im CC3-Zustand wird der L1-Cache geleert und abgeschaltet (Sleep-Transistor). Als Nebeneffekt wird L1-Cache-Snooping für diesen Kern unterbunden. Der Stromverbrauch lässt sich hiermit um bis zu 16 Prozent senken.
45 nm Fertigung
Einmal mehr ist es die Fertigungstechnologie, die Intel einen gehörigen Vorteil verschafft. Nach dem Reinfall mit 90-nm-Strukturen – Stromverbrauch und Wärmeabgabe waren sehr problematisch – konnte der seit Ende 2005 eingesetzte P1264-Herstellungsprozess (65 nm) die Produktionskosten senken und wusste beim Stromverbrauch eine kontinuierliche Verbesserung einzuleiten. Selbst die als verschwenderisch bekannte Netburst-Architektur des Pentium 4 konnte mit dem in 65 nm gefertigten Presler (bzw. Cedar Mill als Single-Core-Vertreter) gezügelt werden [5]. Mit P1266 – so die korrekte Bezeichnung für die 45-nm-Lithographie von Intel – soll der Zauber weiter gehen.
| Prozessname | P856 | P858 | Px60 | P1262 | P1264 | P1266 | P1268* | P1270* | P1272* | |
|---|---|---|---|---|---|---|---|---|---|---|
| Produktionsstart | 1997 | 1999 | 2001 | 2003/4 | 2005 | 2007 | 2009 | 2011 | 2013 | |
| Prozess (nm) | 250 | 180 | 130 | 90 | 65 | 45 | 32 | 22 | 16 | |
| Lichtquelle (nm) | 248 | 248 | 248 | 193 | 193 | 193 | 193 | 13 | 13 | |
| Wafergröße (mm) | 200 | 200 | 200/300 | 300 | 300 | 300 | 300 | 300 | ? | |
| Interconnects | ||||||||||
| Material | Al | Al | Cu | Cu | Cu | Cu | Cu | ? | ? | |
| Lagen | 5 | 6 | 6 | 7 | 8 | 9 | ? | ? | ? | |
| Kanalmaterial | Si | Si | Si | Strained Si |
Strained Si |
Strained Si |
Strained Si |
Strained Si |
? | |
| Gate | ||||||||||
| Kontaktmaterial | Poly-Si | Poly-Si | Poly-Si | Poly-Si | Poly-Si | Metall | Metall | Metall | ? | |
| Dielektrikum | SiO2 | SiO2 | SiO2 | SiO2 | SiO2 | High-k | High-k | Higk-k | ? | |
| Dielektrikumdicke (nm) | 4,08 | 2,0 | 1,5 | 1,2 | 1,2 | ? | ? | ? | ? | |
| Länge ( nm) | 200 | 130 | 70 | 50 | 35 | 25 | 16? | ? | ? | |
| SRAM-Größe (µm²) | 10,6 | 5,6 | 2,09 | 1,00 | 0,570 | 0,346 | 0,182 | ? | ? | |
| * Angaben können sich Jederzeit ändern | ||||||||||
Die Tabelle zeigt einen Überblick über die bei Intel eingesetzten Prozesstechnologien der vergangenen zehn Jahre. Moores Law folge leistend, wurden die Grundbausteine eines jeden Prozessors, der (MOS-)Transistor, kontinuierlich verkleinert, um eine Verdopplung der Transistoranzahl alle zwei Jahre zu ermöglichen. Für einen kleineren Transistor müssen neben der Transistorfläche verschiedene andere Parameter angepasst werden. Bereits mit dem Anfang 2004 etwas verspätet eingeführten 90-nm-Herstellungsprozess wurde dabei die Dicke des Gate-Oxids, eine Isolatorschicht im Transistor, die das Gate elektrisch vom Kanal trennt, zu dünn, um seiner Aufgabe nachzukommen. Hohe Leckströme und damit ein hoher Stromverbrauch waren die Folge. Beim 65 nm wurde daher zum Leidtragen der Transistoreigenschaften auf eine weitere Reduzierung verzichtet. Unglücklicherweise war bei der nächst kleineren Technologiestufe ein solches Vorgehen nicht mehr möglich.
Das Problem: Seit den 1960ern hat sich die grundlegende Bauweise der Transistoren nicht geändert. Bei einem Wechsel zu 45-nm-Strukturen waren daher tief greifende Veränderungen erforderlich. Die Forschungsarbeiten in diesem Bereich haben bereits Mitte der 1990er Jahre begonnen. Des Problems Lösung: ein völlig neues High-k-Gate-Material und eine auf Metall basierte Gate-Elektrode. Zwei neue Materialien, die den kompletten Transistorherstellungsprozess auf den Kopf stellen sollten.
Die 45-nm-Technologie kommt erstmalig bei der Penryn-Mikroarchitektur zum Einsatz. Insgesamt hat Intel derzeit 15 Produkte auf Basis von 45 nm in der Entwicklung, die sich über die Produktbereiche Mobile, Desktop, Workstation und Enterprise (Server) erstrecken. Es folgt eine Vorstellung von P1266 im Detail.
Details
Mit P1266 kann Intel ohne kostspielige Neuausrüstung der Fabs, d. h. unter Einsatz bestehender Tools und der Benutzung von Lichtquellen mit 193-nm-Wellenlänge, die Transistordichte verdoppeln oder aber die Chipfläche der Prozessoren reduzieren und somit die Stückzahlen drastisch steigern. Die für einen Schaltvorgang benötigte Energie – bei CMOS als Schaltungstechnik fließt aufgrund der komplementär arbeitenden N- und P-Kanal-Transistoren ausschließlich beim Zustandswechsel (z. B. von 0 auf 1) ein Strom – konnte um 30 Prozent reduziert werden. Die Schaltgeschwindigkeit konnte um 20 Prozent gesteigert werden. Damit klettert auch die mögliche Taktfrequenz der Gesamtschaltung nach oben. Gleichfalls können mit dieser Verbesserung, ohne am Takt zu drehen, unerwünschte parasitäre Ströme von Source nach Drain (den beiden Anschlüssen des „Schalters“) um das fünffache abgesenkt werden. Das Leck unter dem Gate ist um eine Zehnerpotenz geschrumpft (im Rahmen von Forschungsveröffentlichungen mit größeren Strukturbreiten war noch von Faktor 100 die Rede).
Die 20 Prozent höhere Schaltgeschwindigkeit kann nicht nach Belieben gegen die um den Faktor 5 reduzierten Leckströme (Ioff) ausgetauscht werden. Vielmehr handelt es sich hierbei um einen Paramater (Threshold-Spannung) die bei der Prozessorproduktion festgelegt wird. Mit der Wahl dieser Spannung bewegt man sich auf einer Geraden die den Zusammenhang zwischen Transistorgeschwindigkeit und Leckströme aufzeigt (siehe Bild). Die 45-nm-Fertigung der Desktop-/Server-Prozessoren wurden auf Geschwindigkeit ausgelegt, die der Notebook-Prozessoren auf Stromsparen.
Die große Innovation und die Ursache für die geringeren Leckströme und höhere Performance von P1266 ist der Einsatz eines neuen Gate-Materials und eines neuen Gate-Isolators. Beim Gate-Oxid setzt Intel auf ein nicht näher bekanntes Material auf Hafnium-Basis das gegenüber dem zuletzt nur noch 1,2 nm dicken Siliziumoxid (5 Atomlagen), das Tunneln der Elektronen wesentlich effektiver behindert. In ersten Forschungspublikationen aus dem November 2003 wurde mit einer Dicke von 3,0 nm gearbeitet. Seitdem hat Intel keine neuen Angaben gemacht. Klar ist nur, dass es dicker als 1,2 nm ist und dadurch die Leckströme stark reduziert, ohne dabei die Transistorperformance zu beeinträchtigen.
Für die Geschwindigkeit eines Transistors ist die Oxidkapazität eine ausschlaggebende Größe. Sie gibt an, wie viele Ladungsträger bei einer am Gate anliegenden Spannung im Kanal für einen Stromtransport zur Verfügung stehen. Bei einer konstanten Dielektrizitätskonstante k (im deutschen eigentlich Epsilon) muss die Oxid-Dicke zu Gunsten schneller Transistoren jedoch kleiner werden. Denn je dünner, desto größer die Oxidkapazität und damit auch die gegenüberliegende Inversionskapazität im Kanal zwischen Source und Drain. Je größer diese Kapazität, desto größer ist der Strom, der durch den Transistor fließen kann und desto schneller kann er (an ihn angeschlossene Gates) schalten. Das bisher eingesetzte Siliziumdioxid hat eine Dielektrizitätskonstante von 3,9. Der Wert des neuen Materials ist nicht bekannt, allerdings hat Intel 2002 einige Messwerte für die Größe der Oxidkapazität bekannt gegeben.
Das nun auf Metall basierte Gate war im Zuge der Umstellung auf High-k nötig, da auf Hafniumverbindungen basierende Dielektrika und das bisher eingesetzte Polysilizium nicht miteinander harmonieren. Genauer gesagt hat der Transistor unter Verwendung von polykristallinem Silizium schlechtere Eigenschaften gezeigt als sein Vorgänger. Das Metal-Gate hat jedoch einen gravierenden Nachteil: es hält den Temperaturen bei den Dotierungsprozessen nicht stand. Damit kann das Gate nicht mehr als erste Struktur (Gate-First) erstellt werden. Die Self-Alignment-Eigenschaften für die Dotierung von Source und Drain gehen verloren und das Gate folgt nun im letzten Technologieschritt auf Siliziumebene (Gate-Last). Welche Materialien Intel genau einsetzt und wie der Gate-Last-Prozess funktioniert, ist noch geheim, da das Unternehmen hier einen besonderen Wettbewerbsvorteil vermutet. Es wird davon ausgegangen, dass AMD zwar bereits 2008 ebenfalls auf ein High-k-Gateoxid setzten wird, ein Metall-Gate allerdings erst wesentlich später Einzug halten wird.
Mit dem 45-nm-Prozess steht gleichermaßen eine Technologie-Bibliothek bereit, die sämtliche Standard- (Inverter, NAND, NOR mit 2 oder wesentlich mehr Dateneingängen) und auch Komplexgatter (z. B. Multiplexer) beinhaltet, von dem jeder Transistor per Hand gezeichnet und auf optimale Leistung hin bearbeitet wurde (und das mit Programmen, die überaus unhandlich in der Bedienung sind). Hierin besteht – neben dem Beherrschen einer jeden Lithographie-Stufe – die eigentliche Kunst. So führt beispielsweise AMDs 65-nm-Prozess im Vergleich zu Intels P1264 zu einem Cache mit größerem Platzbedarf.
Chipsatz-Support
Wer auf die Frage „Unterstützt mein Chipsatz die neuen 45 nm-Prozessoren?“ ein klares „Ja!“ hören möchte, setzt vorzugsweise auf ein Mainboard mit einem Intel-Chipsatz aus der 3er Serie (X38, P35, G35, Q35, G33, Q33, P31 und G31). Hier unterstützen alle Chipsätze den Einsatz von Intels neusten Sprössling und bieten – mit Ausnahme der Value-Chips P31 und G31 – Support für einen 1.333 MHz schnellen Frontside-Bus. Einzig die Extreme Edition bleibt den Performance-Chipsätzen P35, X38 und in Zukunft dem X48 vorbehalten. Die Unterstützung für die Vier-Kern-Variante „Yorkfield“ auf Boards mit G31- oder P31-Chipsatz wird derzeit noch überprüft.
| Intel | X48 | P45 | G45 | Q4x | X38 | P35 | G35 | Q35 | G33 | Q33 | P31 | G31 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Codename | Eaglelake-Familie | Bearlake-Familie | ||||||||||
| CPU-Unterstützung | ||||||||||||
| C2E QX9770 | Ja | Nein | Nein | Nein | Nein | Nein | Nein | Nein | Nein | Nein | Nein | Nein |
| C2E QX9650 | Ja | Ja | Ja | Nein | Ja | Ja | Nein | Nein | Nein | Nein | Nein | Nein |
| C2Q Q9550 | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja | ? | ? |
| C2Q Q9450 | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja | ? | ? |
| C2Q Q9300 | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja | ? | ? |
| C2D E8500 | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja |
| C2D E8400 | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja |
| C2D E8200 | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja |
| FSB-Unterstützung | ||||||||||||
| FSB 1600 | Ja | ? | ? | ? | Nein | Nein | Nein | Nein | Nein | Nein | Nein | Nein |
| FSB 1333 | Ja | ? | ? | ? | Ja | Ja | Ja | Ja | Ja | Ja | Nein | Nein |
| FSB 1066 | Ja | ? | ? | ? | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja |
| FSB 800 | Ja | ? | ? | ? | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja |
| RAM-Unterstützung | ||||||||||||
| DDR3-1600 | Ja | ? | ? | ? | Nein | Nein | Nein | Nein | Nein | Nein | Nein | Nein |
| DDR3-1333 | Ja | ? | ? | ? | Ja | Nein | Nein | Nein | Nein | Nein | Nein | Nein |
| DDR3-1066 | Ja | ? | ? | ? | Ja | Ja | Nein | Nein | Ja | Nein | Nein | Nein |
| DDR3-800 | Ja | ? | ? | ? | Ja | Ja | Nein | Nein | Ja | Nein | Nein | Nein |
| DDR2-800 | Nein | ? | ? | ? | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja |
| DDR2-667 | Nein | ? | ? | ? | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja |
| Features | ||||||||||||
| Grafik | - | - | ? | ? | - | - | GMA X3500 | GMA 3100 | GMA 3100 | GMA 3100 | - | GMA 3100 |
| PCIe 2.0 | Ja | ? | ? | ? | Ja | Nein | Nein | Nein | Nein | Nein | Nein | Nein |
| PCIe 1.1 | Ja | ? | ? | ? | Ja | Nein | Nein | Nein | Nein | Nein | Nein | Nein |
| *? = noch nicht entschieden | ||||||||||||
Bei den Angaben handelt es sich um offizielle Informationen seitens Intel. In der Realität gibt es jedoch je nach Boardhersteller graduelle Unterschiede, sodass sich die Unterstützung von Board zu Board unterscheiden kann. Bereits im Juli hatte unter anderem Asus eine Liste veröffentlicht [6], welche vor allem den Besitzern von Mainboards mit Intels P965, Nvidias nForce 650/680i oder gar dem zwei Jahre alten Intel-i975X-Chipsatz (Asus P5WDH) ein Lächeln ins Gesicht gezaubert haben dürfte. Auch Gigabyte hat eine offizielle Liste online gestellt [7], welche jedoch nur Mainboards mit den oben genannten Chipsätzen aus Intels 3er Serie enthält. In Bezug auf die etwas kleineren Chipschmieden VIA und SiS gibt es bislang noch relativ wenig Informationen über den entsprechenden 45-nm-Support. Im Zweifelsfall lohnt sich ein Blick auf die Homepage des jeweiligen Mainboard-Herstellers, ob nicht vielleicht BIOS-Updates oder Kompatibilitätslisten für das meist teuer erkaufte Mainboard verfügbar sind.
Testsystem
Um einen möglichst fairen und realitätsnahen Vergleich zwischen den Kontrahenten zu ermöglichen, wurden sämtliche Tests in einem geschlossenen Midi-Tower mit vollständiger Lüfterbestückung (ein Lüfter rückseitig saugend, einer beim Festplattenkäfig seitlich blasend) durchgeführt, um so auch auf thermische Probleme bei den Boliden aufmerksam zu werden.
Im Zuge der neuen Prozessorgeneration haben wir das komplette Testsystem aufgewertet. Benchmarks finden fortan unter einem frisch installierten Windows Vista Ultimate in der 32-Bit-Version statt. Doch nicht nur bei der Software wurde der Grundstein für weitere Tests gelegt, auch die Hardware hat ein umfangreiches Update erfahren. Um aktuelle und auch kommende Prozessoren voll auszureizen, haben wir uns bei dem Intel-Testsystem für ein Mainboard mit X38-Chipsatz entschieden, dass mit 2 GByte DDR3-Speicher bestückt wird. In Zusammenarbeit mit einer Radeon HD 2900 XT stellt dieses System für die kommenden Monate die Referenz dar. Im gleichen Atemzug wurden natürlich alle Treiber aktualisiert und die Benchmarks auf Vordermann gebracht.
Als Prozessoren kommt neben dem neuen Core 2 Extreme QX9650 auf Basis des Yorkfield-Kerns dessen Vorgänger, der QX6850 mit Kentsfield-Kern im G0-Stepping, zum Einsatz. Beide Prozessoren setzen auf 333 MHz Frontside-Bus, weshalb DDR3-1333 als Arbeitsspeicher die Aufgaben der Prozessoren unterstützt. Für den Vergleich zum Einsteigerbereich in den Markt der vier Kerne wurde ein Q6600 mit 2,40 GHz im G0-Stepping mit DDR3-1066 eingesetzt. Ebenfalls, als höchst getakteter Dual-Core-Ableger von Intel, wird das alte Schlachtross X6800 mit DDR3-1066-Speicher seine Werte beisteuern. Für den Vergleich nach unten runden wir den Test mit einem Core 2 Duo E6600 ab.
- Prozessor
- Intel Core 2 Extreme QX9650 – 3,00 GHz, 12 MB L2-Cache, FSB1333 (Yorkfield C0)
- Intel Core 2 Extreme QX6850 – 3,00 GHz, 8 MB L2-Cache, FSB1333 (Kentsfield G0)
- Intel Core 2 Extreme X6800 – 2,93 GHz, 4 MB L2-Cache FSB1066 (Conroe B1)
- Intel Core 2 Quad Q6600 – 2,40 GHz, 8 MB L2-Cache, FSB1066 (Kentsfield G0)
- Intel Core 2 Duo E6600 – 2,40 GHz, 4 MB L2-Cache FSB1066 (Conroe B1)
- Motherboard
- Gigabyte X38T-DQ6 (X38) – Rev. 1.0 BIOS: F3h
- Arbeitsspeicher
- 2x 1024 MB DDR3-1333 OCZ Platinum (CL7-7-7-20, Dual-Channel)
- 2x 1024 MB DDR3-1066 OCZ Platinum (CL6-6-6-16, Dual-Channel)
- Grafikkarte
- ATi Radeon HD 2900 XT (742/828), 512 MB
- Peripherie
- Samsung HD501LJ (Festplatte)
- MSI DR8-A (DVD-Brenner)
- Netzteil
- Tagan TG480-U22
- Treiberversionen
- ATi Catalyst 7.10
- Intel Chipsatz-Treiber 8.3.1.1009 (für X38-Chipsatz)
- Software
- Microsoft Windows Vista Ultimate 32-Bit, Build 6000
- Microsoft DirectX 9.0c August 2007
- Microsoft Direct3D 10
Benchmarks
Alle getätigten Benchmarks wurden unter Windows Vista in einer Auflösung von 1280 x 1024 Bildpunkten durchgeführt. Je nach Test, vor allem bei Spielen, kann es jedoch zu leichten Abweichungen in den Auflösungen und Grafikeinstellungen kommen. Wie genau diese aussehen wurde an Ort und Stelle der Beschreibung im Text erwähnt.
Viele der von uns ausgewählten Programme sind frei verfügbar, so dass man die Tests am heimischen PC nachvollziehen kann. Anbei die genauen Versionsnummern bzw. Programmvarianten, die wir für den Test ausgewählt haben.
- Synthetisch
- SiSoft Sandra XIIc (Version 2008)
- Super PI xmod 1.5 XS
- Sciencemark 2.0 32 Bit
- Everest 4.20
- PCMark05 1.2.0
- PCMark Vantage 1.00
- System & Rendering
- 7-Zip 4.42
- WinRAR 3.71
- Cinebench 2003
- Cinebench R10
- Lightwave 8.5
- Multimedia
- Nero Recode (Nero-8-Suite Version 8.1.1.0)
- DivX 6.7
- Tsunami MPEG Video Encoder Xpress 4.3.1.222
- Apple iTunes 7.4.3.1
- Lame 3.97b
- Lame 3.97a
- Vorbis Oggdrop XP
- Spiele
- 3DMark03 3.6.0
- 3DMark05 1.3.0
- 3DMark06 1.1.0
- Fear MP-Demo
- Quake 4 1.42
- Anno 1701 Demo
- Company of Heroes 1.71
- World in Conflict
- Crysis SP-Demo
- Weitere benötigte Tools
- CPU-Z 1.41
- Prime95
- Fraps
SiSoft Sandra XIIc
Egal ob es um Mainboard, Speicher, Festplatte, Peripherie, Steckkarten, Prozessor, Netzwerk, Schnittstellen BIOS, Windows oder DirectX geht, SiSoft Sandra hat umfangreiche Antworten parat. Für einen Großteil der Hardware im PC gibt es zudem Benchmark-Tests, mit denen sich der PC auf seine Performance im Vergleich zu einigen Referenz-Rechnern testen lässt. All diese Werte sind jedoch fast ausschließlich rein theoretischer Natur und haben wenig Bezug zur Praxis, jedoch lassen sich Prozessoren in ihren theoretischen Möglichkeiten gut vergleichen.
Download: SiSoft Sandra [8]
Sandra XIIc CPU-Arithmetik Drystone
Angaben in MIPS
|
Sandra XIIc CPU-Arithmetik Whetstone
Angaben in MFLOPS
|
Sandra XIIc CPU-Multimedia Fließkomma
Angaben in Instruktionen pro Sekunde (it/s)
|
Sandra XIIc CPU-Multimedia Integer
Angaben in Instruktionen pro Sekunde (it/s)
|
Sandra XIIc Speicher Fließkomma
Angaben in Megabyte pro Sekunde (MB/s)
|
Sandra XIIc Speicher Integer
Angaben in Megabyte pro Sekunde (MB/s)
|
Super PI
Super Pi ist eine recht simple und vor allem kleine Software, mit der PI auf mehrere Millionen Stellen nach dem Komma berechnet wird. Die dafür benötigte Zeit wird gemessen und kann für Leistungsvergleiche von Prozessoren verwendet werden. Wir testen mit einer modifizierten Version 1.5 XS den Standard-Test „1M“, welches auch in unserem Forum von vielen Lesern praktiziert wird [9].
Download: Super Pi [10]
Super PI 1M
Angaben in Sekunden
|
Sciencemark
In einem weiteren Test der Bandbreite muss sich der Arbeitsspeicher, das dazugehörige Mainboard und der Prozessor dem Tool Sciencemark 2.0 stellen. Dieses ermittelt nicht nur die Bandbreite, sondern auch die Latenz des Arbeitsspeichers. Weiterhin kann der Cache des Prozessors einer Überprüfung unterzogen werden.
Sciencemark 2.0 - Speicherbandbreite
Angaben in Megabyte pro Sekunde (MB/s)
|
Sciencemark 2.0 - Speicherlatenz
Angaben in Taktzyklen
|
Everest
Das Bild der Speicherbegutachtung runden wir mit dem Programm Everest in Version 4.20 ab. Dieses Tool verfügt über einige integrierte Benchmark-Funktionen und Tools, die den Rechner komplett auslasten und auf Fehler überprüfen. Wir haben Everest neben der Temperaturmessung genutzt, um den Speicherbenchmark in zwei Bildern als Vergleich vom QX6850 zum neuen Prozessor QX9650 darzulegen.
Download: Everest [11]
PCMark05
Die PCMark-Suite bietet dem Benutzer seit dem Juni 2005 eine ausführliche Übersicht über die Leistungsfähigkeit der im PC verbauten Komponenten wie Prozessor, Speicher, Grafikkarte und Festplatte. Dazu werden verschiedene Einzeltest durchgeführt, deren Einzelergebnisse zum Schluss als Gesamtwert aufgerechnet werden. Einige Tests sind dabei immer noch hochaktuell, gerade wenn es um syncrone Arbeiten geht. Deshalb findet sich auch in unserem neuen Benchmarkparcour der vermeintlich angestaubte PCMark05 wieder.
Download: PCMark05 [12]
PCMark05 Gesamt
Angaben in Punkten
|
PCMark05 Prozessortest
Angaben in Punkten
|
PCMark05 Speichertest
Angaben in Punkten
|
PCMark05 Grafikkartentest
Angaben in Punkten
|
PCMark Vantage
Etwas über zwei Jahre nach der Vorstellung des PCMark05, dem Futuremark-Benchmark zur Beurteilung der Leistung eines Rechners in verschiedensten Anwendungsszenarien, stellt der finnische Hersteller den PCMark07, „PCMark Vantage“ genannt, vor. Einmal mehr sollen Privatanwender und Firmen anhand eines kompakten Programmes in der Lage sein, die Leistung eines Rechners auf Grundlage einer breiten Basis an Tests möglichst objektiv bewerten zu können. Alle Details zu dem neuen Benchmark stellt unser Artikel zu PCMark Vantage [13] bereit. Die größte Hürde in den Systemanforderungen des PCMark Vantage ist das Betriebssystem, denn die Benchmarkversion des Jahres 2007 verrichtet nur noch auf Windows Vista ihren Dienst – einen Grund mehr, unser neues Testsystem mit Windows Vista einer gründlichen Prüfung zu unterziehen.
Download: PCMark Vantage [14]
PCMark Vantage – PCMark Suite
Angaben in Punkten
|
PCMark Vantage – Memories Suite
Angaben in Punkten
|
PCMark Vantage – Gaming Suite
Angaben in Punkten
|
System & Rendering
7-Zip
Die Datenkompressionssoftware 7-Zip hat in den vergangenen Jahren stark an Popularität gewonnen. Hierzu trug nicht nur die im Vergleich zu anderen Packern bessere Kompressionsrate bei ZIP und GZIP oder dem hauseigenen Format 7z bei. Im Vergleich zur Konkurrenz ist die Software kostenlos und werbefrei und steht darüber hinaus in einer 64-Bit-Version zur Verfügung. Wir testen mit der seit bereits Mai 2006 aktuellen finalen Version 4.42. Es wird der Ordner von Anno 1701 in höchster Qualitätsstufe komprimiert.
Download: 7-Zip [15]
7-Zip 4.42
Angaben in Minuten, Sekunden
|
WinRAR
Obwohl 7-Zip kostenlos und in Sachen Kompressionsrate vielen Konkurrenten überlegen ist, kommt die Software in Sachen Verbreitung bei Weitem nicht an WinRAR heran, das in Form von RAR seit DOS und Windows 3.1 verfügbar ist. Mittlerweile ist WinRAR zwar in der Lage neben rar auch andere Formate wie beispielsweise 7z zu entpacken, zum Komprimieren stehen allerdings nur rar und zip zur Verfügung. Seit WinRAR 3.60 [16] bietet nun auch der beliebte Packer Multi-Core-Support. Anzumerken ist dem Programm, dass mit jeder neuen Version und schnelleren Prozessoren alles ein klein wenig schneller und besser komprimiert wird, so dass der Vorsprung von 7-Zip deutlich geringer geworden ist. Das Programm muss (wie 7-Zip) den Programmordner von Anno 1701 bei maximalen Qualitätseinstellungen in das Format .rar komprimieren.
Download: WinRAR [17]
WinRAR 3.71
Angaben in Minuten, Sekunden
|
Cinema4D
Das populäre, aus Deutschland stammende Maxon Cinema4D ist in unserem Benchmarkparcours in Form von Cinebench 2003 und deren Nachfolger Cinebench R10 vertreten. Die Software nutzt zum Raytracing bis zu 16 Prozessoren und profitiert damit von allen derzeit am Markt erhältlichen Desktop-Prozessoren von AMD oder Intel. In unserem Test präsentieren wir sowohl die altbekannte Variante von Cinebench 2003, als auch die Mitte 2007 veröffentlichte Version Cinebench R10. Wie üblich zeigen die Diagramme einerseits den Test mit nur einem Prozessorkern, zum anderen auch den Multi-Core-Test.
Download: Cinebench [18]
Maxon Cinebench 2003
Angaben in Punkten
|
Maxon Cinebench R10
Angaben in Punkten
|
Lightwave
NewTek Lightwave 3D [19] kann auf eine lange Geschichte zurückblicken und wurde unter anderem für Spezialeffekte bei Kinofilmen wie Jurassic Park, Titanic, X-Men, Spiderman oder Star Wars: Angriff der Klonkrieger eingesetzt. Auch bei TV-Serien wie Stargate SG-1 wird auf die Fähigkeiten der Raytracing-Software zurückgegriffen. Die offizielle Liste an Filmen [20] ist eindrucksvoller und vor allem länger. Auch bei Computerspielen [21] wie Quake 4 oder Serious Sam 2 führte kein Weg an Lightwave vorbei.
Newtek Lightwave 8.5
Angaben in Minuten, Sekunden
|
Videoencoding
Nero Recode
Auch wenn sich mit der Blu-ray Disc (BD) und High Density-DVD (HD-DVD) bereits die Nachfolger der DVD für den Startschuss rüsten, wird die marktbeherrschende Stellung der DVD auf absehbare Zeit nicht gebrochen werden. Dafür wird nicht zuletzt die breite Basis an installierten DVD-Playern und -Recodern sowie der zum Start hohe Preis der Neulinge sorgen.
Die DVD ist und bleibt damit vorerst das Medium der ersten Wahl, insbesondere wenn es um die Veröffentlichung neuer Filme geht. Ebenso bedeutend ist damit die Duplizierung (nicht kopiergeschützter) Medien zur Datensicherung. Da Filme üblicherweise auf einer DVD-9 (zweilagig) mit einer Kapazität von 8,5 GB ausgeliefert werden, müssen diese neu codiert werden, damit sie auf einer handelsüblichen DVD-5 mit 4,7 GB Fassungsvermögen passen. Damit dies gelingt, wird die Qualität des als MPEG2 vorliegenden Videos entsprechend reduziert. Software zum Verkleinern einer DVD-Video profitiert im Allgemeinen von mehreren Prozessorkernen.
In unserem Test wird mit Hilfe von Nero Recode der Hauptfilm einer DVD neu berechnet. Als Tonspuren werden dabei Deutsch 5.1 und Englisch 2.0 unverändert übernommen. Das Ergebnis ist eine regulär im DVD-Player spielbare Version mit Menü. Die konkreten Programmparameter setzt Nero automatisch. Für Nero Recode haben wir uns entschieden, da die Anwendung von Prozessoren mit mehr als einem Kern profitiert und Teil der weit verbreiteten und aktuellen „Nero 8“-Suite ist.
Nero Recode DVD9 zu DVD-5
Angaben in Minuten, Sekunden
|
DivX 6.7
Seit DivX 6.1 (Codename Helium) [22] unterstützt der für Videos sehr beliebte MPEG-4/ASP-Codec auch Dual-Core-Prozessoren und erreicht je nach Konfiguration eine Steigerung der Encoding-Rate um mehr als 150 Prozent. Die Leistungsunterschiede sind dabei umso stärker ausgeprägt, je höher die gewählte Qualitätsstufe ist. Bei früheren Prozessortests wurde DV- und MPEG2-Videomaterial mit unterschiedlichen Qualitätseinstellungen nach DivX 6.1 encodiert. Tendenziell waren auch hier die Ergebnisse gleich. Die bei DV gewählten, niedrigen Qualitätseinstellungen für Audio- und Video-Encoding ließen Single-Core-Prozessoren ein wenig besser abschneiden. Aufgrund des größeren Praxisbezugs werden fortan nur noch die Ergebnisse des MPEG2-Encodings veröffentlicht.
Erstmals zum Einsatz kommt DivX 6.7, der experimentelle Unterstützung für die SSE4-Befehlssätze beinhaltet. Intel hat gerade durch diese Instruktionen im Zusammenspiel mit DivX einen großen Performanceschub für Anwender versprochen, der in Ansätzen bereits erkennbar ist. An der Stelle hängt jedoch viel von der Art der Betrachtung ab. Intel hat in einem kleinen Guide die optimalen Einstellungen für ein möglichst gutes Ergebnis geliefert, jedoch haben diese, dank Einstellungen wie „No Sound“ wenig Bezug zur Realität. Deshalb verwenden wir unser angestammtes Video und behalten die originalen Einstellungen bei. Mit dem neuen Prozessor testen wir deshalb einmal in der herkömmlichen SSE2-Optimierung, wie sie derzeit jede CPU unterstützt, als auch in der neuen aber noch experimentellen SSE4-Variante.
TMPGenc Xpress 4: MPEG2 zu DivX 6.7
Angaben in Minuten, Sekunden
|
MPEG 2
Das Zielformat für alle Hobby-Filmer ist (zumindest vorerst) nach wie vor die DVD und damit ein Film im MPEG2-Standard. Das Videomaterial selbst liegt dabei üblicherweise als Digital Video (DV) vor. Für den Test haben wir auf TMPGEnc 4.0 XPress 4.3.1.222 vertraut.
TMPGenc Xpress 4: DV zu MPEG2
Angaben in Minuten, Sekunden
|
WMV
Soll es einmal schnell gehen, greift der eine oder andere vielleicht doch auf den mit Windows XP (x64) ausgelieferten bzw. separat als Update verfügbaren Windows Movie Maker in der Version 2.0 zurück. Aufgrund der wahrscheinlich gar nicht so geringen User-Basis wurde dieser Benchmark in den Parcours aufgenommen. Das zuvor bereits mehrfach genutzte DV-Material wird mit der 1,7 Mbps Bitrate nach WMV konvertiert.
TMPGenc Xpress 4: DV zu WMV AVC
Angaben in Minuten, Sekunden
|
Audioencoding
MP3
Das 1985 entwickelte Audiokompressionverfahren MP3 ist das heute vorherrschende Format für Musik. Es wird von einer breiten Palette an Endgeräten unterstützt und bietet in der letzten Weiterentwicklung sogar Support für 5.1 Mehrkanal-Audio [23]. Das Spektrum an Encodern für MP3 ist mannigfaltig. Für unseren Test haben wir uns zwei Vertreter herausgegriffen.
Besonders populär ist die kostenlose Software Lame [24], die von verschiedenen Programmen eingesetzt wird. Wir testen mit Beta 2 von Lame 3.97. Hierbei handelt es sich um eine 32-Bit-Applikation, die Performance auf Niveau der letzten finalen Version 3.96.1 liefert und keinen Gebrauch von mehreren Prozessorkernen macht. Somit profitieren Dual-Core-Prozessoren nur dann, wenn mehrere Dateien parallel umgewandelt werden. Neben dieser Version existiert eine Machbarkeitsstudie [25] (Dokumentation [26]), die zeigt, dass Lame in begrenztem Maße für Multi-Prozessor-Systeme optimiert werden kann. Von dieser experimentellen Alpha-Version stehen Versionen mit Intel- und Microsoft-Compiler für Windows x32 und x64 zur Verfügung. Aufgrund der Performance testen wir die Version mit Intel Compiler.
Lame: WAV zu MP3
Angaben in Minuten, Sekunden
|
Mit iTunes wiederholen wir das Prozedere. Es wird die gleiche Musikdatei einmal in das Format .mp3 umgewandelt, danach in AAC. In den Einstellungen wurden dabei darauf geachtet, dass auch die Qualitätseinstellungen von 192 kbit/s beibehalten wurden.
iTunes 7: WAV zu MP3
Angaben in Minuten, Sekunden
|
AAC
iTunes 7: WAV zu AAC
Angaben in Minuten, Sekunden
|
OGG
Ogg
Angaben in Minuten, Sekunden
|
Spiele
3DMark03
Einer der ältesten Benchmarks ist 3DMark03. Dennoch erfreut er sich, gerade bei Leuten, die diesen Test vor Jahren schon einmal mit einer nicht so guten Grafikkarte gemacht haben, großer Beliebtheit. Auch bei Overclockern wird der Test immer noch dargeboten, was zu skurrilen Werten im hohen 5-stelligen Bereich führen kann. Wir haben diesen Benchmark der Vollständigkeit halber mit aufgenommen.
Download: 3DMark03 [27]
Futuremark 3DMark03
Angaben in Punkten
|
Futuremark 3DMark03 (CPU)
Angaben in Punkten
|
3DMark05
Der 3DMark05 liegt technisch nach wie vor auf sehr hohem Niveau. So kommen große Texturen mit der Auflösung 2048x2048, gemischt mit der Benutzung des Shader-Model 3.0, 2.x oder 2.0, zum Einsatz. Das letztes Jahr erschienene Programm setzt auf komplexe Lichteffekte, dynamische Schatten, aufwendige Bump Mapping-Effekte und benötigt vor allem eine hohe Geometrieleistung. Im Ergebnis spiegelt sich allerdings nur die Geschwindigkeit der Grafikkarte wieder, da diese selbst bei aktueller Hardware immer den Flaschenhals darstellt. Der wohl größte Nachteil beim 3DMark05 sind die weitläufigen Treiberoptimierungen aller aktuellen Grafikkartenhersteller. Diese gehen soweit, dass sich die Endergebnisse je nach Treiber im zweistelligen Prozentbereich verändern, somit können qualitätsmindernde Optimierungen nicht ausgeschlossen werden. Zudem basiert der synthetische Benchmark auf keinerlei Spieleengine, weshalb er keine reale Situation darstellt. Weitere Details zu diesem Programm gibt es in einem unserer ausführlichen Artikel [28].
Download: 3DMark05 [29]
Futuremark 3DMark05
Angaben in Punkten
|
Futuremark 3DMark05 (CPU)
Angaben in Punkten
|
3DMark06
Die allseits bekannte Benchmarkserie von Futuremark hört in der aktuellsten Version auf die Bezeichnung „3DMark06“ Von den sechs Testszenen messen vier Sequenzen die Performance der Grafikkarte und zeigen eine Grafikpracht, die ihres gleichen sucht. Um jene zu erreichen setzen die Finnen auf moderne 3D-Technologie, weswegen nicht nur massiv das Shader-Model 3.0 verwendet wird, auch extrem aufwendige Texturen, spektakuläre Partikeleffekte, komplexe Schattenberechnungen und als weiteres Highlight „High Dynamic Range Rendering“ – kurz HDRR – werden eingesetzt. Dabei setzt Futuremark auf FP16-HDR, das die derzeit best mögliche Bildqualität liefert, aber auch aufwendig zu berechnen ist. Weitere Details zu diesem Programm gibt es in einem unserer ausführlichen Artikel. [30]
Download: 3DMark06 [31]
Futuremark 3DMark06
Angaben in Punkten
|
Futuremark 3DMark06 (CPU)
Angaben in Punkten
|
Fear
Die Programmierer des Gruselshooters F.E.A.R. scheinen sich Doom 3 als großes Vorbild ausgesucht zu haben, wobei man allerdings fast alles besser zu machen scheint. Unter anderem wird die sehr beklemmende Atmosphäre durch eine Grafikqualität erreicht, die ihres Gleichen sucht. Shadereffekte in Massen, wunderschönes Bump-Mapping, sehr spektakuläre Schattenwürfe, detaillierte Texturen sowie hübsch aussehende Partikeleffekte und noch vieles mehr bekommt der Spieler zu Gesicht, weswegen F.E.A.R. bereits Pflicht für einen guten Benchmark-Parcours geworden ist. Wir verwenden die Multiplayer-Demo, die über eine integrierte Benchmarkfunktion verfügt.
Fear (Average)
Angaben in Bildern pro Sekunde (FPS)
|
Quake 4
Die bekannte Quake-Reihe von ID-Software ist jedes mal ein Highlight für einen „First Person Shooter“-Fan, da die Spiele nicht nur einen hohen Unterhaltungswert bieten, sondern auch mit einer Grafikpracht daherkommen, die des öfteren die Messlatte ein gutes Stück höher legt. Die aktuelle Version, Quake 4, wurde allerdings von Raven Software programmiert und nutzt eine leicht weiterentwickelte Doom-3-Engine. Somit liegt die Grafik auf einem hohen Niveau, kann aber keine neue Maßstäbe setzen. Nichtsdestotrotz bietet das Spiel mit aufwendigen Charaktertexturen und vielen Schattenspiele einiges fürs Auge. Die ausgesuchte Timedemo zeigt mehrere Feuergefechte sowie spektakuläre Schatten- und Farbspiele. Es wird die letzte aktuelle Variante des Spiels mit dem Patch 1.42 eingesetzt.
Quake 4 1.42
Angaben in Bildern pro Sekunde (FPS)
|
Anno 1701
Auch wenn normalerweise First-Person-Shooter mit einer erstaunlichen Grafik glänzen können, so hat es sich das deutsche Entwicklerteam des Strategiespieles Anno 1701 nicht nehmen lassen, den Nachfolger der legendären Spiele Anno 1602 sowie Anno 1503 ebenfalls mit einer Grafikengine auszustatten, die sich vor der gesamten Konkurrenz nicht zu verstecken braucht. Das Auge bekommt praktisch alles geboten, was derzeit mit moderner Hardware möglich ist. Detaillierte Texturen, schön anzusehende Landschaften, nette Shadereffekte, wie Beispielsweise die Darstellung des Wassers inklusive der Brechung der Wellen und noch vieles mehr machen Anno 1701 zu einem wahren Augenschmaus. Aus diesem Grund eignet sich das Strategiespiel, als eines der wenigen seiner Art, für die Teilnahme an einem Review, da neben der GPU auch die CPU viel zu berechnen hat.
Anno 1701
Angaben in Bildern pro Sekunde (FPS)
|
Company of Heroes
Egal wohin man schaut, Spiele, bei denen das Szenario im Zeitraum des zweiten Weltkrieges angesiedelt ist, gibt es spätestens nach dem Erfolgshit „Call of Duty“ wohl wie Sand am Meer. Während einige dieser Spiele durchaus zu gefallen wissen, sind andere nur ein regelrechter Abklatsch, um auf der Erfolgswelle mitzuschwimmen. Zu ersterer Gattung gehört zweifellos das Strategiespiel „Company of Heroes“, was sich im Jahre 2006 wohl zu einem kleinen Geheimtipp entwickelt hat. Ein Grund dafür ist eine sehr gute Grafik-Engine, die auch schwerste Geschütze auffährt, damit die Konkurrenztitel das Nachsehen haben. „Operation gelungen!“, ist das einzige, was man bei Company of Heroes diesbezüglich sagen kann. Das Spiel bietet eine Menge fürs Auge und vor allem in den Schlachtszenen passiert es des Öfteren, dass man vergisst, den eigenen Truppen Kommandos zu erteilen, und stattdessen das Spielgeschehen bewundert.
Company of Heroes (DirectX 9)
Angaben in Bildern pro Sekunde (FPS)
|
Auf den Patch 1.70 von Company of Heroes haben sicherlich viele Spieler gewartet, denn so bringt die aktuelle Version des Strategietitels nicht nur einige weitere Fehlerbeseitigungen mit sich, sondern führt auch die Unterstützung von Direct3D 10 ein. Die neue API kann man bei einer entsprechenden Grafikkarte im Spielmenü auswählen und schon erscheinen alle Levels in neuem Glanz. Darüber hinaus kann man die Terraindetails nun eine Stufe höher auf „Ultra“ schrauben, was einige Bodendetails hinzufügt und die Texturen sichtbar verbessert. Die Direct3D-10-Version bietet dem Spieler eine pixelgenaue Beleuchtung, Percentage Closer Filtering für die Soft Shadows auf allen D3D10-Beschleunigern, schönere Partikeleffekte sowie Alpha to Coverage für alle Bäume und Sträucher, die somit auch von herkömmlichen MSAA erfasst und bearbeitet werden. Als Benchmarksequenz verwenden wir wie in der Direct3D-9-Version von Company of Heroes den integrierten Benchmark.
Company of Heroes (DirectX 10)
Angaben in Bildern pro Sekunde (FPS)
|
World in Conflict
Mittlerweile sehen Strategiespiele zwar deutlich besser aus als noch vor einigen Jahren, so recht gelingen will es den Programmen aber nur selten, in die Königsklasse, die meist von First-Person-Shootern besetzt wird, vorzudringen. Den Entwicklern von World in Conflict scheint dies nicht gereicht zu haben und man entwickelte eine Grafikengine, die sich vor keinem anderen Spiel zu verstecken braucht. World in Conflict unterstützt die Direct3D-10-API und hat keine Schwierigkeiten, Kantenglättung unter der neuen Programmierschnittstelle anzuwenden. Schicke Shadereffekte zieren das Spiel (so wirft die Sonne beispielsweise Lichtstrahlen durch die Wolken, die die Umgebung beleuchten), ebenso detaillierte Texturen und eine realistische Schattendarstellung. Die Animationen der Spielcharaktere sind gut gelungen, was in Kombination mit einer kinoreifen Schnittreihenfolge Filmatmosphäre in den Zwischensequenzen aufkommen lässt. Als Testsequenz benutzen wir wie in unseren Grafikkarten-Tests nicht die integrierte Benchmarkfunktion, da diese sich in einigen Situationen etwas seltsam verhält. Stattdessen verwenden wir die Introsequenz zur ersten Mission der Kampagne.
World in Conflict (DirectX 10)
Angaben in Bildern pro Sekunde (FPS)
|
Crysis
In letzter Minute hat sich die Demo von Crysis zum Test angemeldet. Natürlich durften wir uns nicht entgehen lassen, Intels neues Flaggschiff mit der derzeit schnellsten Grafikkarte von AMD einem Testlauf bei dem Blockbuster zu unterziehen. Das Spiel stuft das komplette System als „High“ in die Kategorie „3“ ein – entsprechend sehen die Einstellungen im Spiel aus. Dies ist aber noch noch lange nicht das optimale Setup, dass für die CryEngine 2 benötigt wird. Die für unser System optimalen Settings beherbergen in diesem Fall nur die Auflösung von 1024 x 768 Bildpunkten. Die Optionen „Very High“ werden erst bei Kategorie „4“ vergeben – was auch immer für ein System dazu notwendig ist.
Den Benchmark kann jeder am heimischen PC selber nachvollziehen. Damit diese korrekt unter Windows Vista ausgeführt wird, muss der Crysis.exe das Attribut „Als Administrator ausführen“ gegeben werden. Anschließend funktionieren die unter „C:\Program Files\Electronic Arts\Crytek\Crysis SP Demo\Bin32“ versteckten Benchmark-Batch-Runs Benchmark_CPU.bat und Benchmark_GPU.bat. Bei den Benchmarks werden jeweils die zuletzt im Spiel gewählten Settings genutzt. Darauf muss geachtet werden. Unter „C:\Program Files\Electronic Arts\Crytek\Crysis SP Demo\Game\Config“ kann mit Hilfe von benchmark_cpu.cfg und benchmark_gpu.cfg eingestellt werden, wie häufig die Benchmarks wiederholt werden sollen. Wir zeigen jeweils die Ergebnisse aus Testläufen in der uns empfohlenen Auflösung von 1024 x 768 Bildpunkten, als auch bei identischen Einstellungen in 1280 x 1024 Pixeln.
Download: Crysis Singleplayer-Demo [32]
Crysis
Angaben in Bildern pro Sekunde (FPS)
|
Performancerating
Zum Abschluss fassen wir die Ergebnisse in unserem Performancerating zusammen. Unterteilt haben wir dabei in vier Gruppen, wie es bereits in den Benchmarks ersichtlich war. Den Anfang machen dabei die theoretischen Tests, zu denen sich auch die Ergebnisse von allen Varianten des PCMark und 3DMark gesellen. Die weiteren Diagramme dürften sich folglich selbst erklären.
Das Gesamtrating setzt sich letzten Endes zu gleichen Teilen aus den einzelnen Ratings Synthetisch, Spiele, Multimedia und Anwendungen zusammen.
Gesamtrating
Angaben in Prozent
|
Performancerating Synthetisch
Angaben in Prozent
|
Performancerating Anwendungen
Angaben in Prozent
|
Performancerating Multimedia
Angaben in Prozent
|
Performancerating Spiele
Angaben in Prozent
|
Sonstiges
Stromverbrauch
Natürlich haben wir uns bei der neuen Prozessorgeneration auch mit dem Thema des Stromverbrauchs befasst. Dabei kamen so erstaunliche Ergebnisse ans Tageslicht, dass wir des Test ein halbes Dutzend Mal wiederholt haben, um völlig sicherzustellen, dass die Werte wirklich stimmen.

Leistungsaufnahme Komplett
Angaben in Watt (W)
|
85 Watt Unterschied in der Leistungsaufnahme ließen den Autor anfangs an seinen Fähigkeiten zweifeln. Sollte es wirklich einen so gravierenden Unterschied zwischen zwei gleich getakteten Prozessoren in einem Komplettsystem geben!? Doch auch nach den Versuchen drei, vier, fünf bis elf kam immer wieder das gleiche Ergebnis zum Vorschein. In den Dauertests, bestehend aus Prime 95 und 3DMark06, benötigt der alte Core 2 Extreme mit dem kompletten System immer um die 470 Watt, während die Nadel maxmal bis knapp an die 490 Watt ausschlägt. Der Nachfolger braucht im Zusammenspiel mit der Radeon HD 2900 XT und den restlichen Komponenten in den identischen Fällen im Mittel „nur“ knapp 380 Watt, der maximale Ausschlag ist jedoch auch hier bei etwas über 400 Watt gemessen worden. Bereits im BIOS und bei keinerlei Tätigkeit in Windows kann der neueste Ableger durch seine Stromsparfunktionen und technische Neuerungen eine geringere Leistungsaufnahme für sich verbuchen.
Zu nochmaligen Überprüfung haben wir den Test unter Windows Vista ohne maximalen Grafikkarteneinfluss nur mit Prime 95 durchgeführt. Dafür wurde nach dem Windowsstart nur das Tool gestartet und mit dem Leistungsmesser nach einigen Minuten die Aufnahmefunktion betätigt.
Leistungsaufnahme
Angaben in Watt (W)
|
Die Messungen ergaben beim Core 2 Extreme QX6850 Werte zwischen 319 und 339 Watt, während der neue Ableger QX9650 mit 250 bis maximal 272 Watt zu Werke ging. Im Mittel entspricht dies immer noch einem Unterschied von 68 Watt. Erklärbar sind diese zum einen mit der zur Verfügung stehenden Spannung, welche beim QX6850 im BIOS mit 1,3125 Volt angegeben ist, der QX9650 benötigt an gleicher Stelle 1,2500 Volt. Als Vergleichsprozessor fungiert noch einmal das Modell mit zwei Kernen – der X6800 mit 2,93 GHz bei 1,3250 Volt, bei dem das System mit durchschnittlichen 241 Watt ohne Belastung der Grafikkarte kein Kostverächter ist.
Die Gründe für den doch sehr großen Unterschied liegen im Detail, wie zum Beispiel der zur Verfügung stehenden Spannung, vor allem jedoch an der neuen Technologie. Intel gibt an, das der Einsatz der 45nm Hi-K Metal Gate Silizium Technologie dafür sorgen kann, dass die neuen Prozessoren etwa 30 Prozent weniger Schaltstrom benötigen und eine mehr als 20 Prozent schnellere Schaltgeschwindigkeit oder fünfmal weniger Leckströme haben. In allen Bereichen, aber vor allem im Notebooksegment, steht neben hoher Leistung vor allem eine noch höhere Energieeffizienz im Mittelpunkt der Anstrengungen von Intel, was mit dem ersten Eindruck gelungen zu sein scheint.
Anmerkung des Autors: Natürlich ist auch die Messung nicht frei von Fehlern. Jedes Baulelement, angefangen beim Mainboard, über den Speicher bis hin zur Grafikkarte, Festplatte und DVD-Brenner, aber auch den verbauten Lüftern und weiteren Elementen, ist Schwankungen in der Leistungsaufnahme unterlegen. Auch Prozessoren der vermeintlich gleichen Serie können nur bedingt miteinander verglichen werden, da schon das Stepping und die Revision einige Unterschiede bereithalten kann. Während erste Tests des Yorkfield vor einem guten Monat mit einem Stepping 1 getätigt wurden, sind wir derzeit beim Stepping 6 angekommen. Die ermittelten Werte können deshalb bei unterschiedlichen Konstellationen und Belastungen stark abweichen, so dass diese nur als Indiz für die ungefähre Leistungsaufnahme eine Prozessors gewertet werden können.
Temperatur
Quasi in einem Abwasch mit der Leistungsaufnahme erfolgt die Ermittelung der maximalen Temperatur. Hier hat sich gezeigt, dass Prime alleine nicht ausreicht, um die maximale Temperatur des Prozessors zu erreichen – trotz der Anzeige im System, dass alle Prozessorkerne zu 100 Prozent ausgelastet sind. Core2MaxPerf [33], das wir unter anderem bei unseren Kühlertests verwenden, wäre an dieser Stelle das bessere Tool gewesen, da es den Prozessor noch effektiver belastet und somit höhere Temperaturen erzeugt, jedoch erkennt es den neuen 45-nm-Intel-Prozessor noch nicht. Deshalb muss eine Kombination aus verschiedenen Anwendungen herhalten, um den Höchstwert zu ermitteln.


Zu diesem Zweck wurde das geschlossene System vorab eine Stunde im 3DMark06-Loop aufgeheizt und die Temperaturwerte dann bei der Kombination aus Prime95 und 3DMark06 ermittelt. Die Zimmertemperatur lag immer bei runden 21 Grad, die ausgelesene Temperatur vom Mainboard zu Zeiten der Volllast bei maximal 46 Grad.
maximale Temperatur
Angaben in °C
|
Das Bild der Leistungsaufnahme zeigt sich auch bei den Temperaturen. Der neue Vier-Kern-Prozessor von Intel beeindruckt mit Temperaturen, die denen der Zwei-Kern-Prozessoren gleichen. Mit seinen 3,0 GHz ist der QX9650 um einiges leichter zu kühlen, als der 2,4 GHz schnelle Q6600. Der alte QX6850 mit 3,0 GHZ liegt fast 20 Grad Celsius über dem neuen Modell, auch wenn die Temperaturmessung der einzelnen Kerne nicht so sehr abweicht. Die 45-nm-Fertigung spielt insgesamt gesehen aber einmal mehr die Trümpfe aus.
Übertaktbarkeit
Vielen dort draußen wird der gerade neu gekaufte Prozessor noch nicht schnell genug sein. Ein probates Mittel, dieses Bedürfnis nach noch mehr Geschwindigkeit zu befriedigen, ist die Hardware zu übertakten. Als kleine Stabilitätsprobe ließen wir den 3DMark06 und Prime 95 laufen und testeten nachfolgend den höchsten Takt mit Hilfe von einigen ausgewählten Anwendungen. Jedoch muss man vor den Messungen anmerken, dass sich die Ergebnisse nicht auf jeden Prozessor desselben Typs übertragen lassen, da die Güte von Chip zu Chip unterschiedlich ist.
Für den Test haben wir den Multiplikator auf 10 angehoben und den Frontside-Bus auf 1.600 MHz erhöht. Damit übertaktet sich natürlich auch der Speicher, der mit 1.600 MHz aber noch voll in den Spezifikationen läuft. Das Mainboard von Gigabyte machte diese Dinge anstandslos mit, nicht umsonst hat das Unternehmen der Platine auch FSB1600 bei äquivalentem Speicher bescheinigt. Für ein Schuss mehr an Stabilität sorgt eine kleine Spannungserhöhung des Prozessors, mit dem folglich alle Tests einwandfrei verlaufen sind.
Übertakten Speicher
Angaben in Megabyte pro Sekunde (MB/s)
|
Übertakten Rendern
Angaben in Punkten
|
Übertakten Spiele
Angaben in Bildern pro Sekunde (FPS)
|
Wie erwartet zeigt sich, dass die CPU bei modernen Spielen keine allzu große Rolle mehr spielt. Crysis zum Beispiel stuft den von uns simulierten 4-GHz-Quad-Core mit FSB1600 immer noch als nicht schnellstes Modell ein, so dass die höchsten Einstellungen weiterhin verborgen bleiben.
Ein wenig anders ist das Bild in den theoretischen Tests und unter anderem bei Cinebench R10. Die Speicherbandbreite erhöht sich dank des gestiegen Frontside-Bus natürlich um einige Prozent, Cinebench R10 profitiert hingegen deutlich vom reinen Prozessortakt.
Preise und Zukunft
Kommen wir nun zu einer der interessantesten Fragen dieses Artikel: „Was kostet der Spaß?“ Bei den Preisen hält sich Intel an das gewohnte Schema. Das absolute High-End- und in diesem Artikel vorgestellte Modell QX9650 mit 3,00 GHz kostet ab dem 12. November 2007 wie die vorangegangenen Extreme-Editions satte 999 US-Dollar bei einer Abnahme von 1.000 Stück. Dahinter reihen sich die weiteren Vier-Kern-Prozessoren von 530 bis hinunter zu 266 US-Dollar im Januar des kommenden Jahres ein. Die Zwei-Kern-Modelle staffeln sich von 163 bis 266 US-Dollar. Damit kostet der schnellste Zwei-Kern-Prozessor soviel wie der schwächste Vier-Kerner; Das ist aber auch schon bei der aktuellen Generation zwischen dem Q6600 und dem E6850 der Fall. Ein ähnliches Bild ergibt sich bei den Mobile-Prozessoren, allerdings kostet hier die Extreme Edition lediglich 851 US-Dollar und die Staffelung der kleinen Prozessoren ist mit 209, 241, 316 und 530 US-Dollar leicht differenziert gegenüber der Desktop-Serie.
Im ersten Quartal 2008 überrascht Intel zudem mit zwei neuen Extreme-Editions, welche erstmals über einen Frontside-Bus von 1.600 MHz verfügen werden. Neben einer Version für Ein-Sockel-Systeme (QX9770) plant Intel auch eine Variante für Zwei-Sockel-Systeme (QX9775), welche zusammen mit dem Intel 5400 Server-/Workstation-Chipsatz (Codename: „Seaburg“) unter dem Namen der „Skulltrail“-Plattform inklusive Nvidias SLI- und AMDs CrossFire-Unterstützung vermarktet werden soll. Gegenüber der normalen Extreme Edition ist der QX9775 mit fast 1.500 US-Dollar nochmal ein gutes Stück teurer. Ein komplettes System, bestehend aus zwei CPUs, vier Gigabyte oder mehr Fully-Buffered Arbeitsspeicher (FB-DIMM) und zwei High-End-Grafikkarten erreicht so spielend einen Preis jenseits der 5.000-Euro-Marke.
| Modell | Takt | FSB | L2-Cache | Sockel | Okt. | 11. Nov | Jan.08 | Q1/08 |
|---|---|---|---|---|---|---|---|---|
| Desktop Intel Core 2 Extreme QX9xxx/QX6xxx | ||||||||
| C2E QX9775 | 3,20 GHz | 1600 MHz | 12 MB | LGA771 (DP) | - | - | - | $1.499 |
| C2E QX9770 | 3,20 GHz | 1600 MHz | 12 MB | LGA775 | - | - | - | $1.399 |
| C2E QX9650 | 3,00 GHz | 1333 MHz | 12 MB | LGA775 | - | $999 | - | - |
| C2E QX6850 | 3,00 GHz | 1333 MHz | 8 MB | LGA775 | $999 | - | - | - |
| C2E QX6800 | 2,93 GHz | 1066 MHz | 8 MB | LGA775 | $999 | - | - | - |
| Desktop Intel Core 2 Quad Q9xxx/Q6x00 | ||||||||
| C2Q Q9550 | 2,83 GHz | 1333 MHz | 12 MB | LGA775 | - | - | $530 | - |
| C2Q Q9450 | 2,66 GHz | 1333 MHz | 12 MB | LGA775 | - | - | $316 | - |
| C2Q Q9300 | 2,50 GHz | 1333 MHz | 6 MB | LGA775 | - | - | $266 | - |
| C2Q Q6700 | 2,66 GHz | 1066 MHz | 8 MB | LGA775 | $530 | - | - | - |
| C2Q Q6600 | 2,40 GHz | 1066 MHz | 8 MB | LGA775 | $266 | - | - | - |
| Desktop Intel Core 2 Duo E8xxx/E6xxx | ||||||||
| C2D E8500 | 3,16 GHz | 1333 MHz | 6 MB | LGA775 | - | - | $266 | - |
| C2D E8400 | 3,00 GHz | 1333 MHz | 6 MB | LGA775 | - | - | $183 | - |
| C2D E8200 | 2,66 GHz | 1333 MHz | 6 MB | LGA775 | - | - | $163 | - |
| C2D E6850 | 3,00 GHz | 1333 MHz | 4 MB | LGA775 | $266 | - | - | - |
| C2D E6750 | 2,66 GHz | 1333 MHz | 4 MB | LGA775 | $183 | - | - | - |
| C2D E6550 | 2,33 GHz | 1333 MHz | 4 MB | LGA775 | $163 | - | - | - |
| C2D E6540 | 2,33 GHz | 1333 MHz | 4 MB | LGA775 | $163 | - | - | - |
| C2D E6700 | 2,66 GHz | 1066 MHz | 4 MB | LGA775 | $316 | - | - | - |
| C2D E6600 | 2,40 GHz | 1066 MHz | 4 MB | LGA775 | $224 | - | - | - |
| C2D E6420 | 2,13 GHz | 1066 MHz | 4 MB | LGA775 | $183 | - | - | - |
| C2D E6400 | 2,13 GHz | 1066 MHz | 2 MB | LGA775 | $183 | - | - | - |
| C2D E6320 | 1,86 GHz | 1066 MHz | 4 MB | LGA775 | $163 | - | - | - |
| C2D E6300 | 1,86 GHz | 1066 MHz | 2 MB | LGA775 | $163 | - | - | - |
| Mobile Intel Core 2 Extreme X9x00/X7x00 | ||||||||
| C2E X9000 | 2,80 GHz | 800 MHz | 6 MB | Sockel P | - | - | $851 | - |
| C2E X7900 | 2,80 GHz | 800 MHz | 4 MB | Sockel P | $851 | - | - | - |
| Mobile Intel Core 2 Duo T9x00/T8x00/T7xxx | ||||||||
| C2D T9500 | 2,60 GHz | 800 MHz | 6 MB | Sockel P | - | - | $530 | - |
| C2D T9300 | 2,50 GHz | 800 MHz | 6 MB | Sockel P | - | - | $316 | - |
| C2D T8300 | 2,40 GHz | 800 MHz | 3 MB | Sockel P | - | - | $241 | - |
| C2D T8100 | 2,10 GHz | 800 MHz | 3 MB | Sockel P | - | - | $209 | - |
| C2D T7800 | 2,60 GHz | 800 MHz | 4 MB | Sockel P | $530 | - | - | - |
| C2D T7700 | 2,40 GHz | 800 MHz | 4 MB | Sockel P | $316 | - | - | - |
| C2D T7500 | 2,20 GHz | 800 MHz | 4 MB | Sockel P | $241 | - | - | - |
| C2D T7250 | 2,00 GHz | 800 MHz | 2 MB | Sockel P | $209 | - | - | - |
Wirft man einen Blick auf die Roadmaps, kann einem tatsächlich Angst und Bange werden und es wird klar, dass Intel mit aller Macht versuchen will, ein erneutes Hintertreffen gegenüber der Konkurrenz in Form von AMD zu vermeiden. Bereits im zweiten Quartal 2008 steht das nächste Update für die Intel Desktop-Plattform an. Zusammen mit der neuen Chipsatzfamilie unter dem Codenamen „Eaglelake“ bekommt der mittlerweile doch recht betagte Frontside-Bus ein (vermutlich letztes) Update auf eine effektive Taktfrequenz von 1.600 MHz. Neben der Unterstützung des schnelleren Frontside-Bus bringt die „Eaglelake“-Familie auch eine neue Southbridge (I/O Controller Hub – kurz ICH10) sowie eine neue integrierte Grafikeinheit GMA (X)4500 mit. Zu den Keyfeatures des neuen Graphics Media Accelerators (GMA) X4500 gehören unter anderem eine volle Unterstützung der DirectX-10-Schnittstelle, eine verbesserte Beschleunigung bei der Ausgabe von HD-Inhalten (Blu-ray-, HD-DVD-Playback) und die native Unterstützung von HDMI und HDCP. Ursprünglich schien D3D10 dank der Unified Shader Architektur des GMA X3000 schon für den Broadwater-G (G965) Chipsatz vorgesehen zu sein [34]. Zumindest für die aktuelle GMA X3500 des G35 soll im ersten Quartal 2008 ein neuer Treiber mit DirectX-10-Unterstützung folgen [35].
Wie schon bei der aktuellen Generation trennt Intel die einzelnen Chipsätze in ihr jeweiliges Marktsegment auf. Während der X48 mit Support für XMP (Xtreme Memory Profiles) DDR3-1600 und zahlreichen Auto-Overclocking-Features als Nachfolger des X38 auf das absolute High-End-Segment abzielt, decken der P45, G45 und Q45 die übrigen Marktsegmente ab und lösen die aktuellen Chipsätze P35, G35 und Q35 inklusive Value-Derivate in ihrer bestehenden Form ab.
Ende 2008 findet mit der „Nehalem“-Prozessorgeneration eine der wohl größten Architekturänderungen in den vergangenen Jahren bei Intel statt. Ähnlich wie bei AMD seit dem K8 praktiziert, wandert der Speichercontroller aus dem Chipsatz direkt in die CPU und auch der Frontside-Bus hat ausgedient. Stattdessen werden Chipsatz und Prozessor über ein auf den Namen „QuickPath“ getauftes serielles Interface verbunden. Aufmerksamen Lesern wird der Name „Nehalem“ durchaus bekannt vorkommen. Bereits im Jahre 2003 machte er von sich reden [36], sollte er doch erstmal die 10 GHz Marke knacken. Nachdem Intel jedoch mit dem Prescott-Debakel erkennen musste, dass nur über die Taktrate kein Weg zum Erfolg führte und auch der Prescott-Nachfolger „Tejas“ kurzerhand eingestampft wurde, verschwand der Name Nehalem wieder von den Roadmaps, um einige Jahre später unter einem anderen Gesicht wieder aufzutauchen.
Anders als bei den aktuellen Vier-Kern-Prozessoren, welche technisch gesehen mehr oder weniger nur zwei Zwei-Kern-Prozessoren als MCM auf einem Package zusammengeschaltet sind, verbirgt sich hinter Nehalem ein natives Vier-Kern-Design, welches zudem auch beliebig skaliert werden kann. Neben der Anzahl an Prozessor-Kernen, kann auch die Anzahl an QuickPath-Links und Speicherkanälen variiert werden. Das Topmodell „Bloomsfield“ startet beispielsweise mit einer Konfiguration bestehend aus vier Prozessorkernen, einem Quickpath-Link und insgesamt drei DDR3-1600 Speicher-Kanälen (Triple-Channel) zusammen mit dem Tylersburg-DT Chipsatz. Mit der neuen Generation wird zudem ein neuer Sockel eingeführt. Der Sockel LGA-1366 – auch bekannt als Sockel B – verdoppelt beinahe die Anzahl an Pins, was angesichts des integrierten Triple-Channel-Speichercontrollers auch kaum verwunderlich sein dürfte. Ebenfalls mit an Bord ist die bereits von der „Netburst“-Generation bekannte HyperThreading-Funktion, die es den Nehalem-Prozessoren erlaubt, pro Kern zwei Threads parallel zu verarbeiten sowie insgesamt sieben neue Befehle der Streaming SIMD Extensions 4.2. Neu ist hingegen die Multi-Level-Shared-Cache-Technologie, die den einzelnen Prozessor-Kerne den gemeinsamen Zugriff auch über mehrere Cache-Level ermöglicht, ohne über langsamere Zugriffe auf den Arbeitsspeicher zu gehen. Dank der deutlich besseren Skalierung durch die QuickPath-Technologie und den integrierten Speichercontroller sieht Intel für die Xeon-MP-Plattform auf Basis der Nehalem-Architektur sogar Systeme mit insgesamt acht Sockeln, 64 Kernen und dementsprechend 128 Threads vor [37].
Fazit
Schnell, leise, stromsparend – die drei Worte beschreiben den Neuling wohl am besten und sind der Traum eines jeden PC-Käufers. Die größte Überraschung nach einigen Tagen mit Core 2 Extreme QX9650 wirkt noch immer: Die sehr hohe Performance bei drastisch gesunkenem Leistungsbedarf. Seinen Vorgänger hängt er trotz gleicher Taktrate dank Optimierungen in vielen Bereichen ab – schon dafür allein gebührt ihm eigentlich die Krone. Doch fügt man der Performance die Temperaturanalysen und Leistungsmessungen hinzu, ergibt sich ein schier unglaubliches Bild, das in dieser Deutlichkeit wohl kaum jemand erwartet hat.
Insbesondere in den theoretischen Tests, aber auch in der Praxis beim Video- und Audioencoding oder beim Rendern laufen die vier Kerne des QX9650 zu Höchstform auf und lassen die weiteren Modelle teilweise deutlich hinter sich. Kommen die Optimierungen wie SSE 4.1 zum Einsatz, ist der Vorsprung ein gutes Stück größer. In Spielen rückt das gesamte Testfeld wie erwartet eng zusammen – wo Dual-Core-Prozessoren kaum von Vorteil sind, bewirken auch vier Kerne keine Wunder.
Der Knackpunkt ist natürlich derzeit noch der Preis von 999 US-Dollar. Jedoch wiegt dieser Punkt nicht all' zu schwer, da der Ausblick auf die kommenden 45-nm-Prozessoren erfreut. Ab Januar werden die neuen Vier-Kern-Modelle in kleineren Varianten verfügbar sein. Auch die Zwei-Kern-Ableger mit dem Codenamen „Wolfdale“ sollen im gleichen Zeitraum erscheinen. Wenn diese Modelle zu erschwinglichen Preisen ein ähnliches Bild gegenüber den bisherigen Varianten abgeben, dann sieht es wahrlich rosig aus für Intel.
Doch man soll den Tag bekanntlich nicht vor dem Abend loben. Im Handel ist dieser Prozessor erst ab dem 12. November 2007 – also in genau zwei Wochen. In den kommenden Tagen/Wochen wird jedoch AMD (endlich) die passende Antwort in Form des neuen Desktop-Prozessors „Phenom“ präsentieren. Dieser wird sich dann zum einen seinem Vorgänger, dem guten alten Athlon 64 X2 stellen müssen und der Core 2 Extreme QX9650 in der 45-nm-Fertigung wird alles daran setzen seine Spitzenposition zu verteidigen. Intel hat sehr überzeugend vorgelegt, doch die „Siegerehrung“ verschieben wir an der Stelle auf einen späteren Zeitpunkt.





















