Mit dem heutigen Tag lässt Intel den ersten Prozessor der neuen Generation vom Stapel laufen, die bislang unter dem Codenamen „Penryn“ firmierte. Die größte Neuerung des Flaggschiffs Core 2 Extreme QX9650 mit „Yorkfield“-Kern, das sich zum Test in der Redaktion eingefunden hat, ist der Herstellungsprozess in der 45-nm-Technologie. Diese verspricht nicht nur eine geringere Leistungsaufnahme, sondern soll auch die Effizienz des gesamten Prozessors erhöhen. Parallel dazu bekommt der Neuling zusätzliche Instruktionen und einen auf 12 MB vergrößerten L2-Cache spendiert. Das Zusammenspiel soll die derzeitig (noch) unangefochtene Spitzenposition von Intel in quasi allen Bereichen der Desktop-Prozessoren sichern.
Wir zeigen die Leistungsfähigkeit von Intels neuestem Prozessor und lassen diesen zusätzlich gegen seinen Vorgänger und weitere Modelle aus Intels Produktpalette antreten. Einen betagten AMD-Prozessor vom Typ Athlon 64 X2 als einziges Modell in diesen Vergleich mit aufzunehmen, erachten wir nicht als wirklich sinnvoll. In Kürze wird es hoffentlich in dieser Richtung einen weiteren Artikel mit einem komplett neuen Testsystem geben, der sich sowohl mit den alten als auch den kommenden AMD-Prozessoren befasst.
Im folgenden Abschnitt stellen wir den Core 2 Extreme QX9650 vor. Den Anfang macht der Überblick, anschließend analysieren wir die Architektur-Mikroarchitektur und stellen die 45-nm-Fertigung im Detail vor. Nach der Besprechung des Chipsatz-Supports lassen wir auf den folgenden 20 Seiten Zahlen für den neuen Prozessor sprechen.
In der Übersicht stellen wir den neuen Core 2 Extreme QX9650 seinen Vorgängern und parallel laufenden Modellen gegenüber. Genauere technische Details zur Architektur und zum Fertigungsprozess folgen auf den kommenden Seiten.
| Merkmale | Core 2 Extreme (Quad-Core) |
Core 2 Quad, Core 2 Extreme (Quad-Core) |
Core 2 Duo, Core 2 Extreme (Dual-Core) |
Core 2 Duo (Dual-Core) |
|
| Logo |
|
|
|
|
|
| Codename | Yorkfield (2x Wolfdale) |
Kentsfield (2x Conroe) |
Conroe | Allendale | |
| Taktrate oder Modellnummer (Takt in GHz) |
QX9650 (3,00) | Q6600 (2,40) QX6700 (2,66) QX6800 (2,93) QX6850 (3,00)1 |
E6300 (1,86)3 E6320 (1,86) E6400 (2,13)3 E6420 (2,13) E6540 (2,33) E6550 (2,33)1, 4 E6600 (2,4) E6700 (2,66) E6750 (2,66)1, 4 X6800 (2,93) E6850 (3,00)1, 4 |
E4300 (1,80)2, 5 E4400 (2,00)2, 5 E4500 (2,20)2, 5 E4600 (2,40)2, 5 E6300 (1,86) E6400 (2,13) |
|
| Fertigung | 45 nm | 65 nm | 65 nm | 65 nm | |
| Sockel | Sockel 775 | Sockel 775 | Sockel 775 | Sockel 775 | |
| Kerne | 4 (MCP) | 4 (MCP) | 2 | 2 | |
| Multithreading | X | X | X | X | |
| Frontside-Bus | 1333 MHz QDR | 1066 MHz QDR 1333 MHz QDR0 |
1066 MHz QDR 1333 MHz QDR0 |
800 MHz QDR0 1066 MHz QDR |
|
| Frontside-Bus-Last | 2 | 2 | 1 | 1 | |
| Peripherieinterface | Extern | Extern | Extern | Extern | |
| Speichercontroller | Extern | Extern | Extern | Extern | |
| Transistoren | 2x410 Mio. | 2x291 Mio. | 291 Mio. | 167 Mio. | |
| Chipgröße | 2x107 mm² | 2x143 mm² | 143 mm² | 111 mm² | |
| L1-Execution-Cache | 2x2x32 kB | 2x2x32 kB | 2x32 kB | 2x32 kB | |
| L1-Daten-Cache | 2x2x32 kB | 2x2x32 kB | 2x32 kB | 2x32 kB | |
| L2-Cache | 2x6144 kB | 2x4096 kB | 1x2048 kB0 1x4096 kB |
1x2048 kB | |
| L2-Anbindung | 256 Bit | 256 Bit | 256 Bit | 256 Bit | |
| L2-Modus | L1 inclusive | L1 inclusive | L1 inclusive | L1 inclusive | |
| Cache insgesamt | 2x6144 kB | 2x4096 kB | 2048 kB0 4096 kB |
2048 kB | |
| Energiesparfunktion | C1E, Enhanced SpeedStep (EIST) |
C1E, Enhanced SpeedStep (EIST) |
C1E, Enhanced SpeedStep (EIST) |
C1E, Enhanced SpeedStep (EIST) |
|
| Date Execution Prevention (NX-Bit) |
√ | √ | √ | √ | |
| 64-Bit-Technologie | √ (EM64T) | √ (EM64T) | √ (EM64T) | √ (EM64T) | |
| Virtualisierungs- Technologie |
√ (Vanderpool) | √ (Vanderpool) | √ (Vanderpool) | √ (Vanderpool)0 | |
| CPU-Architektur | 14-stufige Pipeline (Core) |
14-stufige Pipeline (Core) |
14-stufige Pipeline (Core) |
14-stufige Pipeline (Core) |
|
| Befehlssätze | MMX SSE SSE2 SSE3 SSSE3 SSE4.1 VT |
MMX SSE SSE2 SSE3 SSSE3 VT |
MMX SSE SSE2 SSE3 SSSE3 VT TXT |
MMX SSE SSE2 SSE3 SSSE3 VT |
|
| 0 Nur bei ausgesuchten Modellen 1 Besitzt einen 1333 MHz schnellen Frontside-Bus 2 Besitzt einen 800 MHz schnellen Frontside-Bus 3 Besitzt 2 MB L2 Cache (Im Silizium sind 4 MB vorhanden, 2 MB sind deaktiviert) 4 Unterstützt Trusted Execution Technology (TXT, ehemals La Grande) 5 Unterstützt keine Virtualisierungstechnologie (VT, ehemals Vanderpool) | |||||
Der Core 2 Extreme QX9650 basiert auf der Penryn-Mikroarchitektur. Hierbei handelt es sich um eine Weiterentwicklung der Core Mikroarchitektur (NGMA, Merom-Mikroarchitektur). Im Rahmen des Tick-Tock-Modells handelt es um ein „Tick“, die als Pioniere einer neuen Fertigungstechnologie (45 nm) dienen und wenig aufwendige Verbesserungen an einer bestehenden Architektur beinhalten. Obwohl die neuen Produkte bis zu 45 Prozent schneller sind – dazu später mehr –, nimmt man dies nicht zum Anlass, um bereits auf „Core 3“ als Produktnamen zu setzen. Diesen Schritt hebt man sich wohl für die wirklich gravierenden Architekturverbesserungen/-änderungen auf, die mit Nehalem, dem nächsten „Tock“ [1] anstehen.
Wurde die „Merom“ Generation noch in Israel entwickelt, findet die Entwicklung von „Penryn“ hauptsächlich in Folsom, Santa Clara und Costa Rica statt. Das Designteam umfasst ca. 150 Mitarbeiter, während das komplette Team aus rund 400 Mitarbeitern besteht. Die beiden Nachfolge-Generationen „Nehalem“ (Tock, 2008) und „Westmere“ (Tick, 2009) werden derzeit in Oregon entwickelt. Die Entwicklung der über übernächsten Generation „Sandy Bridge“ (Tock, 2010) findet hingegen wieder in den Intel Entwicklungsstätten von Isreal statt.
Einen groben Überblick über die neuen Eigenschaften des Intel Core 2 Extreme QX9650 liefert bereits das kleine Tool CPU-Z [2]. Der Prozessor mit dem neuen „Yorkfield“-Kern und einer Thermal Design Power von 130 Watt wird bereits im Stepping „C0“ (Stepping 6) ausgeliefert und der L2-Cache wie erwartet eine Größe von 2x 6 MB. Die Spannung rangiert mit knapp über 1,21 Volt etwa 0,1 – 0,15 Volt unter den bisherigen Core 2 Duo/Extreme Modellen mit 3,0 GHz.
Zu den unterstützten Befehlsätzen gehören erstmals die Streaming SIMD Extensions (SSE) in der Version 4.1. Kein Unterschied besteht in der Ansteuerung des Prozessors mit einem Systemtakt von 333 MHz, welcher wie üblich einen Quad-Pumped-Bus von 1.333 MHz bedeutet. Wie bei den anderen Extreme-Editions von Intel ist auch beim neuen QX9650 der Multiplikator nach oben hin offen. Standardmäßig steht er jedoch auf 9 und erzeugt somit im normalem Zustand die 3,0 GHz Taktfrequenz. Auf Änderungen des Multiplikators und des eingestellten Frontside-Bus kommen wir später im Abschnitt „Übertakten“ zu sprechen.
Ursprünglich sah die Revisions-Planung einen Rhythmus von A0 -> A1 -> B0 -> B1 vor, wovon letztere die finale Revision werden sollte. Im Zuge der letzten Monate hat man sich jedoch gegen die Revision B1 entschieden und stattdessen an der Revision C0 gearbeitet. Dabei gilt: Bei einer Änderung des Buchstaben werden nicht nur die Metallschichten, sondern auch die Siliziumschichten neu erstellt. Ändert sich nur die Zahl, bleibt das Silizium ohne Änderungen. Prinzipiell ist es somit möglich, vorab entsprechend viele Siliziumschichten zu produzieren, um dann mit neueren Metallschichten noch den Produktionsprozess und damit auch das Stepping zu verändern. Offenbar ließ der Zeitplan Intel genug Spielraum, um auch die Silizium-Schichten in letzter Instanz zu verbessern.
Die Penryn-Mikroarchitektur wird in den Bereichen Mobile, Desktop, Workstation (DP) und Server (MP) eingesetzt werden. Ihrem Einsatzgebiet entsprechend besitzen einige dieser Boliden besondere Funktionen. In einem solchen Fall wird explizit darauf hingewiesen. Als naher Verwandter der Core-Mikroarchitektur wird auf vererbte Besonderheiten im Vergleich zu Pentium 4 und Athlon 64 nicht gesondert eingegangen. Für ein Grundverständnis von Core und der Befehlsausführung innerhalb einer Out-of-Order Pipeline wird eine Betrachtung der folgenden Bildgalerie empfohlen.
Doch nun zur Penryn-Familie: Nach dem derzeitigen Wissenstand sind Modelle mit zwei bis sechs Prozessorkernen geplant, die die folgenden Codenamen tragen.
Die Verbesserungen von Penryn konzentrieren sich in den Bereichen Out-of-Order Execution, Cache/Speicher und Power Management. Im Bereich Execution wurde die bisherige Radix-4- durch eine Radix-16-Dividierer/Quadratwurzeleinheit ersetzt. Außerdem beschleunigt die neue Super Shuffle Engine SSE-Befehle, die mit der Bitmanipulation zu tun haben. Des Weiteren unterstützten die drei vorhandenen SSE-Einheiten nun SSE4. Im Bereich Cache/Speicher wurde das Store Forwarding verbessert und die Assoziativität des L2-Caches erhöht. Das Power Management wurde um einen C6-State (Deep Power Down) und eine verbesserte Dynamic Acceleration Technology (EDAT) komplettiert. Darüber hinaus gibt es einige Optimierungen im Detail.
Ein Penryn-Chip (Dual Core) besitzt 410 Millionen Transistoren auf einer Fläche von 107 mm². Für den Aufbau einer Cache-Speicherzelle (SRAM) werden 6 Transistoren benötigt. Bei einem 6 MByte großen L2-Cache entfallen auf diesen 288 Mio. Transistoren (+Steuerlogik). Merom kam bei 4 MB L2-Cache auf insgesamt 291. Mio. Transistoren. Bei einer Transistordifferenz von 119 Mio. entfallen rund 100 Mio. auf den größeren Cache, die übrigen 19 Mio. schlagen sich in den neuen und verbesserten Funktionseinheiten nieder.
Das Front-End der Pipeline wurde nicht verändert. Bei 64-Bit-Befehlen ist daher Macro-Ops-Fusion auch weiterhin nicht aktiv. Intel hat eine Änderung des Front-Ends in Betracht gezogen, die benötigten Änderungen hätten jedoch zu viele Datenpfade in ihrer Breite verändert und weitere Anpassungen erfordert – zu viel für ein „Tick“.
Out of Order Execution: SSE4
Zur Beschleunigung von Multimedia-Anwendungen wartet Penryn mit SSE4.1 auf. Diese SIMD-Erweiterung beinhaltet 47 neue Befehle, die sich über verschiedene Bereiche erstrecken. Obwohl die neuen Befehle verschiedene Bereiche abdecken, sieht Intel eigentlich nur einen Bereich, in dem SSE4 für einen massiven Geschwindigkeitsschub sorgen kann: Videoencoding. Allgemeiner ausgedrückt: alle Algorithmen, die eine Motion Estimation durchführen müssen – Spiele gehören in aller Regel nicht dazu. Details zu SSE4 und Beispiele sind der Bildgalerie zu entnehmen.
Als erste Applikation unterstützt DivX seit Version 6.6.1 die neuen Befehle. Je nach Einstellung sehen Intels Messungen einen Geschwindigkeitsvorteil von bis zu 63 Prozent. Unsere Ergebnisse in diesem Bereich sehen wir später. Weitere SSE4-Anwendungen sind bereits am Horizont: das Anfang November erwartete TMPGenc Xpress 4.4 wird sie unterstützen und soll ein Performanceplus von 40 Prozent erfahren. Für Adobe Premiere CS3 ist ein Patch in der Entwicklung, das Ende 2007 erscheinen soll und ein Speedup von bis zu 38 Prozent bewirkt. Auch Adobe Photoshop CS3 soll mit einem Update für die neuen Befehle gerüstet werden. Dieses erscheint voraussichtlich jedoch nicht im nächsten halben Jahr.
Out of Order Execution: Radix-16 Divider/Squareroot und Super Shuffle Engine
Bei Penryn hat Intel die Divisionseinheit gravierend beschleunigt. Während bisher ein Algorithmus genutzt wurde, der 2 Bits pro Arbeitsschritt betrachtet (Radix-4), wird man zukünftig mit Radix-16 gleich 4 Bits pro Takt verarbeiten. Diese Technik wird nicht nur sowohl bei Gleitkomma- (Floating-Point) als auch Integer-Operationen genutzt, sondern beschleunigt auch das Berechnen von Quadratwurzeln. Verglichen mit dem Core 2 Duo soll das Ergebnis eine im Durchschnitt doppelt so schnelle Verarbeitung sein. Von der Radix-16-Einheit profitieren alle Befehle (z.B DIVF, SQRT) die Divisionen oder Wurzelberechnungen auf verschiedenen Bitbreiten durchführen.
Wie das Blockdiagramm zeigt, hat Intel Radix-16 in Form von zwei Radix-4-Einheiten implementiert, die auf unterschiedlichen Taktflanken (Double Pumped) arbeiten. Für ein weiteres Verständnis der Radix-Problematik sei auf Computer Architecture: A Quantitative Approach [3] (Hennessy, Patterson) oder z. B. IEEE 9040080 [4] verwiesen.
Mit der stetig wachsenden Anzahl an SSE-Befehlen (SIMD) hängt die Ausführungsgeschwindigkeit zunehmend davon ab, wie schnell die für SSE benötigten Datenvektoren aus 32- oder 64-Bit Paketen zusammengebaut oder die Ergebnisse nach ihrer Berechnung zerlegt und an die richtigen Stellen geschrieben werden können. Um diesen Prozess zu beschleunigen, hat Penryn die „Super Shuffle Engine“ die all diejenigen (bereits vorhandenen) SSE-Befehle beschleunigt, die für die Vorbereitung der Daten zuständig sind. Insbesondere die 32 SSSE3-Befehle (TNI), die mit Merom vorgestellt wurden, sollen von der neuen Einheit stark profitieren.
Cache/Speicher: Store Forwarding Misaligned Store und Sonstiges
Der Memory Order Buffer (MOB) kann Store Operationen an nicht ausgerichtete Adressen nun besser verwalten. Im Programmablauf kommt es sehr häufig vor, dass an eine Adresse im Speicher zuerst Daten geschrieben und kurze Zeit später erneut gelesen werden. Da Speicherzugriffe mit einer hohen Latenz verbunden sind und die Speicherbandbreite ebenfalls begrenzt ist, wird versucht, unnötige Zugriffe zu vermeiden. Im Idealfall reicht ein Store-Befehl sein Ergebnis direkt an einen später auf die selbe Adresse stattfinden Load weiter. Dieser Prozess wird als Store-Forwarding bezeichnet und vom MOB durchgeführt. Im Vergleich zu Merom kann der MOB diesen Vorgang nun auch bei unglücklich platzierten Operationen häufiger durchführen, was der effektiven Bandbreite zu Gute kommt.
Penryn besitzt pro Dual-Core einen gemeinsam nutzbaren und 6 MB großen L2-Cache (Quad-Core besteht aus zwei Dual-Core-Chips). Während die Assoziativität von Merom (Anzahl der Stellen, an denen ein Element mit einer bestimmten Adresse im Cache abgelegt werden kann) beim 4 MB-Modell noch 16-Way betrug, kann der in 45 nm gefertigte Enkel mit 24 Ways aufwarten. Dies verringert die Wahrscheinlichkeit von Datenkonflikten.
Ursprünglich waren für Penryn außerdem „Split Load Cache Enhancements“ geplant, mit Hilfe derer zwei unabhängige Zugriffe auf den Cache möglich gewesen wären. Das ist immer dann von Vorteil, wenn auf Daten (L1-Data-Cache) zugegriffen wird, die nicht korrekt an Adressen ausgerichtet sind. Überlappt ein Dateneintrag (kleiner 128 Bit) zwei Cache-Lines, so sind hierfür aktuell zwei getrennte Zugriffe nötig. Penryn hätte einen 128-Bit-Zugriff aufteilen – wahrscheinlich in zwei 64-Bit-Zugriffe – und so bei „glücklich unausgerichteten“ Daten in einem Takt den kompletten Informationssatz in die Arbeitsregister laden können. In den jüngsten Präsentationen ist von diesem Feature nicht mehr die Rede. Eine Stellungnahme der Pressestelle steht noch aus.
Power Management: Deep Power Down (C6)
Speziell für die kommenden Notebook-Prozessoren der Penryn-Generation hat Intel zwei Innovationen in der Hinterhand. Die neue Deep Power Down Technology (C6) schaltet im Idle-Zustand nahezu den kompletten Prozessor ab hilft somit erheblich Strom zu sparen. Es wird ein Chipsatz vorausgesetzt, der C6 unterstützt. Sowohl Santa Rosa (GM/PM965) als auch die 2008 erscheinende Montevina-Plattform sind hierfür vorbereitet.
Deep Power Down (DPD) funktioniert folgendermaßen: Ist der Rechner unbelastet (Idle), führen heutige Betriebssysteme den mwait-Befehl aus. Dieser Befehl zusammen mit einem Paramater sagt dem Prozessor, welchen Stromsparzustand er bis zum nächsten Interrupt (dem Signal zum Aufwachen) einnehmen soll. Lautet der Parameter C6, beginnt eine längere Ereigniskette (siehe Bild), an dessen Ende der Prozessor seinen aktuellen Zustand in einem 8 kB großen SRAM-Speicher sichert. Die Spannung kann nun zu allen Bereichen bis auf die Mini-Speicher abgeschaltet werden. Die Restspannung beträgt Laut Intel 0,3 Volt und der Prozessor verbraucht nur noch 100 mW. Die Rückkehr in den aktiven C0-State (Prozessor rechnet) kommt einem Reset gleich. Im Vergleich zum Warmstart werden jedoch die Informationen aus den 8 kB SRAMs zurückgespielt.
Aufgrund der langwierigen Prozedur und der Spannungsanpassung macht C6 nur Sinn, wenn der Prozessor mindestens 4-5 ms schlafen kann, bevor er vom Chipsatz aufgeweckt wird (z.B. Timer-Interrupt, Keyboard-Interrupt etc.). Bei geöffneten Windows Media Player erhöht Windows automatisch die Interrupt-Refrequenz von 16 auf eine 1 ms. Damit C6 in diesem Fall nicht zum Nachteil wird (das Betriebssystem kennt C6 nicht explizit), wurde ein Gedächtnis implementiert. Hat sich C6 die letzten Male nicht gelohnt, tritt Auto-demote in Kraft und die Anforderung des Betriebssystems wird beispielsweise mit C4 überschreiben.
Power Management: Enhanced Dynamic Acceleration Technology (EDAT)
Die „Dynamic Acceleration Technology“ (DAT) (erstmals bei der Santa-Rosa-Plattform und Merom-Prozessoren dabei) wird Penryn in einer erweiterten Variante unterstützen. Zur Erklärung: DAT ist eine Technologie, bei der ein Prozessorkern eines Dual-Core-Chips automatisch mit dem nächst höheren Multiplikator betrieben wird, sofern der andere in einem Stromsparzustand (z. B. CC3) ist. Als Neuerung kann EDAT nun auch dann aktiv sein, wenn kurzzeitig beide Prozessoren aktiv sind. Eine Logik entscheidet abhängig von den vergangenen Aktivitäten des Idle-Kerns, wie zu verfahren ist. Diese Hysterese sorgt für eine Performance-Steigerung von bis zu 7 Prozent.
Das Feature wird weiterhin exklusiv für die Notebook-Prozessoren bleiben. Die Taktfrequenz bei diesen Prozessoren wird nicht danach gewählt, was technisch möglich, sondern was von der Thermal Design Power (TDP), also dem Stromverbrauch, vorgesehen ist. Dadurch besitzen Mobile-Chips einen gewissen Taktspielraum, der bei Desktop-Prozessoren von vornherein ausgenutzt wird.
Power Management: Core C3 (CC3) und weitere Detailverbesserungen
Für Server von Bedeutung, jedoch bei allen Produkten verfügbar, soll Penryn auch bei Virtuellen Maschinen punkten. Mit Hilfe von „VMCS state management caching“ können Befehle zum Betreten und Verlassen einer Virtuellen Maschine (VMentry, VMexit) wesentlich schneller ausgeführt werden, da Sicherheitsanfragen ggf. aus dem State Cache abgefragt werden können. Der Prozess-Wechsel (Task Switch) bei virtuellen Maschinen soll um 25 bis 75 Prozent schneller durchgeführt werden können.
Der zunehmenden Anzahl an Ereignissen und Geräten trägt Intel mit zwei Detailverbesserungen Rechnung: das Maskieren von Interrupts über die Befehle CLI (Clear Interrupts) und TSI (Transparent System Interrupt) erfolgt nun doppelt so schnell. Die bei Datenbank-Servern häufig benutzte Zeitabfrage mitteils RDTSC (Read Time Stamp Counter) wurde um den gleichen Faktor beschleunigt.
Exklusiv für Wolfdale-DP, Harpertown und Dunnington besitzt die Penryn-Architektur einen Core-C3-Zustand. Bisher unterstützen die Desktop- und Server-Prozessoren die Betriebsmodi C0 (Active), C1/C1E (Halt State, Enhanced Halt State) und C2 (Stop Grant, selten genutzt, da vom Chipsatz anzuordnen), während die Mobil-Prozessoren auf Merom-Basis darüber hinaus C3 (Deep Sleep) und C4 (Deeper Sleep) bieten.
Das Problem bei Servern: Es muss Datenkohärenz sichergestellt werden. Dies erreicht man durch Snooping (Schnüffeln). Hierbei lauschen alle Kerne auf den Speicherbussen und greifen ein, sofern in ihrem Cache ein Datum liegt, das neuer als das im Speicher ist (bzw. als exklusiv markiert war, MESI-Protokoll). L1-Cache-Snooping kostet bei Idle-Prozessoren unnötig Strom und ist leicht zu vermeiden, wenn einzelne Kerne in den C3 (daher der Name CC3) wechseln. Im CC3-Zustand wird der L1-Cache geleert und abgeschaltet (Sleep-Transistor). Als Nebeneffekt wird L1-Cache-Snooping für diesen Kern unterbunden. Der Stromverbrauch lässt sich hiermit um bis zu 16 Prozent senken.
Einmal mehr ist es die Fertigungstechnologie, die Intel einen gehörigen Vorteil verschafft. Nach dem Reinfall mit 90-nm-Strukturen – Stromverbrauch und Wärmeabgabe waren sehr problematisch – konnte der seit Ende 2005 eingesetzte P1264-Herstellungsprozess (65 nm) die Produktionskosten senken und wusste beim Stromverbrauch eine kontinuierliche Verbesserung einzuleiten. Selbst die als verschwenderisch bekannte Netburst-Architektur des Pentium 4 konnte mit dem in 65 nm gefertigten Presler (bzw. Cedar Mill als Single-Core-Vertreter) gezügelt werden [5]. Mit P1266 – so die korrekte Bezeichnung für die 45-nm-Lithographie von Intel – soll der Zauber weiter gehen.
| Prozessname | P856 | P858 | Px60 | P1262 | P1264 | P1266 | P1268* | P1270* | P1272* | ||
| Produktionsstart | 1997 | 1999 | 2001 | 2003/4 | 2005 | 2007 | 2009 | 2011 | 2013 | ||
| Prozess (nm) | 250 | 180 | 130 | 90 | 65 | 45 | 32 | 22 | 16 | ||
| Lichtquelle (nm) | 248 | 248 | 248 | 193 | 193 | 193 | 193 | 13 | 13 | ||
| Wafergröße (mm) | 200 | 200 | 200/300 | 300 | 300 | 300 | 300 | 300 | ? | ||
| Interconnects | |||||||||||
| Material | Al | Al | Cu | Cu | Cu | Cu | Cu | ? | ? | ||
| Lagen | 5 | 6 | 6 | 7 | 8 | 9 | ? | ? | ? | ||
| Kanalmaterial | Si | Si | Si | Strained Si | Strained Si | Strained Si | Strained Si | Strained Si | ? | ||
| Gate | |||||||||||
| Kontaktmaterial | Poly-Si | Poly-Si | Poly-Si | Poly-Si | Poly-Si | Metall | Metall | Metall | ? | ||
| Dielektrikum | SiO2 | SiO2 | SiO2 | SiO2 | SiO2 | High-k | High-k | Higk-k | ? | ||
| Dielektrikumdicke (nm) | 4,08 | 2,0 | 1,5 | 1,2 | 1,2 | ? | ? | ? | ? | ||
| Länge ( nm) | 200 | 130 | 70 | 50 | 35 | 25 | 16? | ? | ? | ||
| SRAM-Größe (µm²) | 10,6 | 5,6 | 2,09 | 1,00 | 0,570 | 0,346 | 0,182 | ? | ? | ||
| * Angaben können sich Jederzeit ändern | |||||||||||
Die Tabelle zeigt einen Überblick über die bei Intel eingesetzten Prozesstechnologien der vergangenen zehn Jahre. Moores Law folge leistend, wurden die Grundbausteine eines jeden Prozessors, der (MOS-)Transistor, kontinuierlich verkleinert, um eine Verdopplung der Transistoranzahl alle zwei Jahre zu ermöglichen. Für einen kleineren Transistor müssen neben der Transistorfläche verschiedene andere Parameter angepasst werden. Bereits mit dem Anfang 2004 etwas verspätet eingeführten 90-nm-Herstellungsprozess wurde dabei die Dicke des Gate-Oxids, eine Isolatorschicht im Transistor, die das Gate elektrisch vom Kanal trennt, zu dünn, um seiner Aufgabe nachzukommen. Hohe Leckströme und damit ein hoher Stromverbrauch waren die Folge. Beim 65 nm wurde daher zum Leidtragen der Transistoreigenschaften auf eine weitere Reduzierung verzichtet. Unglücklicherweise war bei der nächst kleineren Technologiestufe ein solches Vorgehen nicht mehr möglich.
Das Problem: Seit den 1960ern hat sich die grundlegende Bauweise der Transistoren nicht geändert. Bei einem Wechsel zu 45-nm-Strukturen waren daher tief greifende Veränderungen erforderlich. Die Forschungsarbeiten in diesem Bereich haben bereits Mitte der 1990er Jahre begonnen. Des Problems Lösung: ein völlig neues High-k-Gate-Material und eine auf Metall basierte Gate-Elektrode. Zwei neue Materialien, die den kompletten Transistorherstellungsprozess auf den Kopf stellen sollten.
Die 45-nm-Technologie kommt erstmalig bei der Penryn-Mikroarchitektur zum Einsatz. Insgesamt hat Intel derzeit 15 Produkte auf Basis von 45 nm in der Entwicklung, die sich über die Produktbereiche Mobile, Desktop, Workstation und Enterprise (Server) erstrecken. Es folgt eine Vorstellung von P1266 im Detail.
Details
Mit P1266 kann Intel ohne kostspielige Neuausrüstung der Fabs, d. h. unter Einsatz bestehender Tools und der Benutzung von Lichtquellen mit 193-nm-Wellenlänge, die Transistordichte verdoppeln oder aber die Chipfläche der Prozessoren reduzieren und somit die Stückzahlen drastisch steigern. Die für einen Schaltvorgang benötigte Energie – bei CMOS als Schaltungstechnik fließt aufgrund der komplementär arbeitenden N- und P-Kanal-Transistoren ausschließlich beim Zustandswechsel (z. B. von 0 auf 1) ein Strom – konnte um 30 Prozent reduziert werden. Die Schaltgeschwindigkeit konnte um 20 Prozent gesteigert werden. Damit klettert auch die mögliche Taktfrequenz der Gesamtschaltung nach oben. Gleichfalls können mit dieser Verbesserung, ohne am Takt zu drehen, unerwünschte parasitäre Ströme von Source nach Drain (den beiden Anschlüssen des „Schalters“) um das fünffache abgesenkt werden. Das Leck unter dem Gate ist um eine Zehnerpotenz geschrumpft (im Rahmen von Forschungsveröffentlichungen mit größeren Strukturbreiten war noch von Faktor 100 die Rede).
Die 20 Prozent höhere Schaltgeschwindigkeit kann nicht nach Belieben gegen die um den Faktor 5 reduzierten Leckströme (Ioff) ausgetauscht werden. Vielmehr handelt es sich hierbei um einen Paramater (Threshold-Spannung) die bei der Prozessorproduktion festgelegt wird. Mit der Wahl dieser Spannung bewegt man sich auf einer Geraden die den Zusammenhang zwischen Transistorgeschwindigkeit und Leckströme aufzeigt (siehe Bild). Die 45-nm-Fertigung der Desktop-/Server-Prozessoren wurden auf Geschwindigkeit ausgelegt, die der Notebook-Prozessoren auf Stromsparen.
Die große Innovation und die Ursache für die geringeren Leckströme und höhere Performance von P1266 ist der Einsatz eines neuen Gate-Materials und eines neuen Gate-Isolators. Beim Gate-Oxid setzt Intel auf ein nicht näher bekanntes Material auf Hafnium-Basis das gegenüber dem zuletzt nur noch 1,2 nm dicken Siliziumoxid (5 Atomlagen), das Tunneln der Elektronen wesentlich effektiver behindert. In ersten Forschungspublikationen aus dem November 2003 wurde mit einer Dicke von 3,0 nm gearbeitet. Seitdem hat Intel keine neuen Angaben gemacht. Klar ist nur, dass es dicker als 1,2 nm ist und dadurch die Leckströme stark reduziert, ohne dabei die Transistorperformance zu beeinträchtigen.
Für die Geschwindigkeit eines Transistors ist die Oxidkapazität eine ausschlaggebende Größe. Sie gibt an, wie viele Ladungsträger bei einer am Gate anliegenden Spannung im Kanal für einen Stromtransport zur Verfügung stehen. Bei einer konstanten Dielektrizitätskonstante k (im deutschen eigentlich Epsilon) muss die Oxid-Dicke zu Gunsten schneller Transistoren jedoch kleiner werden. Denn je dünner, desto größer die Oxidkapazität und damit auch die gegenüberliegende Inversionskapazität im Kanal zwischen Source und Drain. Je größer diese Kapazität, desto größer ist der Strom, der durch den Transistor fließen kann und desto schneller kann er (an ihn angeschlossene Gates) schalten. Das bisher eingesetzte Siliziumdioxid hat eine Dielektrizitätskonstante von 3,9. Der Wert des neuen Materials ist nicht bekannt, allerdings hat Intel 2002 einige Messwerte für die Größe der Oxidkapazität bekannt gegeben.
Das nun auf Metall basierte Gate war im Zuge der Umstellung auf High-k nötig, da auf Hafniumverbindungen basierende Dielektrika und das bisher eingesetzte Polysilizium nicht miteinander harmonieren. Genauer gesagt hat der Transistor unter Verwendung von polykristallinem Silizium schlechtere Eigenschaften gezeigt als sein Vorgänger. Das Metal-Gate hat jedoch einen gravierenden Nachteil: es hält den Temperaturen bei den Dotierungsprozessen nicht stand. Damit kann das Gate nicht mehr als erste Struktur (Gate-First) erstellt werden. Die Self-Alignment-Eigenschaften für die Dotierung von Source und Drain gehen verloren und das Gate folgt nun im letzten Technologieschritt auf Siliziumebene (Gate-Last). Welche Materialien Intel genau einsetzt und wie der Gate-Last-Prozess funktioniert, ist noch geheim, da das Unternehmen hier einen besonderen Wettbewerbsvorteil vermutet. Es wird davon ausgegangen, dass AMD zwar bereits 2008 ebenfalls auf ein High-k-Gateoxid setzten wird, ein Metall-Gate allerdings erst wesentlich später Einzug halten wird.
Mit dem 45-nm-Prozess steht gleichermaßen eine Technologie-Bibliothek bereit, die sämtliche Standard- (Inverter, NAND, NOR mit 2 oder wesentlich mehr Dateneingängen) und auch Komplexgatter (z. B. Multiplexer) beinhaltet, von dem jeder Transistor per Hand gezeichnet und auf optimale Leistung hin bearbeitet wurde (und das mit Programmen, die überaus unhandlich in der Bedienung sind). Hierin besteht – neben dem Beherrschen einer jeden Lithographie-Stufe – die eigentliche Kunst. So führt beispielsweise AMDs 65-nm-Prozess im Vergleich zu Intels P1264 zu einem Cache mit größerem Platzbedarf.
Wer auf die Frage „Unterstützt mein Chipsatz die neuen 45 nm-Prozessoren?“ ein klares „Ja!“ hören möchte, setzt vorzugsweise auf ein Mainboard mit einem Intel-Chipsatz aus der 3er Serie (X38, P35, G35, Q35, G33, Q33, P31 und G31). Hier unterstützen alle Chipsätze den Einsatz von Intels neusten Sprössling und bieten – mit Ausnahme der Value-Chips P31 und G31 – Support für einen 1.333 MHz schnellen Frontside-Bus. Einzig die Extreme Edition bleibt den Performance-Chipsätzen P35, X38 und in Zukunft dem X48 vorbehalten. Die Unterstützung für die Vier-Kern-Variante „Yorkfield“ auf Boards mit G31- oder P31-Chipsatz wird derzeit noch überprüft.
| Intel | X48 | P45 | G45 | Q4x | X38 | P35 | G35 | Q35 | G33 | Q33 | P31 | G31 |
| Codename | Eaglelake-Familie | Bearlake-Familie | ||||||||||
CPU-Unterstützung | ||||||||||||
| C2E QX9770 | Ja | Nein | Nein | Nein | Nein | Nein | Nein | Nein | Nein | Nein | Nein | Nein |
| C2E QX9650 | Ja | Ja | Ja | Nein | Ja | Ja | Nein | Nein | Nein | Nein | Nein | Nein |
| C2Q Q9550 | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja | ? | ? |
| C2Q Q9450 | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja | ? | ? |
| C2Q Q9300 | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja | ? | ? |
| C2D E8500 | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja |
| C2D E8400 | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja |
| C2D E8200 | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja |
FSB-Unterstützung | ||||||||||||
| FSB 1600 | Ja | ? | ? | ? | Nein | Nein | Nein | Nein | Nein | Nein | Nein | Nein |
| FSB 1333 | Ja | ? | ? | ? | Ja | Ja | Ja | Ja | Ja | Ja | Nein | Nein |
| FSB 1066 | Ja | ? | ? | ? | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja |
| FSB 800 | Ja | ? | ? | ? | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja |
RAM-Unterstützung | ||||||||||||
| DDR3-1600 | Ja | ? | ? | ? | Nein | Nein | Nein | Nein | Nein | Nein | Nein | Nein |
| DDR3-1333 | Ja | ? | ? | ? | Ja | Nein | Nein | Nein | Nein | Nein | Nein | Nein |
| DDR3-1066 | Ja | ? | ? | ? | Ja | Ja | Nein | Nein | Ja | Nein | Nein | Nein |
| DDR3-800 | Ja | ? | ? | ? | Ja | Ja | Nein | Nein | Ja | Nein | Nein | Nein |
| DDR2-800 | Nein | ? | ? | ? | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja |
| DDR2-667 | Nein | ? | ? | ? | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja |
Features | ||||||||||||
| Grafik | - | - | ? | ? | - | - | GMA X3500 | GMA 3100 | GMA 3100 | GMA 3100 | - | GMA 3100 |
| PCIe 2.0 | Ja | ? | ? | ? | Ja | Nein | Nein | Nein | Nein | Nein | Nein | Nein |
| PCIe 1.1 | Ja | ? | ? | ? | Ja | Nein | Nein | Nein | Nein | Nein | Nein | Nein |
| *? = noch nicht entschieden | ||||||||||||
Bei den Angaben handelt es sich um offizielle Informationen seitens Intel. In der Realität gibt es jedoch je nach Boardhersteller graduelle Unterschiede, sodass sich die Unterstützung von Board zu Board unterscheiden kann. Bereits im Juli hatte unter anderem Asus eine Liste veröffentlicht [6], welche vor allem den Besitzern von Mainboards mit Intels P965, Nvidias nForce 650/680i oder gar dem zwei Jahre alten Intel-i975X-Chipsatz (Asus P5WDH) ein Lächeln ins Gesicht gezaubert haben dürfte. Auch Gigabyte hat eine offizielle Liste online gestellt [7], welche jedoch nur Mainboards mit den oben genannten Chipsätzen aus Intels 3er Serie enthält. In Bezug auf die etwas kleineren Chipschmieden VIA und SiS gibt es bislang noch relativ wenig Informationen über den entsprechenden 45-nm-Support. Im Zweifelsfall lohnt sich ein Blick auf die Homepage des jeweiligen Mainboard-Herstellers, ob nicht vielleicht BIOS-Updates oder Kompatibilitätslisten für das meist teuer erkaufte Mainboard verfügbar sind.
Um einen möglichst fairen und realitätsnahen Vergleich zwischen den Kontrahenten zu ermöglichen, wurden sämtliche Tests in einem geschlossenen Midi-Tower mit vollständiger Lüfterbestückung (ein Lüfter rückseitig saugend, einer beim Festplattenkäfig seitlich blasend) durchgeführt, um so auch auf thermische Probleme bei den Boliden aufmerksam zu werden.
Im Zuge der neuen Prozessorgeneration haben wir das komplette Testsystem aufgewertet. Benchmarks finden fortan unter einem frisch installierten Windows Vista Ultimate in der 32-Bit-Version statt. Doch nicht nur bei der Software wurde der Grundstein für weitere Tests gelegt, auch die Hardware hat ein umfangreiches Update erfahren. Um aktuelle und auch kommende Prozessoren voll auszureizen, haben wir uns bei dem Intel-Testsystem für ein Mainboard mit X38-Chipsatz entschieden, dass mit 2 GByte DDR3-Speicher bestückt wird. In Zusammenarbeit mit einer Radeon HD 2900 XT stellt dieses System für die kommenden Monate die Referenz dar. Im gleichen Atemzug wurden natürlich alle Treiber aktualisiert und die Benchmarks auf Vordermann gebracht.
Als Prozessoren kommt neben dem neuen Core 2 Extreme QX9650 auf Basis des Yorkfield-Kerns dessen Vorgänger, der QX6850 mit Kentsfield-Kern im G0-Stepping, zum Einsatz. Beide Prozessoren setzen auf 333 MHz Frontside-Bus, weshalb DDR3-1333 als Arbeitsspeicher die Aufgaben der Prozessoren unterstützt. Für den Vergleich zum Einsteigerbereich in den Markt der vier Kerne wurde ein Q6600 mit 2,40 GHz im G0-Stepping mit DDR3-1066 eingesetzt. Ebenfalls, als höchst getakteter Dual-Core-Ableger von Intel, wird das alte Schlachtross X6800 mit DDR3-1066-Speicher seine Werte beisteuern. Für den Vergleich nach unten runden wir den Test mit einem Core 2 Duo E6600 ab.
Alle getätigten Benchmarks wurden unter Windows Vista in einer Auflösung von 1280 x 1024 Bildpunkten durchgeführt. Je nach Test, vor allem bei Spielen, kann es jedoch zu leichten Abweichungen in den Auflösungen und Grafikeinstellungen kommen. Wie genau diese aussehen wurde an Ort und Stelle der Beschreibung im Text erwähnt.
Viele der von uns ausgewählten Programme sind frei verfügbar, so dass man die Tests am heimischen PC nachvollziehen kann. Anbei die genauen Versionsnummern bzw. Programmvarianten, die wir für den Test ausgewählt haben.
Egal ob es um Mainboard, Speicher, Festplatte, Peripherie, Steckkarten, Prozessor, Netzwerk, Schnittstellen BIOS, Windows oder DirectX geht, SiSoft Sandra hat umfangreiche Antworten parat. Für einen Großteil der Hardware im PC gibt es zudem Benchmark-Tests, mit denen sich der PC auf seine Performance im Vergleich zu einigen Referenz-Rechnern testen lässt. All diese Werte sind jedoch fast ausschließlich rein theoretischer Natur und haben wenig Bezug zur Praxis, jedoch lassen sich Prozessoren in ihren theoretischen Möglichkeiten gut vergleichen.
Download: SiSoft Sandra [8]
Sandra XIIc CPU-Arithmetik Drystone
Angaben in MIPS
|
Sandra XIIc CPU-Arithmetik Whetstone
Angaben in MFLOPS
|
Sandra XIIc CPU-Multimedia Fließkomma
Angaben in Instruktionen pro Sekunde (it/s)
|
Sandra XIIc CPU-Multimedia Integer
Angaben in Instruktionen pro Sekunde (it/s)
|
Sandra XIIc Speicher Fließkomma
Angaben in Megabyte pro Sekunde (MB/s)
|
Sandra XIIc Speicher Integer
Angaben in Megabyte pro Sekunde (MB/s)
|
Super Pi ist eine recht simple und vor allem kleine Software, mit der PI auf mehrere Millionen Stellen nach dem Komma berechnet wird. Die dafür benötigte Zeit wird gemessen und kann für Leistungsvergleiche von Prozessoren verwendet werden. Wir testen mit einer modifizierten Version 1.5 XS den Standard-Test „1M“, welches auch in unserem Forum von vielen Lesern praktiziert wird [9].
Download: Super Pi [10]
Super PI 1M
Angaben in Sekunden
|
In einem weiteren Test der Bandbreite muss sich der Arbeitsspeicher, das dazugehörige Mainboard und der Prozessor dem Tool Sciencemark 2.0 stellen. Dieses ermittelt nicht nur die Bandbreite, sondern auch die Latenz des Arbeitsspeichers. Weiterhin kann der Cache des Prozessors einer Überprüfung unterzogen werden.
Sciencemark 2.0 - Speicherbandbreite
Angaben in Megabyte pro Sekunde (MB/s)
|
Sciencemark 2.0 - Speicherlatenz
Angaben in Taktzyklen
|
Das Bild der Speicherbegutachtung runden wir mit dem Programm Everest in Version 4.20 ab. Dieses Tool verfügt über einige integrierte Benchmark-Funktionen und Tools, die den Rechner komplett auslasten und auf Fehler überprüfen. Wir haben Everest neben der Temperaturmessung genutzt, um den Speicherbenchmark in zwei Bildern als Vergleich vom QX6850 zum neuen Prozessor QX9650 darzulegen.
Download: Everest [11]
Die PCMark-Suite bietet dem Benutzer seit dem Juni 2005 eine ausführliche Übersicht über die Leistungsfähigkeit der im PC verbauten Komponenten wie Prozessor, Speicher, Grafikkarte und Festplatte. Dazu werden verschiedene Einzeltest durchgeführt, deren Einzelergebnisse zum Schluss als Gesamtwert aufgerechnet werden. Einige Tests sind dabei immer noch hochaktuell, gerade wenn es um syncrone Arbeiten geht. Deshalb findet sich auch in unserem neuen Benchmarkparcour der vermeintlich angestaubte PCMark05 wieder.
Download: PCMark05 [12]
PCMark05 Gesamt
Angaben in Punkten
|
PCMark05 Prozessortest
Angaben in Punkten
|
PCMark05 Speichertest
Angaben in Punkten
|
PCMark05 Grafikkartentest
Angaben in Punkten
|
Etwas über zwei Jahre nach der Vorstellung des PCMark05, dem Futuremark-Benchmark zur Beurteilung der Leistung eines Rechners in verschiedensten Anwendungsszenarien, stellt der finnische Hersteller den PCMark07, „PCMark Vantage“ genannt, vor. Einmal mehr sollen Privatanwender und Firmen anhand eines kompakten Programmes in der Lage sein, die Leistung eines Rechners auf Grundlage einer breiten Basis an Tests möglichst objektiv bewerten zu können. Alle Details zu dem neuen Benchmark stellt unser Artikel zu PCMark Vantage [13] bereit. Die größte Hürde in den Systemanforderungen des PCMark Vantage ist das Betriebssystem, denn die Benchmarkversion des Jahres 2007 verrichtet nur noch auf Windows Vista ihren Dienst – einen Grund mehr, unser neues Testsystem mit Windows Vista einer gründlichen Prüfung zu unterziehen.
Download: PCMark Vantage [14]
PCMark Vantage – PCMark Suite
Angaben in Punkten
|
PCMark Vantage – Memories Suite
Angaben in Punkten
|
PCMark Vantage – Gaming Suite
Angaben in Punkten
|
Die Datenkompressionssoftware 7-Zip hat in den vergangenen Jahren stark an Popularität gewonnen. Hierzu trug nicht nur die im Vergleich zu anderen Packern bessere Kompressionsrate bei ZIP und GZIP oder dem hauseigenen Format 7z bei. Im Vergleich zur Konkurrenz ist die Software kostenlos und werbefrei und steht darüber hinaus in einer 64-Bit-Version zur Verfügung. Wir testen mit der seit bereits Mai 2006 aktuellen finalen Version 4.42. Es wird der Ordner von Anno 1701 in höchster Qualitätsstufe komprimiert.
Download: 7-Zip [15]
7-Zip 4.42
Angaben in Minuten, Sekunden
|
Obwohl 7-Zip kostenlos und in Sachen Kompressionsrate vielen Konkurrenten überlegen ist, kommt die Software in Sachen Verbreitung bei Weitem nicht an WinRAR heran, das in Form von RAR seit DOS und Windows 3.1 verfügbar ist. Mittlerweile ist WinRAR zwar in der Lage neben rar auch andere Formate wie beispielsweise 7z zu entpacken, zum Komprimieren stehen allerdings nur rar und zip zur Verfügung. Seit WinRAR 3.60 [16] bietet nun auch der beliebte Packer Multi-Core-Support. Anzumerken ist dem Programm, dass mit jeder neuen Version und schnelleren Prozessoren alles ein klein wenig schneller und besser komprimiert wird, so dass der Vorsprung von 7-Zip deutlich geringer geworden ist. Das Programm muss (wie 7-Zip) den Programmordner von Anno 1701 bei maximalen Qualitätseinstellungen in das Format .rar komprimieren.
Download: WinRAR [17]
WinRAR 3.71
Angaben in Minuten, Sekunden
|
Das populäre, aus Deutschland stammende Maxon Cinema4D ist in unserem Benchmarkparcours in Form von Cinebench 2003 und deren Nachfolger Cinebench R10 vertreten. Die Software nutzt zum Raytracing bis zu 16 Prozessoren und profitiert damit von allen derzeit am Markt erhältlichen Desktop-Prozessoren von AMD oder Intel. In unserem Test präsentieren wir sowohl die altbekannte Variante von Cinebench 2003, als auch die Mitte 2007 veröffentlichte Version Cinebench R10. Wie üblich zeigen die Diagramme einerseits den Test mit nur einem Prozessorkern, zum anderen auch den Multi-Core-Test.
Download: Cinebench [18]
Maxon Cinebench 2003
Angaben in Punkten
|
Maxon Cinebench R10
Angaben in Punkten
|
NewTek Lightwave 3D [19] kann auf eine lange Geschichte zurückblicken und wurde unter anderem für Spezialeffekte bei Kinofilmen wie Jurassic Park, Titanic, X-Men, Spiderman oder Star Wars: Angriff der Klonkrieger eingesetzt. Auch bei TV-Serien wie Stargate SG-1 wird auf die Fähigkeiten der Raytracing-Software zurückgegriffen. Die offizielle Liste an Filmen [20] ist eindrucksvoller und vor allem länger. Auch bei Computerspielen [21] wie Quake 4 oder Serious Sam 2 führte kein Weg an Lightwave vorbei.
Newtek Lightwave 8.5
Angaben in Minuten, Sekunden
|
Auch wenn sich mit der Blu-ray Disc (BD) und High Density-DVD (HD-DVD) bereits die Nachfolger der DVD für den Startschuss rüsten, wird die marktbeherrschende Stellung der DVD auf absehbare Zeit nicht gebrochen werden. Dafür wird nicht zuletzt die breite Basis an installierten DVD-Playern und -Recodern sowie der zum Start hohe Preis der Neulinge sorgen.
Die DVD ist und bleibt damit vorerst das Medium der ersten Wahl, insbesondere wenn es um die Veröffentlichung neuer Filme geht. Ebenso bedeutend ist damit die Duplizierung (nicht kopiergeschützter) Medien zur Datensicherung. Da Filme üblicherweise auf einer DVD-9 (zweilagig) mit einer Kapazität von 8,5 GB ausgeliefert werden, müssen diese neu codiert werden, damit sie auf einer handelsüblichen DVD-5 mit 4,7 GB Fassungsvermögen passen. Damit dies gelingt, wird die Qualität des als MPEG2 vorliegenden Videos entsprechend reduziert. Software zum Verkleinern einer DVD-Video profitiert im Allgemeinen von mehreren Prozessorkernen.
In unserem Test wird mit Hilfe von Nero Recode der Hauptfilm einer DVD neu berechnet. Als Tonspuren werden dabei Deutsch 5.1 und Englisch 2.0 unverändert übernommen. Das Ergebnis ist eine regulär im DVD-Player spielbare Version mit Menü. Die konkreten Programmparameter setzt Nero automatisch. Für Nero Recode haben wir uns entschieden, da die Anwendung von Prozessoren mit mehr als einem Kern profitiert und Teil der weit verbreiteten und aktuellen „Nero 8“-Suite ist.
Nero Recode DVD9 zu DVD-5
Angaben in Minuten, Sekunden
|
Seit DivX 6.1 (Codename Helium) [22] unterstützt der für Videos sehr beliebte MPEG-4/ASP-Codec auch Dual-Core-Prozessoren und erreicht je nach Konfiguration eine Steigerung der Encoding-Rate um mehr als 150 Prozent. Die Leistungsunterschiede sind dabei umso stärker ausgeprägt, je höher die gewählte Qualitätsstufe ist. Bei früheren Prozessortests wurde DV- und MPEG2-Videomaterial mit unterschiedlichen Qualitätseinstellungen nach DivX 6.1 encodiert. Tendenziell waren auch hier die Ergebnisse gleich. Die bei DV gewählten, niedrigen Qualitätseinstellungen für Audio- und Video-Encoding ließen Single-Core-Prozessoren ein wenig besser abschneiden. Aufgrund des größeren Praxisbezugs werden fortan nur noch die Ergebnisse des MPEG2-Encodings veröffentlicht.
Erstmals zum Einsatz kommt DivX 6.7, der experimentelle Unterstützung für die SSE4-Befehlssätze beinhaltet. Intel hat gerade durch diese Instruktionen im Zusammenspiel mit DivX einen großen Performanceschub für Anwender versprochen, der in Ansätzen bereits erkennbar ist. An der Stelle hängt jedoch viel von der Art der Betrachtung ab. Intel hat in einem kleinen Guide die optimalen Einstellungen für ein möglichst gutes Ergebnis geliefert, jedoch haben diese, dank Einstellungen wie „No Sound“ wenig Bezug zur Realität. Deshalb verwenden wir unser angestammtes Video und behalten die originalen Einstellungen bei. Mit dem neuen Prozessor testen wir deshalb einmal in der herkömmlichen SSE2-Optimierung, wie sie derzeit jede CPU unterstützt, als auch in der neuen aber noch experimentellen SSE4-Variante.
TMPGenc Xpress 4: MPEG2 zu DivX 6.7
Angaben in Minuten, Sekunden
|
Das Zielformat für alle Hobby-Filmer ist (zumindest vorerst) nach wie vor die DVD und damit ein Film im MPEG2-Standard. Das Videomaterial selbst liegt dabei üblicherweise als Digital Video (DV) vor. Für den Test haben wir auf TMPGEnc 4.0 XPress 4.3.1.222 vertraut.
TMPGenc Xpress 4: DV zu MPEG2
Angaben in Minuten, Sekunden
|
Soll es einmal schnell gehen, greift der eine oder andere vielleicht doch auf den mit Windows XP (x64) ausgelieferten bzw. separat als Update verfügbaren Windows Movie Maker in der Version 2.0 zurück. Aufgrund der wahrscheinlich gar nicht so geringen User-Basis wurde dieser Benchmark in den Parcours aufgenommen. Das zuvor bereits mehrfach genutzte DV-Material wird mit der 1,7 Mbps Bitrate nach WMV konvertiert.
TMPGenc Xpress 4: DV zu WMV AVC
Angaben in Minuten, Sekunden
|
Das 1985 entwickelte Audiokompressionverfahren MP3 ist das heute vorherrschende Format für Musik. Es wird von einer breiten Palette an Endgeräten unterstützt und bietet in der letzten Weiterentwicklung sogar Support für 5.1 Mehrkanal-Audio [23]. Das Spektrum an Encodern für MP3 ist mannigfaltig. Für unseren Test haben wir uns zwei Vertreter herausgegriffen.
Besonders populär ist die kostenlose Software Lame [24], die von verschiedenen Programmen eingesetzt wird. Wir testen mit Beta 2 von Lame 3.97. Hierbei handelt es sich um eine 32-Bit-Applikation, die Performance auf Niveau der letzten finalen Version 3.96.1 liefert und keinen Gebrauch von mehreren Prozessorkernen macht. Somit profitieren Dual-Core-Prozessoren nur dann, wenn mehrere Dateien parallel umgewandelt werden. Neben dieser Version existiert eine Machbarkeitsstudie [25] (Dokumentation [26]), die zeigt, dass Lame in begrenztem Maße für Multi-Prozessor-Systeme optimiert werden kann. Von dieser experimentellen Alpha-Version stehen Versionen mit Intel- und Microsoft-Compiler für Windows x32 und x64 zur Verfügung. Aufgrund der Performance testen wir die Version mit Intel Compiler.
Lame: WAV zu MP3
Angaben in Minuten, |