Intel: Weitere Details zu Penryn und Nehalem

28.3.2007 23:58 Uhr Thomas Hübner

Halbleiterriese Intel hat weitere Details zu seinen in 45 nm gefertigten Prozessor-Generationen Penryn und Nehalem bekannt gegeben. Während Penryn noch in diesem Jahr als Nachfolger des Core 2 (Conroe) durchstarten soll, ist Nehalem die Produktgeneration, die 2008 auf Penryn folgen soll.

Über Penryn konnten wir in der Vergangenheit bereits mehrfach berichten. Neben Einzelheiten zum P1266-Fertigungsprozess (45-nm-Lithographie) hatte Intel Anfang Januar auch erste Informationen zu den Dual- und Quad-Core-Produkten der Penryn-Generation Preis gegeben. Da der Fokus dieser Ankündigung auf den Erfolgen bei der Litographiestufe lag, wurde über die Prozessoren nur wenig gesagt. 410 Mio. (Dual-Core, 107 mm²) respektive 820 Mio. (Quad-Core, 214 mm²) Transistoren sollen sie besitzen. Außerdem wurde klar, dass der 4-Kern-Prozessor wie die aktuellen Prozessoren Kentsfield/Clovertown (Core 2 Quad, Xeon 5300) aus einem Multi-Chip-Package (zwei Chips auf einem Prozessorgehäuse) der Dual-Core-Version basieren wird. Auch die Erweiterung des Prozessor-Befehlssatzes um die „echten“ SSE4-Befehle wurde offiziell bestätigt, nachdem diese Befehle zum Intel Developer Forum Fall 2006 angekündigt worden waren.

Doch Penryn zeichnet sich noch durch weitere Detail-Verbesserungen aus. Intel gab bekannt, dass die Prozessoren der Penryn-Familie, die weiterhin als Core 2 (Mobil/Desktop) und Xeon (Workstation/Server) in den Handel kommen werden, wenig überraschend aus der nächsten Weiterentwicklung der Core-Mikroarchitektur hervorgehen, die aktuell in Notebooks (Codename Merom), Desktops (Conroe, Kentsfield) und 2-Wege-Servern (Woodcrest, Clovertown) zum Einsatz kommt und im dritten Quartal auch bei 4-Wege-Servern (Tigerton) zum Einsatz kommen wird. Obwohl die neuen Produkte bis zu 45 Prozent schneller sein sollen – dazu später mehr –, nimmt man dies nicht zum Anlass, um bereits auf „Core 3“ als Produktnamen zu setzen. Diesen Schritt hebt man sich für die wirklich gravierenden Architekturverbesserungen/-änderungen auf, die mit Nehalem anstehen.

Intel Penryn-Prozessorgeneration im Überblick — Intel Penryn-Generation im Überblick

Penryn Execution Ports am Scheduler – Super Shuffle

Bei Penryn hat Intel die Divisionseinheit gravierend beschleunigt. Während bisher ein Algorithmus genutzt wurde, der 2 Bits pro Arbeitsschritt betrachtet (Radix-4), wird man zukünftig mit Radix-16 gleich 4 Bits pro Takt verarbeiten. Diese Technik wird nicht nur sowohl bei Gleitkomma- (Floating-Point) als auch Integer-Operationen genutzt, sondern beschleunigt auch das Berechnen von Quadratwurzeln (sqrt). Das Ergebnis soll eine im Durchschnitt doppelt so schnelle Verarbeitung diese Befehle im Vergleich zum Core 2 Duo sein. Für ein weiteres Verständnis der Radix-Problematik sei auf Computer Architecture: A Quantitative Approach (Hennessy, Patterson) oder z.B. IEEE 9040080 verwiesen.

Weiterhin wurde die Virtualisierungstechnologie (Codename Vanderpool) von Intel verbessert. Über die Details schwieg man sich zwar aus, allerdings will man den Prozess-Wechsel (Task Switch) bei virtuellen Maschinen um 25 bis 75 Prozent gesteigert haben. Darüber, ob in diesem Zusammenhang auf einen „Tagged Translation Lookaside“-Buffer (T-TLB) wie bei AMD gesetzt wird, kann nur spekuliert werden. In der aktuellen Implementierung (Conroe/Merom-Generation) gibt es zumindest aus Sicht der Konkurrenz noch Verbesserungsbedarf, wie die folgenden Bilder zeigen.

AMD Virtualisierung (Pacifica) gegen Intel VT-d (Vanderpool) — AMD Virtualisierung gegen Intel VT-d

AMD Virtualisierung (Pacifica) gegen Intel VT-d (Vanderpool)

Auch am Cache hat Intel Hand angelegt. Die in der Gerüchteküche schon länger genannten 6 MB (Dual-Core) und 12 MB (Quad-Core) für die Größe des L2-Caches sind nun offiziell bestätigt. Interessant ist in diesem Zusammenhang, dass mit Hilfe von „Split Load Cache Enhancements“ nun zwei unabhängige Zugriffe auf den Cache möglich sind. Das ist immer dann von Vorteil, wenn auf Daten (L1-Data-Cache) zugegriffen wird, die nicht korrekt an Adressen ausgerichtet sind. Überlappt ein Dateneintrag (kleiner 128 Bit) zwei Cache-Lines, so sind hierfür aktuell zwei getrennte Zugriffe nötig. Mit Penryn kann Intel – so klingt es zumindest – einen 128-Bit-Zugriff aufteilen – wahrscheinlich in zwei 64-Bit-Zugriffe – und so bei „glücklich unausgerichteten“ Daten in einem Takt den kompletten Informationssatz in die Arbeitsregister laden. Um Weiterhin den Speicherzugriff zu beschleunigen, werden kommende 45 nm Xeon-Prozessoren einen 1600 MHz schnellen Frontside-Bus besitzen. Derzeit ist unklar, ob diese Änderung mit dem Eagle-Lake-Chipsatz 2008 auch bei Desktop-Prozessoren zum Tragen kommt.

Den neuen SSE4-Befehlen stellt Intel eine „Super Shuffle Engine“ zur Seite, mit der die Datenvorbereitung für all die Vektorbefehle in der Hardware beschleunigt wird. SSE-Operationen (egal ob SSE2, SSE3 oder SSE4), die Daten „schieben“, sollen dadurch im Schnitt doppelt so schnell ausgeführt werden.

Speziell für die kommenden Notebook-Prozessoren der Penryn-Generation hat Intel zwei Innovationen in der Hinterhand. Die neue Deep Power Down Technology schaltet weitere Prozessor-Komponenten im Schlafzustand ab und hilft somit weiter Strom zu sparen. Außerdem wird man vermutlich den auf 4 abgesenkten niedrigsten Multiplikator erben, der als Super-Low-Frequency-Module mit der neuen Notebook-Plattform Santa Rosa Einzug halten und vom in 65 nm gefertigten Merom-Prozessor (Core 2 Duo) mit Sockel P unterstützt wird. Auch die „Dynamic Acceleration Technology“ (ebenfalls erstmals bei Santa Rosa) wird Penryn in einer erweiterten Variante unterstützen. Worin die Vorteile der „Enhanced Dynamic Acceleration Technology“ liegen, ist über ein „besser“ hinaus noch unklar. An der prinzipiellen Funktion wird sich nichts ändern: Bei Single-Threaded-Workloads wird ein Kern um eine Stufe übertaktet, während der andere ruht. Der Prozessor bleibt innerhalb seiner thermischen Grenzen und vermag ältere Programme dennoch schneller auszuführen.

Schneller, das werden Intels neue Boliden wohl wirklich sein: Bei den kommenden Workstation-Prozessoren ist eine Leistungssteigerung von bis zu 45 Prozent gegenüber dem Xeon 5355 im Gespräch. Man läge damit mit AMDs kommenden Quad-Core Barcelona auf Augenhöhe. Bei den Dual-Core-Desktop-Prozessoren konnte Intel 20 Prozent höhere Frameraten verzeichnen. Video-Encoding liegt den neuen Prozessoren noch besser – bis zu 40 Prozent schneller sollen die Neuen sein.

Doch wer sind denn „die“? Intel hat angekündigt, sechs Prozessoren auf Basis der Penryn-Familie in der Entwicklung zu haben. Für eine Zuordnung der bislang bekannten Prozessor-Codenamen sei auf eine ältere Meldung zum Thema verwiesen. Die Prozessoren sollen ganz offiziell mit Taktraten über 3 GHz verfügbar sein und sollen sowohl für Server, Desktop als auch Mobile noch in diesem Jahr ausgeliefert werden.

Neue Details zu Nehalem - März 2008 — Intel Nehalem-Generation im Überblick

Nehalem als CPU nach den Baukasten-Prinzip - März 2008

Nehalems Verbesserungen der Mikroarchitektur - März 2008

Nehalem - Multi-Threading ist zurück - März 2008

Nehalem - Neue Cache-Hierachie, bessere Adressumsetzung und Sprungvorhersage- März 2008

Nehalem - für Desktop und Server - März 2008

Nehalem - integrierter Triple-Channel-Memory-Controller sorgt für Bandbreite - März 2008

Paul Otellini präsentiert einen Nehalem Quad-Core Wafer (IDF Fall 2007)

Intel Nehalem-Generation im Überblick (März 2007)

Intel Nehalem Features (IDF Spring 2007)

Nehalem 2-Wege Systemarchitektur (IDF Fall 2007)

Nehalem 4-Wege Systemarchitektur bietet 4 QuickPath Links pro Prozessor (IDF Fall 2007)

Intel QuickPath-basierte Plattform – ehemals CSI

Intel Nehalem mit X2APIC - Extended xAPIC Architecture

Für den Penryn-Nachfolger „Nehalem“ und seine neue Prozessorarchitektur hat Intel vor allem Schlagworte präsentiert, ohne ins Detail zu gehen. Nehalem wird ganz offiziell – und so viel war schon länger klar – ein neues serielles Businterface (CSI) besitzen. Außerdem kehrt HyperThreading zurück – Penryn unterstützt dieses Feature definitiv nicht – und auch ein integrierter Speichercontroller wie bei AMD ist nun mit von der Partie. Ebenso sind höhere Cache-Levels (Multi-Level-Shared-Cache) und zusätzliche SSE4- und ATA-Befehle (Application Target Accelerator) im Gespräch. Das Power-Management wurde weiter verbessert (vermutlich unabhängige Taktsteuerung für jeden Prozessorkern) und selbst eine auf dem Prozessor integrierte Grafiklösung ist optional im Angebot. Trotz der vielversprechenden Worte „High Performance optional graphics“ sollten von diesem Pixelbeschleuniger keine Wunder auf Niveau von G80 oder R600 erwartet werden. Allgemein soll die neue Plattform gut skalieren und mit acht oder mehr Kernen pro Prozessor Einzug halten. Wie gut sie wirklich ist, erfahren wir spätestens mit der Einführung im nächsten Jahr.