Vorwort
Intel hat es so halb, Sun und Hewlett-Packard setzen es bei ihren neuesten Serverprozessoren ein und IBM hat es mit den kommenden Power5 ins Auge gefasst, aber bereits bewiesen [1], dass noch viel mehr geht: Die Rede ist von so genannten Dual-Core-Lösungen, bei denen zwei ausgewachsene Prozessorkerne auf einem einzigen Gehäuse/Package untergebracht werden. Intel hat mit seiner Hyper-Threading-Technologie den Anfang für Desktop-Prozessoren gemacht, wenngleich man hier kaum von zwei autonomen Prozessor-Kernen sprechen darf. Letztendlich werden durch Hyper-Threading [2] „nur“ Prozessor-Ressourcen aufgeteilt, um so zwei "virtuelle" Prozessoren zu erhalten. Ähnlich verfährt IBM bei seinen bereits länger am Markt verfügbaren 64 Bit Power4 Prozessoren [3]. Hier sind jedoch die Ausführungs-Einheiten (Execution Units) und Level-1-Data- und Instruction-Caches tatsachlich doppelt vorhanden, die restlichen Komponenten werden geteilt. Eine abgespeckte Variante des Power4 Serverprozessors, welche nur mit einem Prozessor-Kern und ohne L3-Cache Support daher kommt, wird übrigens derzeit in Form des PowerPC 970 in Apples PowerMac G5 eingesetzt, in dem er auf die Bezeichnung Power PC G5 hört.
Bei den Lösungen von Sun (UltraSparc VI), Hewlett-Packard (PA8800, Codename Mako) und dem kommenden IBM Power5 handelt es sich im Vergleich zu Intels Hyper-Threading um waschechte Multi-Core-Lösungen, welche für den Servereinsatz bestimmt sind. Der noch in 130 nm gefertigte Power5 wird dabei zwei virtuelle Prozessoren je Prozessorkern bieten und erscheint somit gegenüber dem Betriebssystem wie ein System mit 4 CPUs. Er soll insgesamt 276 Millionen Transistoren bei einer Chipfläche von 389 mm² auf die Waage bringen.
Da bleibt die Frage: Was macht AMD angesichts der „trendigen“ Dual-Core-Lösungen bzw. der guten Kritiken, die Intels Hyper-Threading bei Desktop-Prozessoren erhalten hat? Natürlich auch Dual-Core-Prozessoren anbieten! Denn wie viele nicht wissen, hat AMD bei der Athlon 64 Architektur von Anfang an mit diesem Gedanken gespielt und bei der Entwicklung entsprechende Dual-Core-Voraussetzungen berücksichtigt.
Auf den folgenden Seiten möchten wir kurz und knapp auf AMDs Dual-Core-Konzept eingehen und mit Hilfe eines Dual-Opteron-Systems einen Ausblick auf die zu erwartende Leistung geben.
Dual Core Athlon 64
Wenn es darum geht, zwei vollwertige Prozessoren in nur einem Prozessorgehäuse unterzubringen, so muss man sich in erster Linie um die Kommunikation und den Datenaustausch der beiden Prozessoren untereinander Gedanken machen. Außerdem muss geklärt werden, wie diese möglichst performant an die Außenwelt angeschlossen werden können. Die folgende Grafik zeigt das Konzept von AMD.
Athlon 64 Integrated Northbridge
An dieser Stelle möchten wir nicht noch einmal auf die gesamte Architektur des Athlon 64 eingehen und verweisen daher auf unseren sehr ausführlichen Hintergrund-Artikel zum Thema Athlon 64, Athlon 64 FX und Opteron [4]. Für das Verständnis wichtig ist letztendlich nur, dass AMDs jüngste Boliden über eine integrierte Northbridge verfügen, über die direkt Kontakt zum Arbeitsspeicher und sonstige Peripherie aufgenommen wird. Eben diese ist laut Mike Goddard, Director Technical Marketing, von Anfang an für zwei Prozessoren auf einem einzigen Chip ausgelegt gewesen, wie obige Grafik verdeutlicht.
Ein Dual-Core-Athlon 64 kommt mit zwei unabhängigen Prozessoren daher, welcher über eine gemeinsame Northbridge auf den Arbeitsspeicher und anderen Komponenten zugreifen. Die Bandbreite zum Arbeitsspeicher wird also auf zwei CPUs aufgeteilt. Aktuelle Dual-Prozessor-Systeme auf Basis der Server-Variante des Athlon 64, dem Opteron, kommen dagegen mit zwei einzelnen Prozessoren daher, von denen jeder einzelne über eine eigene Northbridge verfügt. Für die Speicheranbindung gibt es hier zwei Szenarios. Entweder greift Prozessor B auf den an Prozessor A angeschlossenen Speicher über HyperTransport zu, oder jedem einzelnen Prozessor wird Speicher zur Verfügung gestellt. Die folgenden Grafiken sollen dies veranschaulichen.
Arbeitsspeicher an nur einem Opteron-Prozessor
Prozessor B muss über den aktuell 6,4 GB/s schnellen HyperTransport-Bus mit einem effektiven Takt von 800 MHz über Prozessor A auf den dort angebundenen Speicher zugreifen. Dies ist in der Regel dann der Fall, wenn sich auf einer Dual Sockel 940 Platine nur 4 DIMMs in der Nähe eines Prozessors befinden. Dies ist beispielsweise auf der Workstation Platine von MSI, dem K8T Master2 mit VIA K8T800 Chipsatz der Fall.
Jeder Opteron mit seinem eigenen Arbeitsspeicher
Die schnellere, aber natürlich auch teuere Lösung, bei einer Dual-Opteron-Plattform ist es, jedem Prozessor eigenen Speicher zur Verfügung zu stellen. Dank der Non-Uniform Memory Architecture (NUMA), die beispielsweise von Windows 2003 Server unterstützt wird, kann außerdem jeder Prozessor zusätzlich auf den Speicher des jeweils Anderen zugreifen. Neben der direkten Speicherbandbreite von 6,4 GB/s und den 6,4 GB/s von HyperTransport ergeben sich dadurch rein theoretisch beeindruckende 12,8 GB/s Datendurchsatz.
Arbeitsspeicheranbindung beim Dual-Core Athlon 64
Die Speicheranbindung bei einem Dual-Core Athlon 64 ist am besten mit unserem ersten Beispiel vergleichbar. Dennoch gibt es Unterschiede: So sind beide Prozessoren nun direkt am Speichercontroller angeschlossen und keiner der beiden Prozessoren muss den Umweg über den HyperTransport-Bus gehen. Dies kommt den Latenzzeiten erheblich zu Gute.
Wann kommt Dual Core?
Nun da in Grundzügen klar sein dürfte, wie ein Dual Core Athlon 64 zu realisieren ist, bleibt die Frage, was und wann es dem Endkunden etwas bringt. Das „was“ ist schnell beantwortet, birgt eine Dual-Core-Lösung doch quasi alle Vorteile eines waschechten Dual-Prozessor-Systems oder zumindest die, die Intels Hyper-Threading bietet. Immer dann, wenn zwei Anwendungen parallel ausgeführt werden oder sich eine Aufgabe auf zwei Prozessoren aufteilen lässt, steigt die Systemperformance enorm. Ist eine CPU voll ausgelastet, so steht eine zweite auch weiterhin für Instruktionen bereit.
Da Intel bei sehr vielen Software-Entwicklern mit Hyper-Threading wirbt und diesen auch beim Implementieren gerne unter die Arme greift, ist das Software-Angebot für Mehr-Prozessor-Systeme zum Gedeihen „verurteilt“. AMD würde hier von Intels Engagement profitieren.
Bleibt noch die Frage des „Wann“. Bisher hat AMD nur verlauten lassen, dass eine Dual-Core-Lösung auf Basis der Hammer-Architektur ohne Probleme möglich ist. Da der Athlon 64, so wie er aktuell in 130 nm feinen Strukturen gefertigt wird, bereits 193 mm² misst, würde eine entsprechende Lösung erst bei 90 nm Sinn haben, so AMD weiter. Bereits im nächsten Monat möchte AMD erste Samples des klassischen Athlon 64 in diesen Strukturbreiten fertigen, Dual-Core-Lösungen tauchen jedoch noch nicht auf öffentlichen oder uns vorliegenden internen Roadmaps auf.
Zweifelsohne muss AMD den richtigen Zeitpunkt abpassen. Startet man mit Dual-Core-Opteron-Prozessoren oder setzt man Intel gleich eine entsprechende Athlon 64-Variante entgegen? Dies sind Fragen, die bisher unbeantwortet geblieben sind. Doch allein die Tatsache, dass es möglich ist, hat uns zu einigen Performance-Tests hinreißen können.
Dual Core Simulation
Zur Simulation eines Dual Core Athlon 64 diente uns ein System bestehend aus zwei Opteron 240 Prozessoren, welche jeweils mit 1,4 GHz takten und aktuell für 230 Euro das Stück erhältlich sind. Als Mainboard kam ein MSI K8T Master2 zum Zuge, welches zwei Sockel 940 bietet, den zweiten Prozessor aber über den ersten auf den Arbeitsspeicher zugreifen lässt. Das Mainboard liegt dadurch besonders nahe an der zu erwartenden Realität. Beim Speicher standen uns hochperformante Registered DDR400 Riegel von Corsair, Mushkin, OCZ und takeMS zur Verfügung. Zum Einsatz kamen letztendlich die Module von Corsair, wenngleich die takeMS Module mit jeweils einem 1 GB doch sehr verlockend waren.



Im Übrigen wurde das Testsystem mit den aus unserem Prozessor-Test [5] bekannten Komponenten ausgerüstet. Auch die Wahl der Benchmarks fiel danach aus. Dementsprechend wurde dem Dual Opteron 240 ein Mix aus Multi-Prozessor-tauglichen Anwendungen und solchen, die es eben nicht sind, vorgelegt. Die interessantesten Ergebnisse werden auf den folgenden Seiten vorgestellt. Des Weiteren wurde unser bekanntes Performance-Rating erstellt, bei dem alle Testergebnisse mit einfließen.
Testergebnisse
Unsere Dual Core Athlon 64 Simulation wollen wir mit den Messergebnissen aus Sisoft Sandra 2003 einleiten. Gerade hier sollte sich ein Dual-Prozessor-System deutlich von einer Single-Prozessor-Lösung abheben.
Sisoft Sandra 2003 MAX - Arithmetic
Angaben in Punkten
|
Was für ein Leistungsgewinn! Während ein einzelner mit 1,4 GHz getakteter Opteron 240 in diesem Test kein Land sieht, ist der Dual-Lösung in diesem rein synthetischen Test ein Platz an der Sonne vergönnt. Ein deutlich teurerer Athlon 64 FX-51 konnte von dem Gespann problemlos überholt werden und auch ein Pentium 4 3,2 GHz hat seine lieben Mühen den langsamsten aller Opterons abzuschütteln.
Sisoft Sandra 2003 MAX - Multimedia
Angaben in Megapixel pro Sekunde (MPix/s)
|
Auch beim Sandra Multimedia Test war dem Opteron ein Sieg gegen den FX-51 vergönnt. Intels Pentium 4 3,2 GHz kann diesen Test allerdings dank seines Prozessortaktes und Hyper-Threading insbesondere beim Verarbeiten von Gleitpunktzahlen (Floating-Point-Numbers) klar für sich entscheiden.
Sisoft Sandra 2003 MAX - Speicher
Angaben in Megabyte pro Sekunde (MB/s)
|
Das Ergebnis beim Speicherdurchsatz ist insofern von Relevanz, als dass Athlon 64 FX-51 und Opteron 240 mit den selben DDR400 Modulen betrieben wurden. Dennoch ergibt sich hier ein klares Ergebnis zu Gunsten des FX, welches schlicht und ergreifend damit erklärt werden kann, dass der FX-51 und damit auch der integrierte Speichercontroller mit einem höheren Takt betrieben wird und somit auch mehr Daten verarbeiten kann. Beim Pentium 4 ist dies anders, sitzt dort der Speichercontroller doch auf einem externen Chip (der Northbridge) und ist dadurch weitestgehend unabhängig vom Prozessortakt.
Im Folgenden hat der Optron 240 also mit zwei Nachteilen zu kämpfen: Zum Einen ist sein Prozessortakt deutlich niedriger als der des übrigen Testfeldes, zum Anderen fällt in Folge dessen sein Speicherdurchsatz deutlich geringer aus.
Testergebnisse (Fortsetzung)
Auf den folgenden Seiten wollen wir das Dual-Opteron-System und damit den simulierten Dual Core Athlon 64 mit Anwendungen auf Trapp halten, die speziell für Intels Hyper-Threading oder Mehr-Prozessor-Systeme entwickelt wurden. Zu den Klassikern in diesem Bereich zählen zweifelsohne 3D-Render-Programme, bei denen nicht selten ganze Render-Farmen zum Einsatz kommen. Stellvertretend für eine ganze Reihe von Anwendungen möchten wir an dieser Stelle unsere Messergebnisse von Maxon Cinema 4D 8.1 und Newtek Lightwave 7.5c präsentieren.
Cinema 4D 8.1 - Caustatic Animated
Angaben in Minuten, Sekunden
|
Lightwave 7.5c - Tracer No Radiosity
Angaben in Minuten, Sekunden
|
Ein Blick auf die Messergebnisse offenbart das Potential, welches selbst im langsamsten Opteron steckt. In Cinema 4D kann ein FX-51 klar in die Schranken verwiesen werden und auch bei Lightwave kann die Berechnungszeit durch die zweite CPU nahezu halbiert werden. Man stelle sich nur das Ergebnis eines Dual Core Athlon 64 vor, der so schnell wie der aktuelle FX-51 taktet.
Das Ergebnis von Cinema 4D hängt dabei übrigens sehr von der Aufgabe ab. Wird statt "Caustatic Animated" das ebenfalls vorgegebene "Cloud Sun" gerendert, so fällt der Opteron etwas stärker zurück, bei Lightwave ist das Ergebnis ähnlich klar wie in der hier gerenderten Szene "Tracer No Radiosity".
Testergebnisse (Fortsetzung)
Zu den Anwendungen, die insbesondere durch Intel zu ihren Multi-Prozessor-Fähigkeiten gefunden haben, gehören die folgenden Drei. Die Tatsache, dass beim Video-Encoding auch die Audio-Daten parallel verarbeitet werden müssen, lässt Lösungen, die Gegenstand dieses Artikels sind, stark profitieren.
TMPGEnc 2.520
Angaben in Minuten, Sekunden
|
Windows Media Encoder 9 - Video
Angaben in Minuten, Sekunden
|
XMPEG 5.02 Divx 5.1
Angaben in Minuten, Sekunden
|
Die Ergebnisse sprechen eine vergleichsweise eindeutige Sprache. Ohne Zweifel könnte hier ein Dual Core Athlon 64 mit 2,0 oder mehr GHz die vordersten Plätze für sich beanspruchen, wenn selbst ein mit 1,4 GHz Opteron einem 800 Euro teuren Intel Pentium 4 Extreme Edition 3,2 GHz davon ziehen kann.
Testergebnisse (Fortsetzung)
Auch bei der Datenkompression gibt es Anwendungen, die für Intels Hyper-Threading optimiert wurden und von denen alle Systeme mit mehreren Prozessoren profitieren können. Auch das Seti@Home Projekt freut sich, wenn parallel 2 Workunits verarbeitet werden können.
7-Zip 3.09.01 Beta
Angaben in Minuten, Sekunden
|
Seti @ Home 3.03
Angaben in Stunden, Minuten
|
Zwar ist dem Dual-Opteron-System hier nicht der Sieg vergönnt, dennoch verkauft er sich im Vergleich zu nur einem Opteron 240 deutlich besser. Beim Komprimieren von 7-Zip spielt nicht zuletzt der Speicherdurchsatz eine Rolle, welcher beim Athlon/Opteron architekturbedingt mit steigendem Prozessortakt deutlich zunimmt. Ein Dual-Prozessor-System mit dem Takt eines Athlon 64 FX-51 sollte zwei Seti-Workunits in 1 Stunde und 45 Minuten fertigstellen - wenn das nicht schöne Aussichten sind.
Testergebnisse (Fortsetzung)
Auf den vorangegangen Seiten wurde die „heile Welt“ des Dual-Opteron präsentiert, leider sieht es nun nicht immer so rosig aus. Insbesondere Spiele, bei denen Mehr-Prozessor-Systeme zum aktuellen Zeitpunkt so gut wie gar nicht unterstützt werden, fehlt einer mit 1,4 GHz taktenden CPU einfach die nötige Power, um gegen FX-51 oder 3,2 GHz Pentium 4 Systeme antreten zu können.
3DMark03
Angaben in Punkten
|
3DMark2001SE
Angaben in Punkten
|
Quake 3 Arena - 1024x768 Max
Angaben in Bildern pro Sekunde (FPS)
|
Unreal Tournament 2003 - Botmatch
Angaben in Bildern pro Sekunde (FPS)
|
Diese vier Werte stehen dabei stellvertretend für eine ganze Fülle an Computerspielen. Zwar ist in allen Fällen ein rückelfreies Spielen möglich - dies hat man vor allem der im Testsystem verwendeten Asus GeForce FX5900 Ultra zu verdanken - meistens ist man allerdings mit nur einem Prozessor besser beraten. Der Streit um den Arbeitsspeicherzugriff lässt die Frameraten leicht in den Keller gehen.
Leistungs-Ratings
Unter Berücksichtung unseres kompletten Benchmark-Parcours positioniert sich ein 1,4 GHz schnelles Opteron 240 System entsprechend der folgenden Diagramme. Bei der Auswertung sollte man dabei niemals außer Acht lassen, dass die Konkurrenz mit 2,2 GHz (Athlon FX-51 und Athlon 64 3400+) bzw. gar 3,2 GHz taktet.
Leistungsbewertung in CAD
- Cinema 4D 8.1 - Beide Testergebnisse
- Lightwave 7.5c - 2 Thread Testergebnisse
- Spec Viewperf 7.1 - Alle Testergebnisse
CAD-Rating
Angaben in Prozent
|
Leistungsbewertung Audio- & Videoencoding
- Lame 3.93.1
- Ogg Vorbis
- TMPGEnc 2.520
- Windows Media Encoder 9
- XMPEG 5.0 Divx 5.1
Media Encoding - Rating
Angaben in Prozent
|
Performance in sonstigen Applikationen
- 7-Zip
- Seti@Home
- WinRAR3.20
Sonstige Anwendungen - Rating
Angaben in Prozent
|
Leistungsbewertung Spieleperformance
- 3DMark2001SE - Nur Gesamtergebnis
- 3DMark03 - Nur Gesamtergebnis
- Aquamark 3 - Nur TiScore
- Comanche 4
- Gunmetal
- Quake 3 Arena
- Serious Sam TSE
- Splinter Cell
- Unreal Tournament 2003 - Nur Botmatch
- Warcraft 3
- X-2 The Threat
Spiele-Rating
Angaben in Prozent
|
Gesamtleistung
- Audio- & Videoencoding
- Sonstigen Applikationen
- Spieleperformance
- (CAD wird nicht berücksichtigt)
Gesamt-Rating
Angaben in Prozent
|
Fazit
Das Ergebnis unseres kleinen Experiments spricht eine eindeutige Sprache: Ja, der Athlon 64 kann stellenweise erheblich durch die Zuhilfenahme eines zweiten Prozessors profitieren, hat aber in Spielen mit kleinen Leistungsrückgängen zu kämpfen. Es gibt Anwendungen, in denen kann selbst unser zur Simulation genutztes Dual Opteron 240 Gespann, bestehend aus den langsamsten verfügbaren Opteron-Prozessoren für den 2-Prozessor-Betrieb, einen Athlon 64 3400+, Athlon 64 FX-51, Pentium 4 3,2 GHz und selbst einen deutlich teureren Pentium 4 Extreme Edition 3,2 GHz in die Schranken verweisen.
Die Vorstellung, dass AMD durch die Athlon 64 Architektur und 90 nm-Fertigung besonders einfach einen Athlon 64 mit zwei Prozessorkernen auf einem einzigen Chip bringen kann, ist verlockend. So würde ein solcher Prozessor getaktet mit 2,2 GHz grundsätzlich die Leistung eines aktuellen Athlon 64 FX-51 erreichen, kommen dann noch die passenden Anwendungen wie beispielsweise Lightwave, Windows Media Encoder oder auch 7-Zip zum Einsatz, so geht der Spaß erst richtig los. Wenn es AMD gelingt, eine solche Technologie, mit welchem Marketing-Namen auch immer, ohne Mehrkosten ganz in Anlehnung an Intels Hyper-Threading, unters Volk zu bringen, so könnte es sehr schnell mit der Überlegenheit der Pentium 4 Prozessoren im Bereich Media-Encoding vorbei sein. Schließlich konnte unser Testsystem in diesem Teilbereich mit 14 Prozent sehr stark zulegen. Der Rückstand des Athlon 64 FX-51 zum Pentium 4 Extreme Edition 3,2 GHz beträgt hier „nur“ 10 Prozent. Auch in den Bereichen CAD und Datenkompression zieht das Dual-Prozessor-Opteron 240-System der Single-Variante klar davon. Mit einem Schlag wäre es AMD also möglich, die bisherige Dominanz der Athlon 64 Prozessen bei Spielen auf andere Bereiche auszuweiten. Und wenn dann noch eine 64 Bit Version von Windows XP kommt und passende Treiber und Anwendungen zur Verfügung stehen, wird dies auch nicht zum Schaden von AMDs 64-Bit-Boliden sein. Zu vergessen bleibt jedoch nicht, dass auch Intel nicht der Dinge harrt, die da kommen mögen, sondern selbst schon längere Zeit an Dual Core Lösungen arbeitet.
Verlockende Aussichten also. Bleibt nur die Frage: „Wann kommt der Dual Core Athlon 64?“ Vermutlich nicht mehr in diesem Jahr. Doch auch da sollte man sich nicht so sicher sein.
Wer auf einen Dual-Core-Athlon 64 nicht warten möchte, der kann sich mit den hier im Test verwendeten Komponenten, d.h. dem MSI K8T Master2, dem passenden Registered DDR400 Arbeitsspeicher von Corsair, OCZ oder auch takeMS und zwei Opteron Prozessoren der 2XX-Serie sein Dual-Core-Athlon 64 „simulieren“. Nur leider sind nicht alle Opterons so billig wie die kleinen 240er Modelle. Ein Opteron 242 mit 1,6 GHz kostet bereits 340 Euro, der Opteron 244 mit 1,8 GHz 480 Euro und der Opteron 246 mit 2,0 GHz nicht weniger als 700 Euro. Wer gar die Taktfrequenz eines FX-51 erreichen möchte, der muss zu den 900 Euro teuren Opteron 248 mit 2,2 GHz greifen - natürlich bedarf es derer zwei. Noch ein kleiner Tipp am Rande: Auch wenn es nicht immer drauf steht, können alle Opterons ohne Probleme die schnellen Registered DDR400 Module ansprechen, mit denen die Sache erst wirklich in Fahrt kommt. Des Weiteren ist der zweite Prozessor-Sockel beim MSI K8T Master2 recht nah am AGP, man sollte daher drauf achten, dass die auserwählte Grafikkarte auf der Rückseite durch Kühler etc. nicht all zu ausladend ist; andernfalls wird es eng.






