Einleitung
Unabhängig in welcher Branche, Sport oder sogar im normalen Leben, wenn die zwei stärksten und größten Konkurrenten aufeinander treffen, gibt es immer ein regelrechtes Gerangel mit fairen oder manchmal auch eher weniger fairen Methoden. Jeder versucht der Beste zu sein und möchte den Gegner in allen Belangen übertrumpfen. Da man so jeweils zu Höchstleistungen angestachelt wird, ist dies in der Marktwirtschaft logischerweise keine schlechte Ausgangssituation: Der Kunde bekommt Gesamtlösungen präsentiert, die man ohne Konkurrenz in dieser Form wohl kaum gesehen hätte. Nichts anderes passiert, wie man es schon oft genug erlebt hat, ebenso im Marktsegment der Computergrafikkarten. ATi und nVidia möchten den Gegner wenn möglich in allen Belangen schlecht aussehen lassen, damit der Kunde sich für das eigene Produkt interessiert und für dieses schlussendlich bezahlt. Dieser Kampf ist ab dem heutigen Tag, der öffentlichen Präsentation der „Radeon HD 2000“-Serie von ATi, wieder ausgebrochen.
Dabei gibt es nicht nur ein neues Produkt, gleich zehn neue 3D-Beschleuniger erblicken das Licht der Welt – sowohl Desktop- als auch Mobile-Chips sind dabei. Die neuen Grafikkarten hören ab nun auf den Namen „Radeon HD 2000“, das seit der X800-Serie bekannte „X“ im Namen entfällt. ATi möchte nicht nur wie anfänglich nVidia mit der GeForce 8800 GTX und GeForce 8800 GTS den High-End-Markt bedienen, sondern stellt die Radeon-HD-2400-Serie als Low-End-Part, die Radeon-HD-2600-Serie als Mid-Range-Part und die Radeon-X2900-Serie als High-End-Derivat vor. Dieser Artikel wird sich größtenteils aber nur um die Top-Variante, die ATi Radeon HD 2900 XT, drehen, da ATi nur dieses Modell in den Handel bringt. Die Radeon HD 2400 sowie die Radeon HD 2600 werden erst Ende Juni folgen, wobei die technischen Spezifikationen bereits heute keine Unbekannten mehr sind.
Neue GPU-Generationen bringen meistens einige Überraschungen mit sich; so auch diesmal. Während die alten GPU-Generationen sowohl bei nVidia als auch bei ATi auf Vektor-ALUs (gemeint sind hier die Shadereinheiten) setzen, halten sich die beiden neuen Sprösslinge nicht mehr an diese Technik. Sowohl die GeForce-8800- als auch die Radeon-HD-2000-Karten setzen auf Skalareinheiten – dies erklärt auch die Gerüchte über 320 Streamprozessoren auf der R600-GPU. Darüber hinaus kommt auf den R(V)6x0-Chips ein alter Bekannter, der zuerst in der Direct3D-10-Spezifikation enthalten war, später aber gestrichen worden ist, zum Einsatz: eine Tessellator-Einheit. Was diese kann und welche weiteren Überraschungen es auf der R600-GPU gibt, werden wir in dem entsprechenden Technik-Abschnitt klären.
ATi hat uns für diesen Artikel freundlicherweise eine Radeon HD 2900 XT zur Verfügung gestellt. Die Karte wird nicht nur unseren Benchmark-Parcours passieren müssen, wir klären ebenfalls, ob die Radeon-HD-2000-Serie bezüglich der Bildqualität die G80-GPU von nVidia ein- und vielleicht sogar überholen kann. Weitere Skalierungstests und eine technische Beschreibung der R600-GPU sind ebenso vorhanden. Wir wünschen viel Spaß beim Lesen des Artikels und der Lüftung eines großen Geheimnisses!
Lesezeichen
- nVidia GeForce 8800 Ultra [1]
- nVidia GeForce 8800 GTX SLI [2]
- nVidia GeForce 8800 GTX [3]
- nVidia GeForce 8800 GTS (SLI) [4]
- nVidia GeForce 8800 GTS 320 [5]
- nVidia GeForce 8600 GTS (SLI) und 8600 GT [6]
- nVidia GeForce 7950 GX2 [7]
- nVidia GeForce 7600 GT, 7900 GT und 7900 GTX [8]
- nVidia GeForce 7950 GT [9]
- nVidia GeForce 7900 GS [10]
- ATi Radeon X1950 XTX und X1950 CrossFire [11]
- ATi Radeon X1950 Pro [12]
- ATi Radeon X1900 XTX und X1900 CF-Edition [13]
- ATi Radeon X1900 XT 256 MB [14]
- ATi Radeon X1900 GT [15]
- ATi Radeon X1800, X1600 und X1300 [16]
- ATi Radeon X1650 XT [17]
Technische Daten
Bevor wir uns mit der R600-GPU und den Änderungen der Architektur im Detail beschäftigen, möchten wir mit den obligatorischen Spezifikationen des neuen Chips starten.
| Radeon X1950 XTX |
Radeon HD 2900 XT |
GeForce 7950 GX2 |
GeForce 8800 GTX |
GeForce 8800 GTS (320MB) |
|
|---|---|---|---|---|---|
| Logo | |||||
| Chip | R580+ | R600 | G71 | G80 | G80 |
| Transistoren | ca. 384 Mio. | ca. 700 Mio. | ca. 2x 278 Mio. | ca. 681 Mio. | ca. 681 Mio. |
| Fertigung | 90 nm | 80 nm | 90 nm | 90 nm | 90 nm |
| Chiptakt | 650 MHz | 742MHz | 500 MHz | 575 MHz | 500 MHz |
| Shadertakt | 650 MHz | 742MHz | 500 MHz | 1350 MHz | 1200 MHz |
| Pixel-Pipelines | 16 | X | 2x 24 | X | X |
| Shader-Einheiten (MADD) |
48 (4D) | 64 (5D) | 48 (4D) | 128 (1D) | 96 (1D) |
| FLOPs (MADD/ADD) | 374 GFLOPs | 475 GFLOPs | 2x 192 GFLOPs | 518 GFLOPs* | 346 GFLOPs* |
| ROPs | 16 | 16 | 2x 16 | 24 | 20 |
| Pixelfüllrate | 10400 MPix/s | 11872 MPix/s | 2x 8000 MPix/s | 13800 MPix/s | 10000 MPix/s |
| TMUs | 16 | 16 | 2x 24 | 64 | 48 |
| TAUs | 16 | 32 | 2x 24 | 32 | 24 |
| Texelfüllrate | 10400 MTex/s | 11872 MTex/s | 2x 12000 MTex/s | 36800 MTex/s | 24000 MTex/s |
| Vertex-Shader | 8 | X | 2x 8 | X | X |
| Unified-Shader in Hardware |
X | ✓ | X | ✓ | ✓ |
| Pixelshader | PS 3.0 | SM 4 | PS 3.0 | SM 4 | SM 4 |
| Vertexshader | VS 3.0 | SM 4 | VS 3.0 | SM 4 | SM 4 |
| Geometryshader | X | ✓ | X | ✓ | ✓ |
| Speichermenge | 512 GDDR4 | 512 GDDR3 | 2x 512 GDDR3 | 768 GDDR3 | 640 GDDR3 (320 GDDR3) |
| Speichertakt | 1000 MHz | 828 MHz | 600 MHz | 900 MHz | 800 MHz |
| Speicherinterface | 256 Bit | 512 Bit | 256 Bit | 384 Bit | 320 Bit |
| Speicherbandbreite | 64000 MB/s | 105984 MB/s | 2x 38400 MB/s | 86400 MB/s | 64000 MB/s |
*Die von uns angegebenen GFLOP-Zahlen der G80-Grafikkarten entsprechen dem theoretisch maximalen Output, wenn alle ALUs auf die gesamte Kapazität der MADD- und MUL-Einheiten zurückgreifen können. Dies ist auf einem G80 allerdings praktisch nie der Fall. Während das MADD komplett für „General Shading“ genutzt werden kann, hat das zweite MUL meistens andere Aufgaben und kümmert sich um die Perspektivenkorrektur oder arbeitet als Attributinterpolator oder Special-Function-Unit (SFU). Mit dem ForceWare 158.19 (sowie dessen Windows-Vista-Ableger) kann das zweite MUL zwar auch für General Shading verwendet werden, anscheinend aber nicht vollständig, da weiterhin die „Sonderfunktionen“ ausgeführt werden müssen. Deswegen liegen die reellen GFLOP-Zahlen unter den theoretisch maximalen.
Technik im Detail Part 1
Allgemeines:
Nach einer langen Zeit des Wartens ist das Geheimnis nun gelüftet: Wie sieht die neue R600-GPU von ATi aus? Wie funktioniert diese? Wie viele Einheiten hat sie? Wie schnell kann sie damit sein? Was kann sie Besonderes? Nachdem bereits über mehrere Monate hinweg diverse Male mehr oder weniger richtige Gerüchte den Weg in das World Wide Web gefunden hatten, herrscht nun (zumindest größtenteils) Gewissheit. Schauen wir uns den R600 sowie dessen Ableger RV630 und RV610 einmal genauer an. Der R600, der auf dem Flaggschiff Radeon HD 2900 XT verbaut wird, setzt sich aus etwa 700 Millionen Transistoren zusammen und wird in einem speziell für ATi entwickelten 80-nm-Prozess bei TSMC mit der Bezeichnung „80HS“ gefertigt. Anders als manche Gerüchte glauben machen möchten, wird ein R600 im kleineren 65-nm-Prozess erst mit einer späteren Chipversion erscheinen. Anders dagegen die kleineren Brüder der R600-Familie, die schon jetzt in der 65-nm-Größe produziert werden. Das Mid-Range-Produkt RV630 („65+“; Radeon HD 2600 Pro und Radeon HD 2600 XT) ist 390 Millionen Transistoren groß, während die Low-End-Variante RV610 („65+“; Radeon HD 2400 Pro und Radeon HD 2400 XT) aus 180 Millionen Transistoren besteht.
Alle drei Grafikchips sind mit einer Unified-Shader-Architektur (USA) ausgerüstet, weswegen es keine separaten Pixel-, Vertex- sowie die in der Direct3D-10-API neu hinzugekommenen Geometry-Shadereinheiten mehr gibt. Stattdessen sind die Arithmetic Logical Units (ALU) dazu in der Lage, alle drei möglichen Berechnungsarten nacheinander auszuführen, weswegen es zumindest theoretisch keinen Leerlauf der ALUs mehr gibt. Bei der klassischen Architektur mit getrennten Shadereinheiten ist es dagegen des Öfteren der Fall, dass beispielsweise alle Pixelshadereinheiten während eines Taktes maximal ausgelastet sind, während die Vertexshader Däumchen drehen. Dass der ATi R600 (wir bezeichnen im Text die gesamte R600-Familie allgemein als R600, obwohl dessen Derivate RV630 sowie RV610 ebenfalls gemeint sind) kompatibel mit der Direct3D-10-API ist, muss an dieser Stelle kaum noch erwähnt werden.



Die Entwicklung vom R600 begann im Jahre 2003, womit die GPU fünf Jahre lang im Labor verbracht hat. Das Chipdesign orientiert sich nach eigenen Angaben an dem Xenos, dem 3D-Beschleuniger in der Xbox 360, wobei sich im Laufe der Zeit einige Sachen geändert haben. Die Grundarchitektur ist zwar dieselbe geblieben, viele Einzelheiten sind jedoch modifiziert worden, da sich die Anforderungen einer PC-Grafikkarte von denen einer Spielekonsole unterscheiden. Nun kurz zu den technischen Spezifikationen, wobei wir auf diese im weiteren Verlauf des Textes genauer eingehen werden. Der R600 bietet dem Kunden je nach Zählweise 320 oder 64 Shadereinheiten, wobei sich diese von den ALUs in einem R580 sowie dem G80 von nVidia unterscheiden – alleine deswegen wird schon deutlich, dass man nur durch das Wissen um die Anzahl der Einheiten die Leistung nicht miteinander vergleichen kann. Die Texture Mapping Units stagnieren bei 16, wobei die Funktionalität gegenüber den TMUs des R580 aufgebohrt worden ist. Ebenso sieht es bei den Raster Operation Processors aus, deren Anzahl erneut bei 16 Einheiten liegt. Der Speicherbus wurde auf ein 512-Bit-Interface verdoppelt. Etwas überraschend ist die verbaute Tessellation-Einheit im R600, die über den Direct3D-10-Standard hinausgeht und eigentlich erst in der D3D11-Spezifikation vorgeschrieben ist. Schauen wir uns nun die einzelnen Komponenten des R600 etwas genauer im Detail an.
Ultra-Threaded Dispatch Processor:
Den Anfang der Datenberechnungen im R600 macht der so genannte „Command Processor“ bevor die Daten unter anderem zu den ALUs gelangen. Dieser nimmt die Befehle vom Grafikkartentreiber entgegen und führt den vom Treiber generierten Microcode aus. Damit übernimmt der Command Processor eine Aufgabe von der CPU. Der Overhead des Prozessors soll laut ATi um 30 Prozent niedriger ausfallen als noch bei der R5x0-Generation. Anschließend gelangen die Daten in die „Setup Engine“, die die Bits für die Berechnungen in die Stream Processing Units vorbereitet. Je nach Art der Berechnung, ob ein Pixel- Vertex- oder Geometry-Programm ansteht, wird diese von einer anderen Einheit verwaltet, wobei diese nach Fertigstellung in den von der Radeon-1000-Serie bekannten „Ultra-Threaded Dispatch Processor“ gelangen. Der „Verteilerprozessor“ sorgt dafür, dass die ALUs möglichst maximal ausgelastet werden und keine „Blasen“, sprich Leerlauf der ALUs, auftreten.
Der Ultra-Threaded Dispatch Processor erstellt einzelne Threads, die aus mehreren Befehlen bestehen. Dabei werden mehrere Threads gesammelt, ohne diese direkt an die ALUs, die sich beim R600 aus vier SIMD-Einheiten (Single Instruction Multiple Data, sprich ein Befehl wird auf mehrere Daten gleichzeitig angewendet) zusammensetzen, weiterzuleiten. Pro SIMD gibt es zwei „Arbiter“, die die Threads in einer ausgesuchten Reihenfolge den ALUs zusenden. Damit befinden sich immer zwei Operationen zur selben Zeit in den Shadereinheiten. Falls Befehle mit einer hohen Priorität anfallen, können die sich derzeit in der ALU befindlichen Operationen „geparkt“ und zu einem späteren Zeitpunkt fortgesetzt werden. Der Ultra-Threaded Dispatch Processor kann auf zwei verschiedene Zwischenspeicher zurückgreifen, wobei die genaue Größe unbekannt ist. Der „Shader Constant Cache“ ermöglicht es eine unendliche Anzahl an Konstanten (Konstanten sind Elemente, die für die gerade anstehenden Berechnungen nicht von Nöten sind) zu speichern, während der „Shader Instruction Cache“ Shaderprogramme zwischenspeichern kann, womit selbst extrem lange Shaderanweisungen zu einem späteren Zeitpunkt durchgeführt werden können. Somit ist es dem R600 möglich, eine auftretende Latenz auf ein Minimum zu reduzieren, da kein Thread auf einen anderen warten muss, weil dieser mit dem bereitgestellte Shadercode erst später abgearbeitet wird. Die Anzahl der maximal möglich zu speichernden Threads beläuft sich auf mehrere hundert.
Stream-Processing-Units (SPU):
Werfen wir nun einen Blick auf die Stream-Processing-Units (SPU), beziehungsweise die eigentlichen Shadereinheiten im R600, wobei hier die Sichtweisen der Architektur (wohl aus Marketinggründen) etwas auseinander gehen und ATi in der Beschreibung unklar bleibt. Wie weiter oben im Text erwähnt, unterscheiden sich diese in der Arbeitsweise von den Vektorprozessoren im R580, aber ebenso von den Skalareinheiten im G80-Chip von nVidia. Die R600-GPU ist ein VLIW-Design (Very Large Instruction Word), es sollen also mehrere sequentielle Befehle in einem Thread parallel ausgeführt werden. Laut ATi verfügt der R600 über 320 SPUs. Es ist bei GPUs bekannterweise aber immer eine Frage der Zählweise, wie viele Einheiten man nun auf dem Papier stehen hat. Laut ATi sind die ALUs ein „5-way superscalar shader processor“, wobei Superskalar vieles ist. Superskalar bedeutet einzig, dass mehrere Befehle dynamisch parallel arbeitenden Einheiten zugeteilt werden. Nach unserem Kenntnisstand sind die ALUs auf einem R600 allerdings keine Skalareinheiten wie auf einem G80, sondern normale Vektorprozessoren – wobei diese gegenüber dem R580 deutlich verbessert worden sind.
Zweifellos können auf dem R600 bei maximaler Auslastung 320 MADD-Operationen (Multiply-ADD) pro Takt berechnet werden, während auf dem G80 maximal 128 MADDs möglich sind; das zusätzliche ADD aus den früheren ATi-GPUs ist also abhanden gekommen. Unserer Meinung nach sollte man aber nicht von 320 Shadereinheiten bei einem R600 sprechen, sondern von 64 5D-Einheiten, die in vier SIMD-Arrays mit jeweils 16 ALUs organisiert sind. Die 5D-ALUs können pro Takt einen RGBA-Wert (Rot, Grün, Blau sowie den Alphawert) und eine 1D-Skalaranweisung berechnen. Eine der fünf Einheiten in einer ALU agiert zusätzlich als Special Function Unit (SFU) und berechnet mathematische Operationen wie Sinus-, Kosinus- und Logarithmus-Anweisungen. Zusätzlich ist in einer ALU eine „Branch Execution Unit“ verbaut. Dynamic Branching (Sprunganweisung im Shadercode durch zum Beispiel einen if-/when-Befehl) blockiert auf dem R600 also nicht eine MADD-Einheit, sondern wird in einer gesonderten Funktionseinheit berechnet.
Bisherige Vektorprozessoren wie die 4D-ALUs auf dem R580 haben den Vorteil, dass ein 4D-Shadercode innerhalb eines Taktes beendet werden kann. Falls aber ein 2D-Shader vorliegt, bleiben die zwei weiteren Dimensionen unbelegt und können nicht benutzt werden – die ALUs steht also zeitweise still und wichtige Rechenzeit geht verloren. Aus diesem Grund können sich Vektorprozessoren splitten, aber dies auch nur begrenzt. Der R580 kann die ALUs im Verhältnis 3+1 sowie 4+1 splitten, sprich es wäre im ersten Fall möglich, die Shadereinheiten mit einem Shader aus drei Komponenten sowie einem Skalar auszulasten. Wie uns Eric Demers, der Senior Architect von ATi, gegenüber in einem Gespräch erwähnte, kann der R600 die ALUs selbst im Verhältnis „1D+1D+1D+1D+1D“ sowie alle anderen möglichen Verhältnisse aufsplitten. Somit würden die Vektoreinheiten beinahe wie Skalareinheiten agieren und es können pro Takt fünf Instruktionen fertiggestellt werden.
Weiterhin erwähnte Demers, dass die ALUs des R600 in Phasen von vier Zyklen arbeiten und während der vier Zyklen an vier verschiedenen Datenelementen (wie Pixels, Vertices etc.) arbeiten. Es werden fünf unabhängige Anweisungen ausgeführt. Dabei arbeitet jede Shadereinheit an vier verschiedenen Datenelementen, außer die fünfte Einheit (jene, die die SFU-Funktionen beinhaltet), die wiederum an denselben vier Elementen wie die vier anderen Shadereinheiten werkelt und während der vier Zyklen andere Befehle an jedem Element ausführt. Es wird also nicht, wie man zuerst vermuten könnte und wie fünf richtige Skalarprozessoren vorgehen würden, an fünf Datenelementen gleichzeitig gearbeitet, sondern nur an derer vier, wobei eine Shadereinheit aber zusätzlich alle vier Elemente einmal in den vier Zyklen abdeckt.
Wenn die ALUs ihre Arbeit an einem Datenelement beendet haben, können die Ergebnisse in einem Register zwischengespeichert werden, um auf diese in einem späteren Zeitpunkt zurückgreifen zu können. ATi wirbt auf dem R600 mit einer massiv besseren Geometry-Shaderleistung als auf einer GeForce 8800 von nVidia. Ob dies den Tatsachen entspricht, werden erste Direct3D-10-Benchmarks aber erst noch zeigen müssen. Da die ALUs über keine eigene Taktdomäne verfügen (der gesamte R600-Chip aber über 38 Taktdomänen, die immer nur kleine „unwichtige“ Chipteile betreffen), arbeiten die Shadereinheiten wie der Großteil des restlichen Chips mit 742 MHz. Die kleinere GPU RV630 kann auf 24 ALUs, der RV610 auf acht ALUs zurückgreifen.
Textureinheiten:
nVidia geht bei den Textureinheiten einen sehr interessanten Weg. So verbaut man auf dem G80 doppelt so viele Texture Mapping Units (TMUs), die die Texturen filtern können, als Texture Addressing Units (TAU), die für Aufgaben wie „Texture Lookups“ und allgemein für die Texturadressierung zuständig sind. Dies hat den praktischen Vorteil, dass entweder ein trilinear oder ein 2-fach bilinear anisotrop gefilterter Texel innerhalb eines Taktes fertiggestellt werden kann. ATi geht bei dem R600 genau den gegenteiligen Weg. So existieren auf dem R600 16 (aufgebohrte) TMUs, aber 32 TAU. Diese sind in vier Blöcken organisiert mit je vier TMUs sowie acht TAU. Die acht TAU besitzen jedoch unterschiedliche Fähigkeiten. Vier davon sind für Vertex- und Texture-Fetching zuständig während die vier anderen TAU die Texturadressierung erledigen.
Wie Eric Demers uns in einem Gespräch ehrlich verriet, kann es gut sein, dass das gegensätzliche Verhältnis zu nVidia in Direct3D-9-Spielen ein Nachteil ist. In Direct3D-10-Anwendungen rechnet ATi aber mit einem Vorteil. Die TMUs können innerhalb eines Taktes einen 64-Bit-Wert filtern, weswegen die Textureinheiten FP16-HDR-Rendering ohne Geschwindigkeitsverlust gegenüber der herkömmlichen Genauigkeit berechnen können. FP32-HDRR benötigt dagegen zwei Takte, um einen Wert zu vervollständigen. Massiv gesteigert haben die Kanadier die Anzahl der Texture Samples, die pro Takt einen einzelnen Datenwert abrufen können. Pro Texturcluster gibt es 20 Texture Samples, insgesamt auf einem R600 also 80 dieser Einheiten.
Die Textureinheiten des R600 verfügen über einen überraschend großen Zwischenspeicher. So gibt es einen Shared L1- und L2-Texture-Cache, wobei letzterer auf der Radeon HD 2900 XT 256 KB groß ist, während der Speicher auf der Radeon HD 2600 halbiert ist. Zudem gibt es noch einen Vertex-Cache, dessen Größe wie die des L1-Caches aber unbekannt ist. Beim RV610 verzichtet ATi auf die drei verschiedenen Caches, so dass es nur einen gemeinsamen Vertex-/Texture-Cache gibt. Die TMUs arbeiten auf dem R600 wie die ALUs mit einer Frequenz von 742 MHz. Darüber hinaus hat man die anisotrope Filterung gegenüber dem R580 leicht verändert. Eine winkelabhängige Texturfilterung gibt es nicht mehr, der Treiber ermöglicht, wie der G80, nur noch eine qualitativ höherwertige winkelunabhängige anisotrope Filterung. Ebenfalls hat man einige Bugs entfernt, die in einigen Spielen ein starkes Texturflimmern hervorgerufen haben. Zudem wurde die Präzision des 16-fachen anisotropen Filters verbessert.
Technik im Detail Part 2
Raster Operation Processor (ROP):
Die Raster Operation Processors hat ATi mit dem R600 gegenüber den Derivaten auf dem R580 verbessert. Abgesehen von dem neuen 8xMulti-Sampling-Anti-Aliasing können die ROPs auf dem R600 nun mehr Tiefen/Z-Tests (Sichtbarkeitsprüfung, Tiefentests) durchführen. Auf dem R600 setzt ATi insgesamt 16 ROPs ein, die Z-Tests für 32 Pixel pro Takt ausführen können. Da sowohl auf dem RV630 als auch auf dem RV610 vier ROPs vorhanden sind, ist die Anzahl der Z-Tests logischerweise auf acht Pixel pro Takt geviertelt. Im Vergleich dazu konnten die 16 ROPs im R580 nur für 16 Pixel einen Tiefentest durchführen. Ebenso wurde in gewissen Teilbereichen die Effizienz der ROPs stark verbessert. Das Render-to-Texture-Verfahren soll nun um ein vielfaches schneller als auf einem R5x0 funktionieren, zudem können mit acht Multiple Render Targets (MRT) doppelt so viele MRTs inklusive 4xMSAA ausgeführt werden. Neben dem für Direct3D 10 vorgeschriebenen FP32-Blending können die ROPs auf dem R600 ein weiteres Floating-Point-Format (11:11:10) darstellen.
HierarchicalZ:
Wie bereits weiter oben erwähnt, kann der R600 nun effektivere Sichtbarkeitsprüfungen und Tiefentests durchführen, um nicht sichtbare Pixel zu verwerfen und somit Rechenzeit einzusparen. So wurde die Z- und Stencil-Kompression vom Verhältnis 8:1 auf 16:1 verdoppelt (128:1 bei 8xMSAA, da die ROPs mehr „Zeit“ haben, entsprechende Tests zu vollziehen) und die Z- und Stencil-Kompression wird nun separat ausgeführt. Somit soll die Effizienz verbessert werden. Durch die erweiterte Kompression sind Z-Tests nun ebenfalls in höheren Auflösungen als bei der „alten“ Chipgeneration (bis zu 2560x1600) möglich. Außerdem wird auf dem R600 ein Feature namens „Re-Z“ eingeführt, was es der GPU ermöglicht, den Z-Buffer zwei Mal zu kontrollieren; zuerst vor dem Pixelshader und das zweite Mal nach den Shader-Berechnungen. Darüber hinaus wurde unter anderem der HierarchialZ-Buffer verbessert, um die Stencil-Schatten-Geschwindigkeit zu erhöhen.
Speicherinterface:
Dass man mit einem 256 Bit breiten Speicherinterface bei einem modernen High-End-Beschleuniger nicht mehr weit kommen würde, war spätestens nach der Einführung der GeForce 8800 GTX mit ihrem 384 Bit Speicherinterface klar. ATi setzt mit dem R600 noch einen drauf und implementiert dem Chip ein 512 Bit breites Speicherinterface. Ermöglicht wird dies durch gleich acht 64 Bit breite Speicherkanäle und somit einer (aber nur leicht) schlechteren Effizienz gegenüber dem R580. Dieser hatte acht 32 Bit Kanäle implementiert. Laut ATi wäre das Chipdesign bei 16 32 Bit breiten Kanälen aber zu komplex geworden bei zu geringem Nutzen. Von den 16 Speicherbausteinen auf der Radeon HD 2900 XT (16 multipliziert mit 32 MB entspricht 512 MB – man kann durch die Nutzung von 64-MB-Speicherchips also ohne einen allzu großen Aufwand auf demselben PCB 1024 MB unterbringen) sind also immer zwei an einen Speicherkanal angeschlossen und kommunizieren durch diesen.
Bei dem R5x0 führte ATi einen Ringbus ein und stellte diesen als eine große Innovation vor. Ohne Zweifel, der Ringbus hat seine Vorteile (zum Beispiel ist dieser weniger Komplex als eine Crossbar und man kann einen Ringbus recht simpel erweitern), allerdings ist die schnellst mögliche Verbindung immer noch die altbekannte Crossbar, sprich die Punkt-zu-Punkt-Verbindung von Speicher- zu Speicherkanal. ATi hat mit der R600-Genration den Ringbus nun aber verbessert, auch wenn dieser logischerweise immer noch nicht an die Performance einer Crossbar heranreichen kann. So gibt es nun anstatt zwei vier Datenleitungen, die die Bits für den Speicher transportieren können. Um die Erweiterungsmöglichkeiten zu verbessern hat ATi die noch vorhandene Crossbarswitch entfernt.
Dynamic Branching:
Dynamic Branching wurde mit der Spezifikation des Shader-Models 3.0 (beziehungsweise dem Shader-Model 2.A) eingeführt und gewinnt bei neuen Grafikkarten immer mehr an Bedeutung, da Spieleprogrammierer gerne auf dieses Feature zurückgreifen. Dynamic Branching, oder auch Flow Control genannt, ist eine Sprunganweisung innerhalb eines Shadercodes. So kann man unter anderem mit einem if- oder when-Befehl eine gewisse Bedingung festlegen, wann welcher Shadercode ausgeführt, wann ein Shader abgebrochen oder wann ein gewisser Teil übersprungen werden soll. Wichtig ist es dabei immer eine feine Granularität zu haben, da ansonsten längst nicht für alle Pixel Dynamic Branching angewendet werden kann.
Bei einem R580 teilt der Dispatch Processor den Shadercode in einen 4x12 Pixel großen Block auf, was insgesamt 48 Pixel entspricht. Auf einem R600 ist die Granularität etwas geringer geworden, sprich die Effizienz ist nicht mehr ganz so gut. Diese liegt nun bei 64 Pixeln. Der G80 ist in der Lage, den Shader in einen 4x4 großen Pixelblock einzuteilen.
Tessellation-Einheit
Wohl mit das interessanteste, weil außergewöhnlichstes Detail in der R600-GPU ist die Tessellation-Einheit, die die Direct3D-10-Spezifikation eigentlich gar nicht vorsieht. Erst in Direct3D 11 wird eine Tessellation-Unit vorausgesetzt. In einer klassischen Architektur wäre der Tessellator noch vor dem Vertexshader implementiert. Nichtsdestotrotz soll es für Programmierer ohne größere Schwierigkeiten und ohne neue Anweisungen in der Shader-API möglich sein, den Tessellator anzusprechen. Wie genau das funktionieren soll, wollte uns ATi leider nicht mitteilen. Doch was macht eine Tessellation-Unit überhaupt? Einfach ausgedrückt, ein Tessellator kann ein Polygon (sei es nun ein Dreieck, Viereck oder eine andere Form) in mehrerer kleinere Polygone mit derselben Form ohne einen allzu großen Rechen- und Programmieraufwand aufteilen. Dies ist auf dem R600 bis zu 15 Mal mit einem Polygon möglich, wobei pro Tessellations-Stufe ein Drawcall, also ein Zeichenaufruf für die API, nötig ist.



Somit kann man ein schnell zu berechnendes Low-Polygon-Modell mit der Tessellations-Einheit bearbeiten, anschließend eine Displacement-Map auflegen und schon hat man ein detailliertes High-Polygon-Modell ohne die GPU großartig zu belasten bei nur marginal gestiegenem Speicherverbauch. Darüber hinaus kann man mit dem Tessellator ein interessantes LOD-System erstellen. Bei weit entfernten Figuren nimmt man nur wenige Tessellations-Stufen, während man bei einer nahen Betrachtung das Polygonmodell mehrmals mit dem Tessellator bearbeitet und somit ein detaillierteres Modell erhält. Dies ist natürlich auch mit dem Geometryshader möglich, dieser wäre dann aber nur noch begrenzt für andere anstehende Arbeiten zu gebrauchen. Laut ATi soll es vor allem bei den Xbox-360-Portierungen nicht kompliziert sein, den Tessellator auf einem R600 zu nutzen, da der Xenos über dieselbe Tessellations-Einheit verfügt. Der Tessellator auf der Radeon-HD-2000-Serie beherrscht mehrere so genannte „Subdivision Surface“-Typen, weswegen die Recheneinheit flexibel vom Programmierer benutzt werden können soll.


Die Tessellations-Einheit kann adaptiv verwendet werden, sprich nicht direkt das ganze Objekt muss vom Tessellator bearbeitet werden. So kann sich der Programmierer einzelne Objektstellen aussuchen und nur diese modifizieren.
Percentage Closer Filtering (PCF):
Die Direct3D-10-Spezifikation schreibt es vor und dementsprechend ist der R600 in der Lage Percentage Closer Filtering, kurz PCF, auszuführen. PCF ist eine schnelle Möglichkeit, mehrere Samples aus einer Shadowmap mit einem TEX-Befehl aufzurufen und diese in der Textureinheit bilinear zu filtern. Somit verhindert man verfranst aussehende Schattenkanten bei der Verwendung von Shadowmaps, wie sie auf einem R5x0 üblich waren. Dies fiel vor allem in Spielen wie Battlefield 2 und Company of Heroes negativ auf. Der R5x0 beherrschte lediglich Fetch 4. Mit Fetch 4 kann man zwar mehrere Samples mit einem TEX-Befehl aufrufen, filtern konnte man die Samples in den TMUs aber nicht. Dies musste im Pixelshader erledigt werden, was nicht nur zusätzliche Arbeitszeit in Anspruch nimmt, sondern zusätzlich in vielen Spielen (oder sogar allen) nicht implementiert worden ist.



Wir haben einen kurzen Screenshotvergleich angefertigt, der Überraschendes zeigt. Trotz PCF werden die Shadowmaps auf dem R600 in Battlefield 2 offensichtlich nicht gefiltert – warum ist uns unbekannt. Wir versuchen dies so schnell wie möglich zu klären.
Unified Video Decoder (UVD):
Dass der R600 sowie dessen Ableger RV630 und RV610 über zwei Dual-Link-DVI-Anschlüsse inklusive eines integrierten HDCP-Key-ROM in der GPU (was auch bei einer Dual-Link-Auflösung genutzt werden kann) verfügt, ist quasi schon eine Selbstverständlichkeit für eine neue GPU. Interessanter sind dagegen die Avivo-Verbesserungen, die aber nur die Radeon HD 2600 sowie Radeon HD 2400 betreffen. So wurde ein spezieller Unified Video Decoder (UVD) im RV630 und RV615 integriert, der nun alle vier Stufen des Decodierens eines HD-Videos (Entropy Decode, Frequency Transform, Pixel Prediction und Inloop Deblocking) sowohl für den H.264- als auch für den VC-1-Decoder übernehmen und beschleunigen kann. Der R600 besitzt dagegen keinen UVD, sondern erledigt alle anfallenden Arbeiten über die ALUs, weil diese laut ATi rechenstark genug für diese Aufgabe sind. Die G84- und G86-GPUs von nVidia sind dazu ebenso in der Lage, allerdings nur für den H.264-Codec. Bei VC-1 fehlt die erste Entropy-Decode-Stufe, die weiterhin die CPU übernehmen muss.


Jeder Käufer einer Radeon-HD-2000-Grafikkarte erhält einen speziellen DVI-zu-HDMI-Adapter, mit dem man zum Beispiel einen Fernseher mit HDMI-Schnittstelle an die Grafikkarte anschließen kann. Dieser ist sogar in der Lage, den Ton mit zu übertragen, obwohl dies die DVI-Spezifikationen gar nicht vorsehen. ATi macht sich hier die ungenutzte Bandbreite des DVI-Ports zu Nutze. Mitspielen muss natürlich zudem die Grafikkarte, wobei das bei jedem R600, RV630 sowie RV610 der Fall ist. So kann eine Radeon HD 2000 den Ton von der Soundkarte beziehungsweise dem Onboard-Sound über den PCIe-Bus empfangen, und leitet diesen über die R600-GPU (dort wird dann auch für den Ton die HDCP-Verschlüsselung vorgenommen) an den DVI-/HDMI-Port. So kann man ohne ein zusätzliches Kabel Bild und Ton über die Grafikkarte übertragen. Entgegen mancher Gerüchte ersetzt eine ATi Radeon HD 2000 aber keine Soundkarte. Auf die neuen HD-Tonformate (Dolby TrueHD, DTS-HD, aber ebenso Dolby Digital Plus) und auf 7.1-Sound muss man jedoch verzichten. Der Audio-Controller unterstützt nur bis zu 5.1-Sound, bietet dann aber immerhin Dolby-Digital- und DTS-Ton.
R600-Techdemos
Jahr für Jahr haben neu vorgestellte GPU-Architekturen, die mit einer modifizierten Technologie aufwarten können, immer ein und dasselbe Problem: Es fehlt an Software, um das Können der aktuellen Grafikgeneration zu zeigen. So auch beim R600, denn Direct3D-10-Spiele sucht man bekanntlich (noch) vergebens. Aus diesem Grund lassen es sich die Software-Teams des Herstellers nicht nehmen, eigene Technologiedemos zu programmieren, die speziell auf den neu vorgestellten 3D-Beschleuniger angepasst sind und das letzte Quäntchen Leistung von der Hardware fordern. Dementsprechend sind die „Techdemos“, die wir an dieser Stelle nicht verheimlichen wollen, immer sehr eindrucksvoll.





ATi hat eine neue Ruby-Techdemo namens „WhiteOut“ im Angebot, die sowohl technisch als auch (mehr) künstlerisch überzeugen kann und die volle Kapazität der R600-GPU, samt Direct3D-10-API und der Tessellation-Einheit, verwendet. Die Hauptdarstellerin Ruby besteht aus satten 200.000 Polygone und hat mehr als 128 bewegliche Gesichtsmuskeln. Der durchschnittliche WhiteOut-Shader hat eine Länge von 142 Anweisungen. Doch lassen wir lieber die Bilder als den Text sprechen – soviel schon einmal vorweg: In Bewegung sieht die Ruby-Demo noch eindrucksvoller aus als auf den Bildern.








Darüber hinaus gibt es noch einige weitere R600-Techdemos, über die aber leider nur wenig bekannt und teilweise auch nur wenig oder gar kein Bildmaterial vorhanden ist. Am interessantesten war dabei noch die außergewöhnlichste Techdemo. So wurden wir Zeuge einer Livepräsentation einer mit einer speziell angepassten Stereo-Kamera aufgenommenen Gesicht-Animation (von einem realen Menschen), deren Bilder der R600 analysieren und auf den Bildschirm zaubern konnte. Nun ist es möglich, die einzeln dargestellten Vierecke mit einer Kugel zu zerstören, mit Hilfe eines Wirbelsturms das ganze Kamerabild auseinander fliegen zu lassen und noch vieles mehr. Die Physik wurde dabei alleine von dem R600 berechnet. Sehr eindrucksvoll!








Darüber hinaus gibt es auch noch eine Techdemo von einem animierten „Ninja-Kopf“, bei dem man nach belieben die Tessellationsstufen ändern sowie stufenlos hinein- und herauszoomen konnte, selbst bis ins kleinste Detail. Leider gibt es von dieser Demo keine Bilder.
Bildqualität
Moderne Grafikkarten sollten nicht nur schnell sein, sie sollen auch ein exzellentes Bild liefern. Eine Möglichkeit, um dies zu erreichen, auch wenn der gelieferte Grafik-Content des Spieles nicht allzu gut ausfällt, ist die Aktivierung von Anti-Aliasing, welches die Polygonkanten glättet, und das Hinzuschalten des anisotropen Filters, der die Texturen auch in weiter Ferne noch scharf erscheinen lässt. Da ATi und nVidia versuchen, in diesen Features den Konkurrenten zu übertreffen, erlebt man bei manch' neuer Chipgeneration eine positive Überraschung – wobei eine negative allerdings auch nicht ausgeschlossen werden kann –, da die Bildqualität sich verbessert hat. Aus diesem Grund gehört zu einem Grafikkarten-Review einer neuen Chipserie nicht nur das Testen der Geschwindigkeit, es sollte ebenfalls ein Blick auf die gelieferte Bildqualität geworfen werden.
Dabei werden wir beide Bildverbesserungsmechanismen nicht nur in der Praxis, sondern auch in der Theorie begutachten. So untersuchen wir die Qualität des anisotropen Filters mit dem oft benutzten Tool „AF-Tester“ sowie dem 3DMark06 (im Falle des R600 mussten wir leider auf den 3DMark05 zurückweichen, da das integrierte AA- und AF-Analysetool ansonsten mit der Radeon HD 2900 XT nicht starten wollte) und mit einer Spielszene aus Half-Life 2, wobei auch selbst erstellte Videos zur Kontrolle herangezogen werden. Auf den Ego-Shooter greifen wir auch bei den Untersuchungen des Anti-Aliasings zurück. Zudem werden wir die Sample-Positionen in dem Tool „FSAA-Viewer“ vergleichen. Zusätzlich kommt erneut der 3DMark06 zum Einsatz, der mit seinen Analysetools einige interessante Möglichkeiten bietet.
AA kontrolliert
Bei der G80-GPU hat nVidia einen neuen Anti-Aliasing-Modus eingeführt, der auf den Namen „Coverage Sampling Anti-Aliasing“ (CSAA) hört. Dieser bietet nicht nur den Vorteil von einer (in den meisten Situationen) besseren Kantenglättung, sondern hat zudem nur mit einem recht geringen Performanceverlust zu kämpfen. Kein Wunder, dass ATi sich etwas einfallen lassen hat, um gegen das neue CSAA bestehen zu können. Doch kommen wir erst einmal zu den gewöhnlichen AA-Einstellungen. Wie der FSAA-Viewer zeigt, hat sich bis 4xAA nichts beim Anti-Aliasing getan – dies ist aber auch nicht nötig, so ist das vier-fache Rotated Grid perfekt angeordnet. Das sich die Sampleposition leicht in die Mitte verschoben hat, ist dabei irrelevant.
Verloren gegangen auf dem R600 ist das 6xAA. Grund dafür ist das neue acht-fache MSAA (Multi-Sampling-Anti-Aliasing), das in einer Sparse-Grid-Anordnung (Rotated Grid bedeutet, dass man einen Ordered-Grid-Algorithmus, sprich mehrere Samples, die genau auf einer Linie liegen, alle um denselben Winkel dreht, während ein Sparse Grid zufällig ohne ein direkt erkennbares Schema sortiert ist) bereit gestellt wird. Die Samples sind anders als beim 8xQAA auf einem G80 sortiert. Das EER („Edge Equivalent Resolution“, beschreibt mit einem Zahlenwert die theoretische Qualität des Anti-Aliasing, wobei berücksichtigt wird, ob ein Sample mit einem anderen auf einer Linie angeordnet wird und somit die Kantenglättung nur marginal verbessert) beträgt aber sowohl beim 8xQAA auf dem G80 als auch beim 8xAA auf dem R600 8x8 (Y- und X-Achse).
Neu hinzugekommen ist eine Variante namens „Custom Filter Anti-Aliasing“, die es in einer ähnlichen, qualitativ aber nicht so hochwertigen Methode, schon einmal beim Konkurrenten gegeben hat: Quincunx Anti-Aliasing. Wer jetzt in Panik verfällt und ein völlig vermatschtes Bild vor Augen hat, den können wir zumindest teilweise beruhigen. Ja, CFAA blurt das Bild ein wenig, so schlimm wie bei Quincunx-AA ist es aber nicht. Doch dazu später mehr. Bei einem herkömmlichen Anti-Aliasing werden immer nur die AA-Samples von dem zu glättenden Pixel in der AA-Maske verwendet. CFAA geht etwas weiter und nutzt die Samples von den benachbart anliegenden Pixeln mit (es wird sich nicht auf ein einziges Pixel konzentriert, sondern auf alle umliegenden gleichmäßig), um die Geometrieglättung des gerade berechneten Pixels zu verbessern. Die „Nachbarpixel“ werden je nach Modus anders gewichtet, weswegen der Blureffekt im Bild von Modus zu Modus unterschiedlich ist.
R580




R600




G80




Es gibt offiziell auf dem R600 drei verschiedene Arten des CFAA. Das 12xCFAA nutzt den „Narrow Tent Filter“, der die angrenzenden Geometriesamples der Nachbarpixel nur in einem geringen Maße nutzt und bei dem der Blureffekt theoretisch nicht allzu schlimm ausfallen sollte. Das 16xCFAA nutzt mit dem „Wide Tent Filter“ ein etwas aggressiveres Pendant, dass ebenfalls das 8xMSAA nutzt, aber nicht wie bei 12xAA vier Samples des Nachbarpixels in das Ergebnis mit einfließen lässt, sondern stattdessen gleich acht Pixel gewichtet. Der Blur-Faktor sollte bei 16xCFAA etwas höher als bei 12xCFAA liegen. Daneben gibt es noch einen 24xCFAA-Modus, der aber etwas mysteriös ist – so gibt ATi diesen offiziell an, Bilder dazu findet man aber nicht, ebenso wenig möglich war es uns, das 24xCFAA im Treiber einzustellen. Der dazu nötige Filter war schlicht und ergreifend nicht vorhanden. Mittlerweile hat ATi allerdings ein Tool veröffentlicht, mit dem auch das 24xCFAA mit dem Edge-Detect-Filter möglich ist. Darüber hinaus gibt es einen neuen 12xCFAA-Modus, ebenso mit Edge-Detect.
Das 24xCFAA sowie ein zweiter 12xCFAA-Modus nutzt, wie oben bereits erwähnt, einen so genannten „Edge Detect Filter“, der im ersten Schritt das macht, was der Name sagt: Er sucht nach Ecken in einem Bild, indem der Pixelshader deutliche Kontraständerungen untersucht. An den Eckpixeln werden dann mehr Samples mit einem hochwertigen Filter verwendet, wobei die anderen Pixel weniger gewichtet werden und in diesem Fall nur der normale „Box Filter“ zum Einsatz kommt. Dies soll den eigenen Angaben zu Folge darüber hinaus Texturflimmern bekämpfen und jegliche Unschärfe verhindern – zweifellos der interessanteste CFAA-Modus, der mit 12xCFAA aufgrund des zumindest theoretisch recht geringem Blureffekts den besten Eindruck erweckt, wenn man ihn dann aktivieren könnte. Es gibt noch ein 4xCFAA (2xAA + Narrow Tent Filter) sowie ein 6xCFAA (2xAA + Wide Tent Filter oder 4xAA + Narrow Tent Filter), die beide aber weniger interessant sind.



Das von ATi verwendete CFAA ist mehr eine Treiber- als eine Hardwaresache, denn die Direct3D-10-Spezifikation macht alles erforderlich, damit man den AA-Modus manipulieren kann. Aufgrund dessen kann man das CFAA logischerweise per Treiber beeinflussen, was ATi in Zukunft auch machen möchte, um die Qualität weiter zu verbessern. CFAA, das wohl ausschließlich im Pixelshader durchgeführt wird, funktioniert mit allen verfügbaren AA-Modi und es gibt laut ATi keine Rendertechniken, die CFAA verhindern. Sowohl bei HDR-Rendering als auch bei Stencil-Schatten (wo nVidias CSAA nicht mehr funktioniert) soll CFAA funktionieren. Einzig in OpenGL bleibt CFAA wirkungslos. Der Speicherverbrauch soll durch CFAA gar nicht oder nur gering ansteigen, was vor allem bei texturintensiven Anwendungen von Vorteil ist. Der FSAA-Viewer kann das Custom Filter Anti-Aliasing leider nicht festhalten, weswegen wir nur auf die Präsentationsfolien von ATi zurückgreifen können. Die Möglichkeit Super-Sampling-Anti-Aliasing zu verwenden, was die Geometrie und Texturen bearbeiten würde, ist weiterhin nicht gegeben.
Schauen wir uns nun das Anti-Aliasing des R600 im praktischen Grafiktool vom bekannten 3DMark an. Wie bereits erwähnt gibt es bei bis zu vier-fachem AA zwischen dem R5x0, R600 sowie dem G80 keine nennenswerten Unterschiede. Die minimale Verschiebung des Samplemusters auf dem R600 gegenüber dem R5x0 resultiert in keiner sichtbaren Verbesserung oder Verschlechterung. Im Vergleich zum G80 ist je nach Winkel mal die eine und mal die andere Lösung im Vorteil. Interessanter wird es dagegen beim 8xAA, da sich hier die Lösungen von ATi und nVidia unterscheiden. Einen grundsätzlichen Gewinner können wir nicht ausmachen, auch hier ist das Ergebnis wieder von Winkel zu Winkel unterschiedlich. Einen Totalausfall bei gewissen Winkeln, wie man es bei dem ein oder anderen Sample-Muster in der Vergangenheit schonmal bewundern konnte, gibt es auf jeden Fall nicht. Gegen das 6xAA auf einem R5x0 setzen sich beide acht-fach-Modi problemlos durch.
R580




R600









G80







Einen guten Eindruck kann das 12xCFAA im 3DMark hinterlassen. Die Glättung ist größtenteils sichtbar besser als beim 8xAA, man kann es gar mit dem 16xQAA auf einem G80 aufnehmen. Hier gilt wieder die altbekannte Regel: Je nach Winkel glättet mal die eine und mal die andere GPU besser. Mit dem 16xCFAA schafft es ATi zum ersten Mal, das CSAA beim G80 zu übertrumpfen. Obwohl der 16xQ-Modi nicht viel schlechter aussieht, werden die Kanten teilweise nicht ganz so gut wie beim 16xCFAA auf dem R600 bearbeitet. Dieser Modus ist logischerweise leicht besser als das 12CFAA. Kommen wir zum Schluss nun zu einem Spiel, die wohl zweifellos wichtigste Disziplin, die ein Anti-Aliasing-Modus bewältigen muss. Doch vorher müssen wir anmerken, dass es starke Unterschiede in der Helligkeitsberechnung zwischen dem R5x0, R600 und dem G80 gibt. Dies hat aber keinerlei Auswirkungen auf die Qualität der Kantenglättung.
Das 12xCFAA mit Edge-Detection hinterlässt eine gute Figur. Das Ergebnis liegt gleichauf mit dem 12xCFAA. Das 24xCFAA hinterlässt allerdings einen faden Beigeschmack. Viele Kanten werden mehr schlecht als recht bearbeitet – wir hegen die Vermutung, dass die Treiberimplementierung des Edge-Detect-Filters noch nicht vollständig abgeschlossen ist. Positiv herausstellen müssen wir, dass der Edge-Detect-Filter, wie von ATi versprochen, das Bild nicht mit einem Blur-Filter überdeckt.
In Half-Life 2 gibt es bis einschließlich vier-fachem Anti-Aliasing keinerlei große Differenzen in der Bildqualität. Einzig interessant ist eine sichtbare Verbesserung des Adaptive-Anti-Aliasing, was nun effektiver als auf dem R5x0 zu arbeiten scheint. Die Alpha-Test-Texturen werden um einiges besser geglättet, was vor allem in Bewegung positiv bemerkbar wird. Auch die direkte Konkurrenztechnologie von nVidia, die auf den Namen Transparency-Anti-Aliasing setzt, kommt nicht gegen das Adaptive-Anti-Aliasing von ATis R600-GPU an. In Half-Life 2 kann das 8xAA auf dem R600 seine vollen Stärken ausspielen und schlägt das 8xQAA von nVidia deutlich. Beinahe sämtliche Winkel werden von der ATi-Grafikkarte besser geglättet – sehr gut, ATi!. Das 8xQAA von nVidia ist keinesfalls schlecht und dem 4xAA überlegen, die Sampleanordnung scheint nVidia aber nicht so gut wie den Kanadiern gelungen zu sein. So hat ein Quervergleich mit anderen Spielen gezeigt, dass ATis Implementierung effektiver arbeitet.
R580




R600









G80







Wenn man ATis 8xAA mit dem neuen 12-fachen Custom-Filter-Anti-Aliasing vergleicht, fallen sofort zwei verschiedene Dinge auf. Zweifellos, die Kantenglättung ist in Half-Life 2 sehr gut und wohl die Beste, die wir von dem R600 zu sehen bekommen haben. Weder das 16xQA noch ein anderer MSAA-Modus kommt an das Ergebnis von 12xCFAA heran. Was aber auffällt, ist eine sichtbare Unschärfe, die sich über das gesamte Bild erstreckt. Zwar ist der Blur-Effekt längst nicht so ausgeprägt wie bei nVidias altem Quincunx Anti-Aliasing, vorhanden ist er aber trotzdem. Das 16xCFAA glättet nur wenig besser als 12xCFAA, die Unschärfe fällt aber noch intensiver als bei 12xCFAA auf. Der Edge-Detect-Filter weiß in Half-Life 2 nicht zu gefallen. Weder das 12xCFAA noch das 24xCFAA sehen bedeuten besser als das herkömmliche 8xAA aus. Unterschiede fallen beim genauen Hinsehen zwar auf, diese sind aber so gering, dass man die Verbesserungen im Spielgeschehen übersieht.
Der 8xAA-Modus ist ATi auf dem R600 sehr gut gelungen und sieht ohne Zweifel besser als nVidias 8xQAA aus. Selbst das 16xQAA muss sich anstrengen, um an das acht-fache AA auf dem R600 heranzukommen. Es fällt uns allerdings schwer, eine allgemeine Wertung für das Custom-Filter-Anti-Aliasing zu geben. Ohne Zweifel, die Kantenglättung ist hervorragend und zaubert geglättete Bilder auf den Bildschirm, die vorher mit reinem MSAA noch undenkbar gewesen sind. Jedoch wird das Bild sichtbar unschärfer, was sicherlich längst nicht jedermanns Sache ist. Hier sollte jeder für sich entscheiden, was ihm wichtiger ist. Zudem muss man anmerken, dass der Blur-Effekt von Spiel zu Spiel unterschiedlich ausgeprägt ist. Wir ziehen dabei das 12xCFAA dem 16xCFAA-Modus vor. Letzteres glättet nur in seltenen Fällen besser, ist aber noch einen Tick unschärfer als das 12xCFAA. Dieser Modus ist auf jeden Fall einen Versuch wert. Die beiden Edge-Detect-Modi sind leider relativ sinnlos. Die Bildqualität steigt gegenüber 8xAA quasi nicht an. Positiv zu bemerken ist aber, dass der Edge-Detect-Filter im Gegensatz zu den anderen Filtern keinen Blur über das Bild legt.
AF kontrolliert
Die Begeisterung war groß, als der Öffentlichkeit bekannt wurde, dass nVidias G80-GPU eine beinahe vollständige winkelunabhängige anisotrope Filterung beinhaltet, die darüber hinaus noch sehr präzise arbeitet und nur in wenigen Fällen ein unangenehmes Flimmern erzeugt. Quasi ein kleiner Quantensprung, wenn man die Texturfilterung vom Vorgänger G7x betrachtet. Auch gegen ATis R5x0 war man bestens gerüstet und konnte dessen Qualität übertrumpfen. Doch reicht es, um den R600 zu schlagen? Soviel schon mal vorweg: Eine winkelabhängige Texturfilterung, wie der R5x0 noch anbietet, gibt es auf dem R600 glücklicherweise nicht mehr. Hier hat nVidia mit dem G80 wohl genug Druck machen können, um diese Unart dem Konkurrenten austreiben zu können.












Fangen wir mit dem AF-Tester an – hier wollen wir gleich zu Beginn anmerken, dass der ATi-Treiber den AF-Tester, beziehungsweise eingefärbte MipMaps, erkennt und automatisch auf eine voll trilineare Filterung schaltet. In anderen 3D-Anwendungen kommt dagegen ein qualitativ minimal schlechterer bilinearer Filter zum Einsatz. Bei der herkömmlichen trilinearen Filterung fällt sofort ein leicht anderes Ergebnis als beim R5x0 ins Auge. Ein Gespräch mit Raja Koduri, dem Senior Architekten von ATi, gibt dabei Aufklärung: ATi hat beim R600 die Präzision des anisotropen Filters überarbeitet und ebenso wohl das LOD-System. Somit möchte man dem Flimmern etwas Einhalt gebieten und zudem hat man einen Bug entfernt, der in einigen Spielen die Texturen mehr flimmern ließ als vorgesehen. Beim Vergleich mit nVidias G80-Chip wird direkt deutlich, dass es schwer für den R600 werden wird mit der GeForce-8000-Serie mitzuhalten. Was die Winkelunabhängigkeit betrifft, ist nVidia den Kanadiern weiterhin überlegen.
Interessanter ist ein Blick auf den vier-fachen anisotropen Filter. Man erkennt erneut die bessere Genauigkeit und das veränderte LOD-System auf dem R600 gegenüber dem R5x0. Die „AF-Blume“ vom R600 wirkt zum Beispiel weniger ausgefranst als die des Vorgängers. Gegen nVidias Implementierung des vier-fachen AF hat aber der R600 keine Chance – zumindest was die Präzision und die Winkelunabhängigkeit betrifft. Dies ändert sich auch bei dem maximalen AF-Grad nicht, wobei die Differenzen dort noch deutlicher ausfallen. Ob nVidia dadurch einen Vorteil in Spielen schlagen kann, werden wir nachher untersuchen. Besser erkennen kann man nun die verbesserte Präzision des R600. Die LOD-Blume sieht nun einheitlicher aus. Die Screenshots von dem R600 wurden allesamt mit der Optimierungsstufe A.I. Standard geschossen. Die A.I.-Einstellung ändert nichts an der AF-Blume.
Im Filtertester vom 3DMark fällt bei vier-fachem Anti-Aliasing die bessere Präzision des Texturfilters vom R600 auf. Einige Abschnitte werden besser gefiltert, die beim R5x0 nur halbherzig bearbeitet worden sind. Im Vergleich G80 gegen R600 erkennt man bei der ATi-Grafikkarte, dass die Texturen, trotz desselben AF-Grades, nach hinten hin mehr gefiltert werden als auf der GeForce 8800. Dies kann man mit dem etwas anderen LOD-System begründen. Dabei wollen wir aber Vorsicht walten lassen, bei der Aussage, was das bessere Ergebnis ist. Bekannterweise neigen Grafikkarten bei einem negativeren LOD eher zum Flimmern. Dies sieht auf Standbildern besser aus, in Bewegung ist aber das Gegenteil der Fall.















Bei der höchsten AF-Stufe ist das Bild auf einem R600 wieder minimal besser als auf dem R5x0, gerade groß fällt die Differenz aber nicht aus, wobei wir hier in Spielen ein etwas besseres Ergebnis erwarten. Eine sichtbare Differenz gibt es beim Vergleich gegen den G80. Während die Glättung in den letzten Texture Stages diesmal ziemlich gleichwertig ist, erkennt man beim G80 sofort die bessere Winkelunabhängigkeit. Da der erzeugte Tunnel im 3DMark ein Worst-Case-Szenario bezüglich der Winkelunabhängigkeit ist, deckt der nVidia G80 gnadenlos die Schwächen von ATis R600-GPU in dieser Disziplin auf. Schaltet man den G80 auf „High Quality“, sprich man deaktiviert alle „Optimierungen“ des anisotropen Filters und tut dies ebenfalls bei ATis R600, so erkennt man sofort, dass bei der nVidia-Karte nun kein bilinearer, sondern ein trilinearer Filter genutzt wird. Man kann die Abstufungen der Texture Stages nun nicht mehr erkennen. Geringer fällt der Unterschied auf dem R600 bei A.I. Disabled auf, da der bilineare Filter traditionell auf einer ATi-GPU etwas besser zu funktionieren scheint; zumindest ist die Bugwelle weniger gut sichtbar.
Die Theorie ist ja schön und gut, doch was hilft das einem, wenn in der Praxis etwas anderes herumkommt? Viele mögen nun sagen, dass dann die Theorie falsch ist, doch warten wir einfach mal ab, wie es im Duell ATi R600 gegen nVidia G80 in Half-Life 2 aussieht. Eins verraten wir jetzt schon: Die von uns aufgestellten Thesen sind richtig. Bei einfachem anisotropen Filter kann man, was die Texturfilterung betrifft, keinen wirklichen Unterschied bei der Begutachtung von R5x0 und R600 ausmachen. Auch beim direkten Vergleich mit dem G80 fällt es schwer, einen Sieger zu küren. Schauen wir uns deswegen den vier-fachen anisotropen Filter an.












Die Differenzen sind gering, aber sie sind da. Das Bild vom R600 wirkt in wenigen Teilen unschärfer, weswegen wir schlussfolgern, dass das störende Texturflimmern etwas gemindert worden ist. Spätere Videovergleiche bestätigen dies. Wieder eine gute Figur hinterlässt der G80 von nVidia. Das Bild sieht ruhiger aus, jedoch erkennt man den bilinearen Filter in der Standardeinstellung des Treibers. Um dies zu verhindern, deaktiviert man die „trilineare Optimierung“ des Treibers. Wie schon im 3DMark, so auch in Half-Life 2: Je mehr die Texturfilterung gefordert wird, umso eher werden die Veränderungen erkenntlich.
Bei dem 16-fachen anisotropen Filter sieht das Bild des R600 in weiten Teilen ruhiger als das Ergebnis vom R5x0 aus. Ansonsten sind allerdings keine Differenzen zu erkennen. Beinahe ohne Fehl und Tadel arbeitet die Texturfilterung der nVidia-GPU bei der Standardeinstellung im Treiber. Zwar fällt erneut der bilineare Filter unangenehm auf, dafür wirkt das restliche Bild wie aus einem Guss. Deaktiviert man nun die Optimierungen, so gibt es kein Halten für den G80 mehr. Kein Flimmern ist erkennbar und die trilineare Filterung arbeitet einwandfrei. Dagegen kommt auch das ATi-Ergebnis auf dem R600 mit deaktiviertem A.I. nicht an. Die trilineare Filterung bereitet keine Probleme, das Bild sieht aber weiterhin unruhiger aus.
Man kann das Texturflimmern auf Bildern erahnen, wirklich sehen tut man diesen Effekt aber nur in Bewegung. Deswegen haben wir mehrere Videos von Half-Life 2 und einem „Moiré-Tester“, der ein regelrechter Härtefall ist, angefertigt. Anbieten können wir die Videos aufgrund der Größe leider nicht. In Bewegung erkennt man die Verbesserungen bezüglich des Texturflimmerns auf dem R600 im Vergleich zum Vorgänger. Das gesamte Bild wirkt etwas ruhiger, wobei die Unterschiede nicht allzu groß ausfallen. Bei A.I. Off fallen die Bugwellen bei den Übergängen der MipMaps weg, der Flimmeranteil bleibt aber immer noch bestehen. Gefallen hat uns der bilineare Filter, der nur selten negativ auffällt. Um gegen den hervorragenden anisotropen Filter der nVidia G80-GPU bestehen zu können, reichen die Verbesserungen in der R600-GPU aber nicht aus.
In der Standardeinstellung des Treibers haben beide GPUs sowohl ihre Vor- als auch Nachteile. Während der R600 eine sehr gute bilineare Filterung hat, die nicht viel schlechter als der trilineare Filter arbeitet, hat der Texturfilter immer noch mit flimmernden Texturen zu kämpfen. Dies wurde zwar gegenüber dem R5x0 verbessert, an die superbe Qualität des nVidia G80 kommt man so aber nicht heran. In den beiden Einstellungen sehen wir den Texturfilter der beiden Grafikkarten als gleichwertig an. Natürlich, die eine Person findet eher das Flimmern schlimmer, während die andere die Bugwellen für das größte Problem erachtet. Allen recht machen kann man es nicht, weil die Texturfilter der beiden Konkurrenten dafür zu verschieden arbeiten. Dennoch denken wir, dass wir mit der Default-Einstellung bei einem G8x und Catalyst A.I. Standard bei dem R600 einen fairen Kompromiss gefunden haben, der keinen Hersteller benachteiligt.
Deaktiviert man nun auf beiden Grafikkarten sämtliche Optimierungen des anisotropen Filters, dreht der G8x regelrechte Kreise um die Konkurrenz. Während die Texturen auf dem G8x nur selten flimmern, keine Bugwellen mehr sichtbar sind und gleichzeitig bis in den letzten Winkel mit allen eingestellten Samples gefiltert werden, bekommt man von ATis R600 bei A.I. Off nicht eine so gute Qualität geboten. Die etwas schlechtere Winkelunabhängigkeit fällt prinzipiell kaum auf, der trilineare Filter ist ebenfalls sehr gut, die Texturen sind aber weiterhin unruhig. Während nVidia dieses Problem mit dem G8x beinahe ausgelöscht hat, hat ATi das Flimmern zwar angepackt, aber ist schlussendlich nicht weit genug gegangen. Bei der anisotropen Filterung hat der nVidia G80 die Nase also vorn.
AA- und AF-Skalierung
Die beste anisotrope Filterung und das beste Anti-Aliasing nutzen nichts, wenn die Performance bei hohen Einstellungen zu stark einbricht. Aus diesem Grund haben wir uns drei Spiele in der Auflösung 1600x1200 angeschaut und versuchen herauszufinden, welche Einstellung wieviel Leistung kostet.
AA-Skalierung 1600x1200 – COD 2
Angaben in Bildern pro Sekunde (FPS)
|
AA-Skalierung 1600x1200 – F.E.A.R.
Angaben in Bildern pro Sekunde (FPS)
|
AA-Skalierung 1600x1200 – Prey
Angaben in Bildern pro Sekunde (FPS)
|
Wie man gut erkennen kann, tut sich die ATi Radeon HD 2900 XT generell etwas schwer bei der Verwendung von Anti-Aliasing. Dass die Karte prozentual mehr einbricht als die Radeon X1950 XTX ist zwar logisch, da letzterer einfach die Rohleistung fehlt, aber dennoch erledigt eine GeForce 8800 GTX diesen Job besser. Vor allem der Leistungsverlust bei Verwendung von Adaptive-Anti-Aliasing ist höher als der auf der GeForce-Karte – hier können wir aber Entwarnung geben. Wie ATi uns mitteilte, gibt es derzeit noch einen Treiberbug, der einen Slowdown bei AAA hervorruft. In einem Treiberupdate soll dieses Problem behoben werden.
Abgesehen voll Call of Duty 2 sieht es für die Radeon HD 2900 XT bei acht-fachem Anti-Aliasing gar nicht so schlecht aus. An die guten Werte der GeForce 8800 GTX kommt man zwar nicht heran, weit entfernt ist man aber ebenso wenig. Einen großen Einbruch erzeugen allerdings die neuen Custom-Filter-Anti-Aliasing-Modi, mit was wir eigentlich nicht gerechnet haben. Vor allem in Call of Duty 2 arbeitet das neue AA sehr langsam, während es in F.E.A.R. deutlich besser aussieht. In OpenGL-Spielen kann CFAA nicht benutzt werden.
AF-Skalierung 1600x1200 – COD2
Angaben in Bildern pro Sekunde (FPS)
|
AF-Skalierung 1600x1200 – Gothic 3
Angaben in Bildern pro Sekunde (FPS)
|
AF-Skalierung 1600x1200 – SS 2
Angaben in Bildern pro Sekunde (FPS)
|
Es war aufgrund der Architektur prinzipiell von vornherein klar, dass der R600 bei Verwendung vom anisotropen Filter stärker einbrechen wird als der G80 – und so ist es auch. Während die GeForce 8800 GTX den anisotropen Filter in allen Spielen recht gut wegsteckt, verliert die Radeon HD 2900 XT um einiges mehr an Leistung. Einen genauen Grund haben wir für dieses Verhalten allerdings nicht ausmachen können, selbst eine Radeon X1950 XTX steht in so manchen Szenen besser da. Dazu kommt noch, dass der Performanceverlust bei Catalyst A.I. Off, da so ebenfalls noch applikationsspezifische Optimierungen ausgeschaltet werden, höher ausfällt als beim Wechseln auf die High-Quality-Einstellung bei der GeForce 8800 GTX.
Auflösungsskalierung – COH
Angaben in Bildern pro Sekunde (FPS)
|
Auflösungsskalierung – F.E.A.R.
Angaben in Bildern pro Sekunde (FPS)
|
Auflösungsskalierung – Oblivion
Angaben in Bildern pro Sekunde (FPS)
|
Eine reine Auflösungserhöhung verkraftet die Radeon HD 2900 XT meistens besser als die Radeon X1950 XTX, auch wenn die Differenz nicht so groß ist, wie wir zuerst vermuteten. An die Ergebnisse einer GeForce 8800 GTX kommt ATi aber nicht heran, da dazu die reine Rohleistung der GeForce 8800 GTX zu hoch ist.
Impressionen
ATi Radeon HD 2900 XT
Der Preis der High-End-Karte, die derzeit das Flaggschiff der Radeon-HD-2000-Serie darstellt, beträgt nach Herstellerangaben 399 Euro. Genaue Marktpreise können wir leider nicht nennen. Ab dem heutigen Tag soll man die Radeon HD 2900 XT erwerben können. Als Hauptkonkurrent nennt ATi überraschenderweise nicht die GeForce 8800 GTX, sondern deren kleinerer Bruder GeForce 8800 GTS.
Die ersten Direct3D-10-Grafikkarten scheinen allesamt in neue Regionen vorstoßen zu wollen, was die Länge des PCBs betrifft. Einen Anfang hat die GeForce 8800 GTX gemacht, die mit einer Länge von 28 cm von den bisher gewöhnlichen 23 cm stark abgewichen ist und sicherlich den ein oder anderen potenziellen Kunden vor Schwierigkeiten beim Einbau gestellt hat. ATi hält sich bei der Radeon HD 2900 XT zwar ebenfalls nicht an die 23 cm, ist mit einer Gesamtlänge von 24 cm aber platzsparender als die GeForce 8800 GTX und GeForce 8800 Ultra. Mit Einbauproblemen sollten nur die wenigsten Kunden zu kämpfen haben. Das PCB ist in Rot gehalten. Einen Großteil der Platine bedeckt ein roter Dual-Slot-Kühler, der die Ähnlichkeit zum Pendant auf den GeForce-8800-Karten nicht verleugnen kann.



Am Ende des Dual-Slot-Kühlers ist ein 70 mm großer Radiallüfter angebracht, der die GPU auf niedrigen Temperaturen halten soll. Obwohl der Lüfter durchaus den Eindruck erweckt, auch ohne allzu hohe Drehzahlen eine starke Kühlleistung erbringen zu können, merkt man davon im täglichen Betrieb nicht viel. Mehr dazu im Abschnitt Lautstärke.



Direkt über der R600-GPU sitzt ein großer Kupferkühlblock, der mit zwei Heatpipes verbunden ist. Die Verarbeitung macht einen guten Eindruck, was das hohe Gewicht der Grafikkarte bestätigt. Das Prinzip des Kühlsystems ist schnell erklärt: Der Radiallüfter saugt die kühle Luft aus dem Gehäuse an, pustet diese über den Kupferkühlblock und bläst die Luft im nächsten Schritt durch mehrere Luftlöcher auf dem Slotblech wieder aus dem Gehäuse heraus. Der 512 MB große GDDR3-Speicher, der von Hynix mit einer Zugriffszeit von 1,0 ns produziert wird, ist in dem Kühlkreislauf mit einbegriffen. Auf der Rückseite der Grafikkarte ist eine dünne Kühlplatte angebracht, die den rückwärtig angebrachten Speicher bedeckt.



ATi verbaut auf der Radeon HD 2900 XT zwei Dual-Link-fähige DVI-Anschlüsse, die HDCP-kompatibel sind. Das Key-ROM ist nicht – wie auf einer GeForce 8800 – auf einem speziellen Chip auf dem PCB untergebracht, sondern direkt in der GPU integriert. Auch über einen HDTV-Ausgang kann man den Kontakt mit der Außenwelt herstellen. Im Lieferumfang ist ein spezieller DVI-zu-HDMI-Adapter enthalten. Das besondere an diesem ist, dass er nicht nur das Bild, sondern auch den Ton übertragen kann, was für HDCP-geschützte HD-Videos wichtig ist. Möglich wird dies, weil der DVI-Ausgang noch ungenutzte Bandbreitenkapazitäten besitzt, über die der Ton übertragen werden kann. Eine separate Soundkarte beziehungsweise Onboard-Sound ist aber weiterhin nötig. Der erzeugte Ton wird von der R600-GPU uncodiert an den DVI-Ausgang weitergeleitet.



Um die ATi Radeon HD 2900 XT übertakten zu können, ist es notwendig, die Grafikkarte mit einem Sechs- und einem Acht-Pin Stromstecker an das Netzteil anzuschließen. Problematisch, da es derzeit nur wenige Netzteile gibt, die über einen Acht-Pin-Stecker verfügen. Kann man auf das Übertakten verzichten, reichen der Karte auch zwei Sechs-Pin-Stecker für den normalen Betrieb aus.
Die Radeon HD 2900 XT verbraucht unter Last meistens zwischen 160 und 180 Watt Leistung. In Extremsituationen kann der Strombedarf auf satte 200 Watt ansteigen. Jeder Radeon HD 2900 XT, Radeon HD 2600 und Radeon HD 2400 liegt ein Spielebundlegutschein von Valve bei, den man über die Online-Plattform Steam einlösen kann. Er schaltet die Spiele „Half Life 2: Episode 2", „Team Fortress 2“ sowie „Portal“ frei. Natürlich erst, wenn die drei Produkte fertiggestellt sind.



Testsystem
Testsystem:
- Prozessor
- Intel Core 2 Extreme X6800 (übertaktet auf 3,46 GHz, Dual-Core)
- Motherboard
- Asus Striker Extreme (nVidia nForce 680i) Haupt-Testplatine und für SLI-Systeme
- Asus P5W DH Deluxe (Intel i975X) für CrossFire-Systeme
- Arbeitsspeicher
- 2x 1024 MB Corsair CM2X1024-6400 (4-4-4-15)
- Grafikkarten
- ATi Radeon HD 2900 XT (742/828), 512 MB
- ATi Radeon X1950 XTX (650/1000), 512 MB
- ATi Radeon X1950 Pro (575/690), 256 MB
- ATi Radeon X1900 XTX (650/775), 512 MB
- ATi Radeon X1900 XT (625/725), 256 MB
- ATi Radeon X1900 XT 256 MB (625/725), 256 MB
- ATi Radeon X1650 XT (575/675), 256 MB
- ATi Radeon X1650 Pro (600/700), 256 MB
- nVidia GeForce 8800 Ultra (612/1512/1080), 768 MB
- nVidia GeForce 8800 GTX (575/1350/900), 768 MB
- nVidia GeForce 8800 GTS (500/1200/800), 640 MB
- nVidia GeForce 8800 GTS 320MB (500/1200/800), 320 MB
- nVidia GeForce 8600 GTS (675/1450/1000), 256 MB
- nVidia GeForce 8600 GT (540/1190/700), 256 MB*
- nVidia GeForce 7950 GX2 (500/600), 512 MB
- nVidia GeForce 7950 GT (550/700), 512 MB
- nVidia GeForce 7900 GTX (650/800), 512 MB
- nVidia GeForce 7900 GT (450/660), 256 MB
- nVidia GeForce 7600 GT (560/700), 256 MB
- nVidia GeForce 7600 GS (400/400), 256 MB
- Peripherie
- AOpen AAP-1648Pro-DVD-Laufwerk
- Samsung SATA2-HDD mit 500 GB und 16 MB Cache
- Treiberversionen
- nVidia ForceWare 93.81 (G7x)
- nVidia ForceWare 97.92 (G8x)
- nVidia ForceWare 158.19 (GeForce 8600, GeForce 8800 GTS/GTX/Ultra)
- nVidia ForceWare 158.42 für Windows Vista
- ATi Catalyst 7.1
- ATi Catalyst 7.5 Beta 8-37-4-070-419a-046505E (ATi Radeon HD 2900 XT)
- Software
- Microsoft Windows XP Professional SP2
- Microsoft DirectX 9.0c
*Als Basis kommt im Fall der GeForce 8600 GT ein übertaktetes Modell zum Einsatz, das wir auf die Referenzvorgaben von nVidia heruntergetaktet haben. Allerdings war es uns nicht möglich den Shadertakt auszulesen, weswegen es möglich ist, dass dieser entweder höher oder niedriger als der einer Standardkarte ist. Deswegen kann es bei den Benchmarks der GeForce 8600 GT zu leichten Abweichungen gegenüber einer Kaufsversion kommen.
Benchmarks
Folgende Benchmarks kamen während unseres Tests zum Einsatz:
- Synthetische Benchmarks:
- 3DMark05 Version 1.2.0
- 3DMark06 Version 1.0.2
- Spielebenchmarks:
- Anno 1701
- Call of Duty 2
- Call of Juarez
- Company of Heroes
- Doom 3
- F.E.A.R.
- Gothic 3
- Half-Life 2: Lost Coast
- Oblivion
- Prey
- The Chronicles of Riddick
- Serious Sam 2
- Splinter Cell: Chaos Theory
- Splinter Cell: Double Agent
- Tomb Raider: Legend
Alle Benchmarks werden mit maximalen Details ausgeführt, damit die Grafikkarte möglichst hoch belastet wird. Als Einstellungen haben wir uns dabei für 1280x1024 und 1600x1200 (sowie 2560x1600 bei Grafikkarten mit 512 MB oder mehr und einer entsprechenden Leistung) entschieden. Damit zollen wir den modernen High-End-Beschleuniger Tribut, die durch ihre Rechenkraft niedrigere Auflösungen als 1280x1024 CPU-limitiert werden lassen. Neben den reinen Auflösungen lassen wir den Benchmarkparcours auch mit 4-fachem (und falls möglich acht-fachem) Anti-Aliasing sowie 16-fachen anisotropen Filter durchlaufen, wobei wir auf ATi-Grafikkarten zusätzlich das sogenannte Adaptive Anti-Aliasing (AAA) und auf nVidia-GPUs das Transparency Super-Sampling-Anti-Aliasing (TSSAA) hinzuschalten, damit flimmernde Alpha-Test-Texturen geglättet werden – moderne 3D-Beschleuniger bieten eine ausreichende Leistung, um die bessere Kantenglättung flüssig darzustellen.
Achtung: Moderne SLI- und CrossFire-Systeme bieten dem Kunden eine dermaßen gewaltige Rechenleistung, dass selbst der schnellste Prozessor damit hoffnungslos überfordert ist und demzufolge beinahe alle Spiele CPU-limitiert sind, was bei immer schneller werdenden 3D-Beschleunigern ein großes Problem darstellt. Aus diesem Grund haben wir unsere Testmethoden für Multi-GPU-Systeme geändert, um derartigen Problemen so gut wie möglich vorzubeugen. Testläufe ohne Anti-Aliasing sowie dem anisotropen Filter fallen komplett aus dem Rahmenprogramm, da diese Qualitätseinstellung für zwei Grafikkarten keine Herausforderung mehr ist. Somit werden die Tests ausschließlich mit 4xAA sowie 16xAF in 1280x1024, 1600x1200 und 2560x1600 durchgeführt.
Nach sorgfältiger Überlegung und mehrfacher Analyse selbst aufgenommener Spielesequenzen sind wir zu dem Schluss gekommen, im ForceWare-Treiber für nVidia-Karten die Qualitätseinstellungen auf High Quality anzuheben, da man nur mit diesem Setting das Texturflimmern effektiv bekämpfen kann – dies trifft aber nur auf die G7x-Generation zu, die G8x-GPUs werden mit den Standardeinstellungen des Treibers getestet, weil die Bildqualität stark zugenommen hat. Zudem ist dieser Modus vergleichbar mit der Einstellung „Catalyst A.I. Standard“ auf den ATi-Pendants, wodurch bei der Bildqualität größtenteils ein Gleichstand erreicht wird.
Treibereinstellungen: nVidia-Grafikkarten (G7x)
- Systemleistung: Hohe Qualität
- Vertikale Synchronisierung: Aus
- MipMaps erzwingen: keine
- Trilineare Optimierung: Aus
- Anisotrope Mip-Filter-Optimierung: Aus
- Optimierung des anisotropen Musters: Aus
- Negativer LOD-Bias: Clamp
- Gamma-angepasstes AA: Ein
- AA-Modus: 1xAA, 4xAA
- Transparenz AA: Supersampling
Treibereinstellungen: nVidia-Grafikkarten (G8x)
- Texturfilterung: Qualität
- Vertikale Synchronisierung: Aus
- MipMaps erzwingen: keine
- Trilineare Optimierung: Ein
- Anisotrope Muster-Optimierung: Aus
- Negativer LOD-Bias: Clamp
- Gamma-angepasstes AA: Ein
- AA-Modus: 1xAA, 4xAA, 8xQAA
- Transparenz AA: Supersampling
Treibereinstellungen: ATi-Grafikkarten (R(V)5x0)
- Catalyst A.I.: Standard
- Mipmap Detail Level: High Quality
- Wait for vertical refresh: Always off
- AA-Modus: 1xAA, 4xAA
- Adaptive Anti-Aliasing: Quality
- High Quality AF: Off
Treibereinstellungen: ATi-Grafikkarten (R(V)6x0)
- Catalyst A.I.: Standard
- Mipmap Detail Level: High Quality
- Wait for vertical refresh: Always off
- AA-Modus: 1xAA, 4xAA, 8xAA
- Adaptive Anti-Aliasing: Quality
Theoretische Benchmarks
Fillrate Tester
- Dieses nützliche kleine Programm dient dazu, die Füllraten einer Grafikkarte zu messen. Im Gegensatz zu den bzw. im 3DMark integrierten Füllraten-Tests, die im Fall von Single-Texturing vornehmlich die Bandbreite messen, kann dieses Programm recht differenzierten Aufschluss über verschiedene Arten von Füllrate geben, unter anderem auch die Pixelshader-Füllraten, welche wir hier betrachten wollen.
Da die verwendeten Shader teilweise recht kurz und bandbreitenintensiv sind, haben wir die Auflösung möglichst weit erhöht, um den Fokus etwas mehr auf die Füllrate zu verlagern. Da hier mehrere mathematische Operationen pro Pixel nötig sind, wird die Füllrate durch die Erhöhung der Auflösung stärker belastet als die Bandbreite.
Getestet wurde in 1600x1200 in 32Bit mit 24Bit Z- und 8Bit Stencilbuffer und 60 Hz Refreshrate. - Download: Fillrate Tester [18]
VillageMark
- Der VillageMark wurde von PowerVR entwickelt und diente dazu, die Vorzüge des Kyro 2 zu verdeutlichen, da in jenem Benchmark der Overdraw mit einem Faktor von bis zu 10 besonders groß ist. Viele, besonders ältere Grafikkarten, berechnen hier auch die Oberflächen, die durch andere verdeckt sind und daher eigentlich nur verschwendete Bandbreite und Füllrate bedeuten, so dass dieser grafisch eigentlich nicht sehr aufwendige Benchmark doch öfter als man zunächst denkt zu einem Stolperstein wird. Deswegen ist es von größter Bedeutung in diesem Benchmark, eine gut funktionierende Technik zum Entfernen verdeckter Oberflächen (HSR = Hidden Surface Removal) zu besitzen.
Getestet wurde mit folgender Kommandozeile: [InstallDir]\D3DVillagemark.exe -benchmark=1 -width=xxxx -height=xxxx -bpp=32" - Weitere Informationen: PowerVR.com [19]
- Download: PowerVR.com [20]
Villagemark v2.1
Angaben in Bildern pro Sekunde (FPS)
|
Fablemark
- Der Fablemark wurde, wie auch der nachfolgende Templemark, von PowerVR entwickelt und dient trotz eines sehr hohen Anteils an Overdraw der Zurschaustellung der Stärken des Kyro-Chips was den Stencil-Buffer angeht.
Natürlich wird auch auf allen anderen Karten die Stencil-Performance stark gefordert, so dass dieser Test ein Indiz für kommende Spiele sein kann, die vor dem eigentlichen Rendering einen Z-/Stencil-only Pass einlegen, um vorab jeglichen Overdraw zu vermeiden.
Getestet wurde mit folgender Kommandozeile: [InstallDir]\D3DFablemark.exe -benchmark=1 -width=xxxx -height=xxxx -bpp=32" - Weitere Informationen: PowerVR.com [21]
- Download: PowerVR.com [22]
Fablemark v1.0
Angaben in Bildern pro Sekunde (FPS)
|
ShaderMark
- Der ShaderMark liegt zur Zeit in der aktuellen Version 2.1 vor und wurde von Tommti-Systems [23] entwickelt. Dank zahlreichen Updates befindet sich der Benchmark immer noch auf der Höhe der Zeit und misst die Performance der Shader-Einheiten moderner Grafikkarten. Dabei unterstützt das Programm auch das Shader-Model 3.0, weswegen es sich gut zu einem Vergleich aktueller Architekturen eignet. Getestet werden dabei bis zu 25 unterschiedliche Shader-Anweisungen unter der Auflösung 1600x1200, die allesamt in der Hochsprache HLSL (High Level Shader Language) geschrieben sind.
- Download: ShaderMark.de [24]
D3DRighmark Beta 4
- Auch wenn theoretische Benchmarks, weil diese keine „reale“ 3D-Umgebung darstellen, suboptimal für die Bestimmung der allgemeinen Performance sind, so zeigen solche Programme sehr gut, wie schnell oder langsam eine Grafikkarte in einem gewissen Teilbereich ist. Der „D3DRightmark“ in der Version „Beta 4“, der gleich mehrere dieser Teilbereiche untersucht, gehört derselben Kategorie an. Es wird nicht nur die Vertex-Shader-3.0-Performance, sondern ebenfalls mit Hilfe von unterschiedlichem Shader-Code, der in HLSL geschrieben ist und FP32-Genauigkeit vorsieht, die Pixel Shader 3.0 gemessen. Darüber hinaus wird zusätzlich ein Test der „Hidden Surface Removal“-Mechanismen durchgeführt, ebenso ein Pixel-Filling- und Point-Sprites-Test. Als Auflösung verwenden wir 1600x1200 ohne Kantenglättung und Texturfilterung. Da das Diagramm für die Ergebnisse des D3DRightmark sehr lang ist, haben wir die Werte in einem Klapptext versteckt. Ein einfaches Draufklicken genügt, um die Benchmarks sehen zu können.
- Download: D3DRightmark Beta 4 [25]
D3DRightmark Beta 4
Angaben in Bildern pro Sekunde (FPS)
|
Single-GPU-Benchmarks
3DMark05
- Der 3DMark05 liegt technisch nach wie vor auf sehr hohem Niveau. So kommen große Texturen mit der Auflösung 2048x2048, gemischt mit der Benutzung des Shader-Model 3.0, 2.x oder 2.0, zum Einsatz. Das letztes Jahr erschienene Programm setzt auf komplexe Lichteffekte, dynamische Schatten, aufwendige Bump Mapping-Effekte und benötigt vor allem eine hohe Geometrieleistung. Im Ergebnis spiegelt sich allerdings nur die Geschwindigkeit der Grafikkarte wieder, da diese selbst bei aktueller Hardware immer den Flaschenhals darstellt. Der wohl größte Nachteil beim 3DMark05 sind die weitläufigen Treiberoptimierungen aller aktuellen Grafikkartenhersteller. Diese gehen soweit, dass sich die Endergebnisse je nach Treiber im zweistelligen Prozentbereich verändern, somit können qualitätsmindernde Optimierungen nicht ausgeschlossen werden. Zudem basiert der synthetische Benchmark auf keinerlei Spieleengine, weshalb er keine reale Situation darstellt. Weitere Details zu diesem Programm gibt es in einem unserer ausführlichen Artikel [26].
- Download: 3DMark05 [27]




3DMark05 – 1280x1024
Angaben in Bildern pro Sekunde (FPS)
|
3DMark05 – 1600x1200
Angaben in Bildern pro Sekunde (FPS)
|
3DMark05 – 2560x1600
Angaben in Punkten
|
3DMark06
- Die allseits bekannte Benchmarkserie von Futuremark ist mittlerweile in der Version 2006 erschienen und hört dementsprechend auf die Bezeichnung „3DMark06“. Von den sechs Testszenen messen vier Sequenzen die Performance der Grafikkarte und zeigen eine Grafikpracht, die ihres gleichen sucht. Um jene zu erreichen setzen die Finnen auf modernste 3D-Technologie, weswegen nicht nur massiv das Shader-Model 3.0 verwendet wird, auch extrem aufwendige Texturen, spektakuläre Partikeleffekte, komplexe Schattenberechnungen und als weiteres Highlight „High Dynamic Range Rendering“ – kurz HDRR – werden eingesetzt. Dabei setzt Futuremark auf FP16-HDR, das die derzeit Best mögliche Bildqualität liefert, aber auch aufwendig zu berechnen ist. Somit können Grafikkarten ohne FP16-Blending-Einheiten, unter anderem die X8x0-Serie von ATi, zwei Testszenen nicht ausführen, weswegen die Punktzahl dieser GPUs generell niedrig ausfällt. Darüber hinaus können nur Grafikkarten, die MSAA auf ein FP16-Rendertarget ausführen können, die HDRR-Sequenzen mit Anti-Aliasing berechnen. Grafikkarten ohne diese Fähigkeit erzeugen bei Einsatz von Kantenglättung keine Punktzahl und werden deswegen nicht berücksichtigt. Weitere Details zu diesem Programm gibt es in einem unserer ausführlichen Artikel. [28]




3DMark06 – 1280x1024
Angaben in Punkten
|
3DMark06 – 1600x1200
Angaben in Punkten
|
3DMark06 – 2560x1600
Angaben in Punkten
|
Spielebenchmarks
Anno 1701
- Auch wenn normalerweise First-Person-Shooter mit einer erstaunlichen Grafik glänzen können, so hat es sich das deutsche Entwicklerteam des Strategiespieles Anno 1701 nicht nehmen lassen, den Nachfolger der legendären Spiele Anno 1602 sowie Anno 1503 ebenfalls mit einer Grafikengine auszustatten, die sich vor der gesamten Konkurrenz nicht zu verstecken braucht. Das Auge bekommt praktisch alles geboten, was derzeit mit moderner Hardware möglich ist. Detaillierte Texturen, schön anzusehende Landschaften, nette Shadereffekte, wie Beispielsweise die Darstellung des Wassers inklusive der Brechung der Wellen und noch vieles mehr machen Anno 1701 zu einem wahren Augenschmaus. Aus diesem Grund eignet sich das Strategiespiel, als eines der wenigen seiner Art, für die Teilnahem an einem Grafikkarten-Review, da die GPU viel zu berechnen hat. Auf modernes FP16-HDRR verzichten Anno 1701 allerdings, stattdessen kommt nur ein simpler Bloom-Filter zum Einsatz.




Anno 1701 – 1280x1024
Angaben in Bildern pro Sekunde (FPS)
|
Anno 1701 – 1600x1200
Angaben in Bildern pro Sekunde (FPS)
|
Anno 1701 – 2560x1600
Angaben in Bildern pro Sekunde (FPS)
|
Call of Duty 2
- Der Weltkriegsshooter „Call of Duty 2“ besticht nicht nur mit einer dichten Atmosphäre und einer Menge Spielspaß, auch die Grafik weiß zu gefallen. So wurde für das Spiel eine komplett neue Grafik-Engine geschrieben, bei welcher die Entwickler viele „Grafikregister“ gezogen haben. So setzt das Spiel auf viele Shader-Effekte und ist dank der hervorragenden Texturen und den sehr guten Gesichtsanimationen eine Augenweide. Am meisten beeindruckt in dem First-Person-Shooter die Rauch- und Nebeldarstellung, die wahrlich einzigartig ist – solch einen realistischen Rauch gab es bis jetzt in keinem PC-Spiel. Doch die Grafikpracht fordert ihren Tribut an den 3D-Beschleuniger und frisst die vorhanden Ressourcen der GPU wie zum Frühstück. Zudem ist Call of Duty 2 eines der ersten Spiele, die von einem 512 großen VRAM profitieren können. Die von uns ausgesuchte Timedemo zeigt einen Abschnitt aus der „Russenkampagne“, die vor allem durch die Darstellung des Schnees sowie der Landschaft extrem Hardwarefordernd ist. Mehrere Schusswechsel und Rauchgranaten sind mit von der Partie, weswegen sich die Timedemo sehr gut für einen Testparcours eignet.




Call of Duty 2 – 1280x1024
Angaben in Bildern pro Sekunde (FPS)
|
Call of Duty 2 – 1600x1200
Angaben in Bildern pro Sekunde (FPS)
|
Call of Duty 2 – 2560x1600
Angaben in Bildern pro Sekunde (FPS)
|
Call of Juarez
- Auch wenn der First-Person-Shooter „Call of Juarez“ ohne John Wayne auskommen muss, so ist das Programm zweifellos eines der wenigen Western-Spiele, das eine große Aufmerksamkeit auf sich ziehen konnte. Eine gut erzählte Story, zwei interessante Charaktere, die unterschiedlicher nicht sein könnten, viele Pistolen-Duelle und natürlich eine Grafik, die sich vor der gesamten Konkurrenz nicht zu verstecken braucht. Praktischerweise bietet das Spiel damit eine Menge fürs Auge, was auch nicht spurlos an der Grafikkarte vorbei geht. Hochauflösende Texturen sowie Shadow-Maps, aufwendige Partikeleffekte und Qualm-Darstellung, hübsche Animationen und darüber hinaus High-Dynamic-Range-Rendering im qualitativ hochwertigen FP16-Format. Bei den Messungen ohne Anti-Aliasing haben wir in Call of Juarez High-Dynamic-Range-Rendering aktiviert, während das Feature unter Einsatz der Kantenglättung deaktiviert ist, da die Demoversion des Spieles mit der zeitgleichen Darstellung nicht kompatibel ist. Stattdessen wird als qualitativ schlechterer Ersatz Bloom herangezogen. Da die nVidia-GPUs trotz aktueller Treiber derzeit kein TSSAA in Call of Juarez darstellen, entfernen wir die entsprechenden Karten solange aus den Diagrammen, bis der Bug in zukünftigen ForceWare-Versionen behoben worden ist.




Call of Juarez – 1280x1024
Angaben in Bildern pro Sekunde (FPS)
|
Call of Juarez – 1600x1200
Angaben in Bildern pro Sekunde (FPS)
|
Call of Juarez – 2560x1600
Angaben in Bildern pro Sekunde (FPS)
|
Company of Heroes
- Egal wohin man schaut, Spiele, bei denen das Szenario im Zeitraum des zweiten Weltkrieges angesiedelt ist, gibt es spätestens nach dem Erfolgshit „Call of Duty“ wohl wie Sand am Meer. Während einige dieser Spiele durchaus zu gefallen wissen, sind andere nur ein regelrechter Abklatsch, um auf der Erfolgswelle mitzuschwimmen. Zu ersterer Gattung gehört zweifellos das Strategiespiel „Company of Heroes“, was sich im Jahre 2006 wohl zu einem kleinen Geheimtipp entwickelt hat. Ein Grund dafür ist eine sehr gute Grafik-Engine, die auch schwerste Geschütze auffährt, damit die Konkurrenztitel das Nachsehen haben. „Operation gelungen!“, ist das einzige, was man bei Company of Heroes diesbezüglich sagen kann. Das Spiel bietet eine Menge fürs Auge und vor allem in den Schlachtszenen passiert es des Öfteren, dass man vergisst, den eigenen Truppen Kommandos zu erteilen, und stattdessen das Spielgeschehen bewundert. Als Benchmark benutzen wir die einbaute Testsequenz. Bei den Messungen ohne Anti-Aliasing haben wir in Company of Heroes High-Dynamic-Range-Rendering aktiviert, während das Feature unter Einsatz der Kantenglättung deaktiviert ist, da es mit aktuellen Treibern eher ein Glücksspiel ist, ob das Zusammenspiel der beiden qualitätsverbessernden Einstellungen funktioniert oder nicht.




Company of Heroes – 1280x1024
Angaben in Bildern pro Sekunde (FPS)
|
Company of Heroes – 1600x1200
Angaben in Bildern pro Sekunde (FPS)
|
Company of Heroes – 2560x1600
Angaben in Bildern pro Sekunde (FPS)
|
Doom 3
- Angst? Schock? Dunkelheit? Grafikpracht? All dies gibt es wohl zu Genüge im Gruselshooter Doom 3. John Carmack, einer der Chefentwickler des Spiels und eine legendäre Persönlichkeit, wenn es um spektakuläre Grafik-Engines geht, hat bei seinem neuesten Werk die größte Aufmerksamkeit den Stencil-Schatten gewidmet. Dementsprechend dunkel ist das gesamte Spiel, damit die schablonenartigen Schatten gut auf den Spieler wirken. Aber dies waren noch nicht genug Effekte für den Entwickler ID-Software. So macht Doom 3 auch Gebrauch von den Pixelshader-Einheiten der Grafikkarten und setzt ebenfalls massiv auf Bump Mapping sowie Normal Maps. Zwar sind die Texturen verbesserungswürdig, aber trotzdem gehört Doom 3 zu den anspruchsvollsten Titeln des Jahres 2004 und ist somit prädestiniert für unseren Benchmarkparcours. Das Spiel setzt ID-typisch nicht auf DirectX als API, sondern auf OpenGL.




Doom 3 – 1280x1024
Angaben in Bildern pro Sekunde (FPS)
|
Doom 3 – 1600x1200
Angaben in Bildern pro Sekunde (FPS)
|
Doom 3 – 2560x1600
Angaben in Bildern pro Sekunde (FPS)
|
F.E.A.R.
- Doom 3 bekommt Konkurrenz – und was für Eine! Die Programmierer des neue Gruselshooters F.E.A.R. scheinen sich Doom 3 als großes Vorbild ausgesucht zu haben, wobei man allerdings fast alles besser zu machen scheint. Unter anderem wird die sehr beklemmende Atmosphäre durch eine Grafikqualität erreicht, die ihres Gleichen sucht. Shadereffekte in Massen, wunderschönes Bump-Mapping, sehr spektakuläre Schattenwürfe, detaillierte Texturen sowie hübsch aussehende Partikeleffekte und noch vieles mehr bekommt der Spieler zu Gesicht, weswegen F.E.A.R. bereits Pflicht für einen guten Benchmark-Parcours geworden ist. Wir verwenden mittlerweile für diese Zwecke die Vollversion, die über eine integrierte Benchmarkfunktion verfügt. Jene zeigt ein Gefecht sowie eine größere Explosion, die durch eine frei bewegende Kamera aufgenommen worden sind. Die Details sind, mit Ausnahme der Soft-Shadows, auf das Maximum gesetzt.




F.E.A.R. – 1280x1024
Angaben in Bildern pro Sekunde (FPS)
|
F.E.A.R. – 1600x1200
Angaben in Bildern pro Sekunde (FPS)
|
F.E.A.R. – 2560x1600
Angaben in Bildern pro Sekunde (FPS)
|
Gothic 3
- Wohl zweifellos das meist erwartete Adventurespiel im Jahre 2006 hört auf den Namen „Gothic 3“, was mit den beiden beliebten Vorgängern begründet ist. Auch wenn das Spiel, selbst nach einigen Patches, immer noch sehr fehlerhaft ist, so erfreut es sich einer großen Beliebtheit in Deutschland, wie man gut an den Verkaufscharts erkennen kann. Doch neben dem eigentlichen Spielinhalt kann Gothic 3 zudem mit der Grafikengine punkten, die den Entwicklern sehr gut gelungen ist. So ist nicht nur die Weitsicht beeindruckend, auch die kleinen lieblichen Details an Figuren und Gegenständen machen die Grafik zu etwas Besonderem. Dass die Engine damit nicht nur gut aussieht, sondern auch sehr Hardwareintensiv ist, war bereits vom vornherein klar. Allerdings bietet das Grafikgrundgerüst einen entscheidenden Nachteil: So kann derzeit kein Anti-Aliasing angewendet werden, weswegen das Feature in den Qualitätseinstellungen nicht aktiv ist; dort ist nur der anisotrope Filter im Einsatz.




Gothic 3 – 1280x1024
Angaben in Bildern pro Sekunde (FPS)
|
Gothic 3 – 1600x1200
Angaben in Bildern pro Sekunde (FPS)
|
Gothic 3 – 2560x1600
Angaben in Bildern pro Sekunde (FPS)
|
HL2: Lost Coast
- Half-Life 2 ist wohl zweifellos aufgrund seines legendären Vorgängers eines der meist erwarteten Spiele aller Zeiten gewesen. Nun ist es da und begeistert nicht nur in spielerischer Hinsicht, sondern auch durch seine Grafik, die unter anderem durch massiven „Shader Model 2.0“-Einsatz ermöglicht wird. Einige Monate nach der Erscheinung brachte Valve die kostenlose Technologiedemo „Lost Coast“ auf den Markt, die als Besonderheit High-Dynamic-Range-Rendering unterstützt und somit nicht nur einen deutlich höheren Lichtumfang sowie Lichtdynamik bietet, sondern auch die Hardware bis auf das Äußerste fördert. Valve hat dabei jedoch auf die Kompatibilität zu älteren Grafikkarten geachtet und setzt deswegen eine „minderwertige“ Form des HDRR ein, die nicht die optimale Bildqualität liefert. So liegen zwar die Texturen im FP16-Format vor – beziehungsweise INT16 für Grafikkarten ohne FP-Filtering –, allerdings verzichtet Valve auf FP16-Blending. Aus diesem Grund können auch X8x0-Grafikkarten in Lost Coast HDRR darstellen. Die selber erstellte Timedemo zeigt mehrere Feuergefechte mit Soldaten sowie einem Hubschrauber und verdeutlicht eindrucksvoll den optischen Gewinn durch HDRR.




HL2: Lost Coast – 1280x1024
Angaben in Bildern pro Sekunde (FPS)
|
HL2: Lost Coast – 1600x1200
Angaben in Bildern pro Sekunde (FPS)
|
HL2: Lost Coast – 2560x1600
Angaben in Bildern pro Sekunde (FPS)
|
Oblivion
- Bereits der Vorgänger „Morrorwind“ hat bei vielen Spielefans eine richtige Begeisterung hervorgerufen und bei dem Nachfolger „Oblivion“ scheint dies nicht anders zu sein. Für kaum ein Spiel findet man derzeit mehr Diskussionen im Internet. Aber nicht nur spielerisch, auch grafisch kann Oblivion überzeugen und fährt, um dieses Ziel zu erreichen, schwere Geschütze auf. Noch niemals zuvor wurde HDRR mit dynamischem Tone-Mapping derartig realistisch eingesetzt. Darüber hinaus kann das Spiel mit schönen Schatteneffekte sowie stellenweise hoch auflösenden Texturen und Partikeleffekte glänzen. Dementsprechend ist Oblivion geradezu prädestiniert für einen guten Benchmarkparcours. Die verwendete Szene zeigt nicht nur eine aufwendige Beleuchtung, auch sind mehrere Sträucher und Bäume zu sehen, die vor allem die GPU extrem stark belasten. Da die Grafikkarten der GeForce-7-Generation auf ein FP16-Rendertarget kein Multi-Sampling Anti-Aliasing anwenden können, haben wir die entsprechenden Modelle in den Qualitäts-Benchmarks nicht abgebildet, um die Vergleichsmöglichkeiten der 3D-Beschleuniger untereinander aufrecht zu erhalten.




Oblivion – 1280x1024
Angaben in Bildern pro Sekunde (FPS)
|
Oblivion – 1600x1200
Angaben in Bildern pro Sekunde (FPS)
|
Oblivion – 2560x1600
Angaben in Bildern pro Sekunde (FPS)
|
Prey
- Kinder in jungen Jahren verkleiden sich zu Karneval gerne als Indianer. Viele ältere Artgenossen spielen dagegen lieber den First-Person-Shooter Prey und helfen dem etwas mürrischen Indianerhelden Tommy, die Welt vor einer außerirdischen Macht zu retten. Dies tut Tommy nicht nur mit gefundenen beziehungsweise abgenommenen Alien-Waffen, sondern zusätzlich mit der altbewährten Doom-3-Engine, die für Prey aber kräftig aufgebohrt worden ist. Mit anderen Worten: Die Grafik ist kaum wieder zu erkennen. Hochauflösende Texturen, schicke Shader-Effekte, aufwendige Schattenberechnungen und noch vieles mehr machen das Spiel zu einem wahren Augenschmaus. Die selbst aufgenommene Timedemo zeigt sowohl einen Abschnitt innerhalb als auch außerhalb eines Gebäudes und deckt insgesamt einen Großteil des Spielgeschehens ab. Waffenfeuer, viele Gegner und Tommys Fähigkeit, sich außerhalb seines eigenen Körpers zu bewegen, fehlen nicht.




Prey – 1280x1024
Angaben in Bildern pro Sekunde (FPS)
|
Prey – 1600x1200
Angaben in Bildern pro Sekunde (FPS)
|
Prey – 2560x1600
Angaben in Bildern pro Sekunde (FPS)
|
Rainbow Six Vegas
- Die „Rainbow Six“-Reihe umfasst schon etliche Titel und ist einer der größten PC-Spiele-Serien weltweit. Die neueste Kreation hört auf den simplen Namen „Vegas“, der aber bereits verdeutlicht, wo die Spezialeinheit diesmal im Einsatz ist. Und das die Stadt Vegas zu den farbenfrohesten Städten überhaupt gezählt werden kann, bezweifeln wohl nur die wenigsten. Dementsprechend bunt, aber auch sehr detailliert, ist die Grafikengine von Vegas, die zeitgleich nicht irgendeine, sondern eine sehr bekannte ist: Die Unreal Engine 3, die in diesem Jahr zudem in „Unreal Tournament 3“ zum Einsatz kommen wird. Obwohl die Version in Vegas der in UT3 um einiges hinterher hinkt, so weiß die Grafik zu überzeugen. Sehr viele Details werden dargestellt, die man bis jetzt in keinem Spiel entdecken konnte. Die vielen bunten Farben sowie die detaillierten Animationen runden das Ergebnis ab. Doch die Unreal Engine 3 hat einen großen Nachteil: So kommt ein „Deferred Renderer“ zum Einsatz, der mit einer flotten Schatten- und Lichtberechnung zwar einige Vorteile bietet, aber unter der Direct3D-9-API Anti-Aliasing verhindert. Erst mit Direct3D 10 ist Deferred Rendering und Kantenglättung möglich. Da in unserer ausgewählten Benchmark-Szene der anisotrope Filter keinen Einfluss auf die Geschwindigkeit hat, lassen wir diesen in der Diagrammdarstellung außen vor.




Rainbow Six Vegas – 1280x1024
Angaben in Bildern pro Sekunde (FPS)
|
Rainbow Six Vegas – 1600x1200
Angaben in Bildern pro Sekunde (FPS)
|
Rainbow Six Vegas – 2560x1600
Angaben in Bildern pro Sekunde (FPS)
|
The Chronicles of Riddick
- „The Chronicles of Riddick“ lehnt sich an den Kinofilm „Riddick: Chroniken eines Kriegers“ an und basiert auf der OpenGL-API. Dabei gehört Riddick zu einer der größten Überraschungen des Jahres und bietet dementsprechend auch eine sehr fordernde und vor allem spektakuläre Grafik. Dabei kommen nicht nur die modernen Shadereinheiten aktueller Grafikkarten zum Zuge, auch durch hochauflösende Texturen sowie feinste Bump-Mapping-Effekte geraten heutige GPUs ins Schwitzen. Die verwendete Timedemo Panoptical 1 zeigt einen reellen Spielausschnitt aus Riddick, welcher mehrere Schusswechsel, Explosionen sowie Rauch beinhaltet, und zeigt somit eine für das Spiel realistische Performancedarstellung.




The Chronicles of Riddick – 1280x1024
Angaben in Bildern pro Sekunde (FPS)
|
The Chronicles of Riddick – 1600x1200
Angaben in Bildern pro Sekunde (FPS)
|
The Chronicles of Riddick – 2560x1600
Angaben in Bildern pro Sekunde (FPS)
|
Serious Sam 2
- „Ballern bis der Zeigefinger glüht!“ lautet wohl zweifellos die Divise in dem First-Person-Shooter „Serious Sam“, der vor einigen Jahren nicht nur einen großen Erfolg feierte, sondern auch mehr als nur beliebt bei den Spielern klassicher 3D-Shooter geworden ist. Der Nachfolger, der auf die simple Bezeichnung „Serious Sam 2“ hört, verspricht ebenfalls ein ähnlich erfolgreiches Vergnügen zu werden und kombiniert den Ballerspaß mit einer hübschen Optik, die vor allem durch eine große Anzahl an Vertex-Shader-Operationen, scharfen Texturen, bunten Effekten und einer schier unendlichen Gegnermasse geschaffen wird. Die verwendete Timedemo „Greendale“ spielt in einer Umgebung mit viel Vegetation und zeigt dabei eine normale Spielszene mit großen Gegner-Scharen und massig Explosionen sowie Gefechtsfeuer. Da die Grafikkarten der GeForce-7-Generation auf ein FP16-Rendertarget kein Multi-Sampling Anti-Aliasing anwenden können, haben wir die entsprechenden Modelle in den Qualitäts-Benchmarks nicht abgebildet, um die Vergleichsmöglichkeiten der 3D-Beschleuniger untereinander aufrecht zu erhalten.




Serious Sam 2 – 1280x1024
Angaben in Bildern pro Sekunde (FPS)
|
Serious Sam 2 – 1600x1200
Angaben in Bildern pro Sekunde (FPS)
|
Serious Sam 2 – 2560x1600
Angaben in Bildern pro Sekunde (FPS)
|
Splinter Cell 3
- „Chaos Theory“ ist der Titel des dritten Teils der bekannten Schleichreihe „Splinter Cell“ vom Publisher Ubi Soft und setzt auf ein stark modifiziertes Grundgerüst der zweiten Unreal-Grafikengine auf. Diese wurde für den neuesten Splinter Cell-Spross deutlich umgeändert und unterstützt nun neben dem Shader-Model 3.0 unter anderem auch High Dynamic Range-Effekte. Somit ist Splinter Cell 3 das zweite Spiel neben Far Cry, welches einen deutlich erweiterten Wertebereich der erfassbaren Lichtintensität aufweisen kann. Weiterhin kann das Spiel mit schönen Schatten- sowie Bump Mapping-Effekten auftrumpfen. Die selbst erstellte Timedemo zeigt einen kleinen Ausschnitt aus der ersten Mission, die den Hauptprotagonisten Sam Fischer über einen dunklen Strand bei Regen und durch eine mit schicken Lichteffekten verzierte Höhle führt. Bei den Messungen ohne Anti-Aliasing haben wir in Splinter Cell 3 High-Dynamic-Range-Rendering aktiviert, während das Feature unter Einsatz der Kantenglättung deaktiviert ist, da das Spiel mit der zeitgleichen Darstellung inkompatibel ist.




Splinter Cell 3 – 1280x1024
Angaben in Bildern pro Sekunde (FPS)
|
Splinter Cell 3 – 1600x1200
Angaben in Bildern pro Sekunde (FPS)
|
Splinter Cell 3 – 2560x1600
Angaben in Bildern pro Sekunde (FPS)
|
Splinter Cell 4
- Für Schleich-Fans ist die „Splinter Cell“-Serie schon immer ein Highlight im PC-Bereich gewesen, was mit dem vierten Teil namens „Double Agent“ sich nicht ändert. Auch wenn der Titel qualitativ nicht an den Vorgänger heran reicht, so weiß das Spiel zu überzeugen. Eins der Highlights ist die Grafikengine, die auf der Unreal Engine 2,5 aufbaut, von welcher aber beinahe jede Zeile umgeschrieben worden ist. Das spielt bietet dem Auge ein sehr gelungenes High-Dynamic-Range-Rendering, hübsche Schatten, nette Shadereffekte und noch vieles mehr. Dass dabei die Grafikkarte aufs äußerste belastet wird, muss man wohl kaum erwähnen, weswegen Splinter Cell Double Agent gerade zu prädestiniert ist für einen Benchmark-Parcours. Da die Grafikkarten der GeForce-7-Generation auf ein FP16-Rendertarget kein Multi-Sampling Anti-Aliasing anwenden können, haben wir die entsprechenden Modelle in den Qualitäts-Benchmarks nicht abgebildet, um die Vergleichsmöglichkeiten der 3D-Beschleuniger untereinander aufrecht zu erhalten. Da die ATi-R600-Generation mit dem aktuellen Treiber, abgesehen von der Benchmarksequenz, starke Grafikfehler aufweist, verzichten wir noch auf einen entsprechenden Screenshot.




Splinter Cell 4 – 1280x1024
Angaben in Bildern pro Sekunde (FPS)
|
Splinter Cell 4 – 1600x1200
Angaben in Bildern pro Sekunde (FPS)
|
Splinter Cell 4 – 2560x1600
Angaben in Bildern pro Sekunde (FPS)
|
Stalker
- „Stalker“ – neben Duke Nukem Forever wohl der Inbegriff des Wartens. Nach einer langen Zeit hat es der russische First-Person-Shooter aber dennoch in die Regale geschafft und weißt trotz der schier ewigen Entwicklungszeit zu gefallen. Nicht nur spielerich punktet das Spiel mit einigen netten Ideen, auch die Atmosphäre kann sich sehen beziehungsweise spüren lassen. Darüber hinaus ist die Grafikengine, die einen „Deffered Shadowing“-Algorithmus verwendet, gut gelungen. Das Spiel überzeugt vor allem mit schicken Wettereffekten und kann detaillierte Texturen aufweisen. Shader-Model-3.0-Effekte kommen zum Einsatz, ebenso hochwertiges FP16-HDR-Rendering, das für ein realitätsnahes Farbenspektrum sorgt. Ein weiteres Highlight sind die zahlreichen hochwertigen Licht- und Schatteneffekte, die man in dieser Form bis jetzt noch nicht zu sehen bekommen hat. Dies ist der Vorteil von Deffered Shadowing, da die Licht- und Schattenberechnungen sehr schnell ausgeführt werden können. Ein große Nachteil ist aber, dass Direct3D-9-Beschleuniger deswegen kein Multi-Sampling-Anti-Aliasing ausführen können. Dazu benötigt es nicht nur eine D3D10-Grafikkarte, auch das Spiel muss mit der neuen API ausgestattet sein.




Stalker – 1280x1024
Angaben in Bildern pro Sekunde (FPS)
|
Stalker – 1600x1200
Angaben in Bildern pro Sekunde (FPS)
|
Stalker – 2560x1600
Angaben in Bildern pro Sekunde (FPS)
|
Tomb Raider: Legend
- Lara Croft is back – wohl zweifellos die bekannteste und wahrscheinlich auch beliebteste Frau in einem PC-Spiel. Doch „Tomb Raider: Legend“ glänzt nicht nur mit der Spielfigur, auch das eigentliche Spielgeschehen kann in dem letzten Teil der Serie, im Gegensatz zu den Vorgängern, überzeugen. Mit von der Partie ist eine neue Grafikengine, die durchaus überzeugen kann. So bekommt der Käufer im „Next-Gen-Modus“ nicht nur viele Polygone geboten, auch Shader-3.0-Anweisungen, hochauflösende Texturen und schicke Schattenspiele kommen in Tomb Raider: Legend zum Einsatz. Als Benchmarksequenz haben wir das Intro des ersten Levels verwendet, welches den Absturz eines Flugzeuges und eine gewagte Kletteraktion zeigt.




Tomb Raider: Legend – 1280x1024
Angaben in Bildern pro Sekunde (FPS)
|
Tomb Raider: Legend – 1600x1200
Angaben in Bildern pro Sekunde (FPS)
|
Tomb Raider: Legend – 2560x1600
Angaben in Bildern pro Sekunde (FPS)
|
Direct3D-10-Benchmarks
Call of Juarez D3D10
- Die Direct3D-10-Demo von „Call of Juarez“ ist identisch mit der Direct3D-9-Version des Spieles, die wir ebenfalls in dem Testparcours verwenden. Als Benchmarksequenz kommt allerdings eine spezielle Flyby-Szene zum Einsatz, die verschiedene neue technische Möglichkeiten der Direct3D-10-API zeigt. In der neuen Version des Spieles ist die Vegetation um 30 Prozent dichter, es gibt 30 Prozent mehr Partikeleffekte, eine um 25 Prozent gestiegene Sichtweite, höher aufgelöste Texturen, höher aufgelöste Shadowmaps, Relief-Mapping wird eingesetzt und noch vieles mehr. Der Geometryshader kommt in der Benchmark-Sequenz natürlich ebenso wenig zu kurz. Wie man bereits bemerkt, ist die Anforderung an die Grafikkarte ein gutes Stück weiter gestiegen, und das, obwohl das Spiel von Grund auf eigentlich für die ältere Direct3D-9-Schnittstelle programmiert worden ist. Die Demoversion liegt uns in einer frühen Betavariante vor, die leider noch einige Bugs beinhaltet. So kann auf nVidia-Karten kein MSAA verwendet werden, was ein Applikationsfehler ist und von den Entwickler in einem zukünftigen Patch behoben wird. Zudem weisen die Bäume und Gräser grobe Texturfehler auf.


Call of Juarez D3D10 – 1280x1024
Angaben in Bildern pro Sekunde (FPS)
|
Call of Juarez D3D10 – 1600x1200
Angaben in Bildern pro Sekunde (FPS)
|
Call of Juarez D3D10 – 1920x1200
Angaben in Bildern pro Sekunde (FPS)
|
Variance Shadow Maps
- Die Direct3D-10-Techdemo „Variance Shadow Map“ ist keine professionelle Demo, sondern wurde von dem Beyond3D-Forummitglied AndyTX programmiert. Die hier gezeigten Szenen sollen nicht das maximal Mögliche der Direct3D-10-API zeigen, sondern einzig als erster Anhaltspunkt der Programmierweise und Performance von entsprechenden Applikationen dienen. Alle gezeigten Bilder sind auch mit der Direct3D-9-API möglich, wenn auch mit einem größeren Programmieraufwand und einer niedrigeren Performance. Unter anderem wird intensives Dynamic Branching genutzt, sowie das Int32-Format, das mit Direct3D 10 neu eingeführt worden ist.


Variance Shadow Maps D3D10-Techdemo
Angaben in Bildern pro Sekunde (FPS)
|
Performancerating
Kommen wir nun abschließend zum Performancerating. Dadurch soll es erleichtert werden, alle Ergebnisse auf einen Blick zusammengefasst zu bekommen. Da die synthetischen Benchmarks in dem Testparcours (sprich der 3DMark05 sowie 3DMark06) über keine Spiele-Engine verfügen und somit keine realistische Aussagen über die Geschwindigkeit in 3D-Titeln wiedergeben, haben wir diese Applikationen aus dem Rating herausgenommen.
Performancerating – 1280x1024
Angaben in Prozent
|
Performancerating – 1600x1200
Angaben in Prozent
|
Performancerating – 2560x1600
Angaben in Prozent
|
Rating – D3D10 1xAA/1xAF
Angaben in Prozent
|
Performancerating Qualität
Rating – 1280x1024 4xAA/16xAF
Angaben in Prozent
|
Rating – 1280x1024 8xAA/16xAF
Angaben in Prozent
|
Rating – 1600x1200 4xAA/16xAF
Angaben in Prozent
|
Rating – 1600x1200 8xAA/16xAF
Angaben in Prozent
|
Rating – 2560x1600 4xAA/16xAF
Angaben in Prozent
|
Rating – 2560x1600 8xAA/16xAF
Angaben in Prozent
|
Rating – 12x10 AA+AF HDR-Bereinigt
Angaben in Prozent
|
Rating – 16x12 AA+AF HDR-Bereinigt
Angaben in Prozent
|
Rating – 25x16 AA+AF HDR-Bereinigt
Angaben in Prozent
|
Sonstiges
Lautstärke
Da quasi alle aktuellen Modelle über eine herstellerseitige Lüftersteuerung verfügen, unterscheiden wir bei den Messungen den 2D- und den 3D-Betrieb. Für die Last-Messungen wird der 3DMark06 in der Endlosschleife ausgeführt und nach dreißig Minuten die Lautstärke notiert. Beide Messungen werden im Abstand von 15 cm zur Grafikkarte durchgeführt. Um nur die Lautstärke der jeweiligen Grafikkarte messen zu können, wurden beim Test die Gehäuselüfter vom Netz getrennt. Die Messung erfolgt für das gesamte Testsystem.
Lautstärke
Angaben in Dezibel
|
Auch wenn das neue Kühlsystem auf der Radeon HD 2900 XT optisch einen guten Eindruck hinterlässt, ist der Ersteindruck in der Praxis nicht gerade berauschend. Die ersten Minuten unter Windows wissen noch zu gefallen. Dort arbeitet der 3D-Beschleuniger mit den gemessenen 48,5 dB unhörbar leise und muss sich nicht vor einer GeForce 8800 GTX verstecken. Kurze Zeit später dreht der Lüfter allerdings ohne einen Grund auf, nur um danach wieder leise zu werden. Dieses Spielchen wiederholt sich immer und immer wieder. Der gemessene Schalldruck beträgt dabei 56,5 dB, womit an ein ruhiges Arbeiten nicht mehr zu denken ist. Einen Defekt der Lüftersteuerung können wir ausschließen. Anscheinend ist die Temperaturschwelle für den Lüfter sehr unglücklich gewählt. Wie ATi uns inzwischen mitgeteilt hat, handelt es sich bei diesem Verhalten um ein Treiberfehler, der in einer bald erscheinenden Catalyst-Version behoben werden soll.
Unter Last dreht der Lüfter größtenteils mit einer Lautstärke von 56,5 dB, was im Spielbetrieb zwar negativ auffällt, allerdings gerade noch zu ertragen ist. In unregelmäßigen Abständen schaltet der Quirl einen Gang zurück. Warum in Zeiten leiser Kühlsysteme wie dem auf der GeForce-8800-Serie solch ein lautes Exemplar von Nöten ist, wo die Temperatur doch im grünen Bereich liegen, verstehen wir jedoch nicht.
Temperatur
Ähnlich den Messungen zur Lautstärke werden auch die Temperaturmessungen durchgeführt. Fast alle aktuellen Grafikkarten besitzen Sensoren, die per Treiber oder Hersteller-Tool ausgelesen werden können. Die Kern-Temperatur wird dabei im Ruhezustand im Windows-Desktop und unter Last nach dreißig Minuten 3DMark06 abgelesen. Zudem messen wir mit Hilfe eines Infrarot-Thermometers die Chiptemperatur auf der Rückseite der Grafikkarte.
Temperatur
Angaben in °C
|
Unter Windows wird die ATi Radeon HD 2900 XT mit dem gemessenen Wert von 70 Grad zwar sehr warm und der 3D-Beschleuniger ergattert sich so mit der GeForce 7950 GX2 den Platz der wärmsten Grafikkarten. Gefährlich sind die Temperaturen aber noch nicht. Die Differenz zwischen Idle-Modus und der Lastphase fällt bei der Radeon HD 2900 XT recht gering aus. Mit einem Temperaturwert von 84 Grad Celsius liegt man noch locker im problemlosen Bereich und selbst an warmen Sommertagen sollte es zu keinen Temperaturproblemen kommen. Auch die Temperaturen auf der Chiprückseite sind mit 70 Grad von der kritischen Grenze weit entfernt. An die Werte einer GeForce 8800 GTX kommt man trotz des schneller drehenden Kühlers allerdings nicht heran.
Stromverbrauch
Für die Messungen der Stromaufnahme wird ein handelsüblicher Verbrauchs-Monitor, den man sich auch beim örtlichen Stromversorger ausleihen kann, genutzt. Gemessen wird die Gesamt-Stromaufnahme des Testsystems. Auch hier gilt die Teilung zwischen Idle- und Last-Betrieb. Letzterer wird durch Verwendung des 3DMark06 unter der Auflösung 1600x1200 sowie 4-fachem Anti-Aliasing und 16-fachem anisotropen Filter simuliert.
Stromverbrauch
Angaben in Watt (W)
|
Bereits der Acht-Pin-Stromstecker lässt erahnen, dass die ATi Radeon HD 2900 XT viel Strom benötigt. Und unsere Messungen bestätigen dies. Dagegen kann man die GeForce 8800 GTX fast schon als Stromsparwunder bezeichnen. Unter Windows zieht das System mit Radeon HD 2900 XT 233 Watt aus der Steckdose. Acht Watt mehr als derselbe Rechner mit GeForce 8800 Ultra. Geradezu erschreckend ist die Stromaufnahme unter Last. Satte 356 Watt Verbrauch können wir auf dem Strommessgerät ablesen. Ein neuer Negativrekordwert. Eine deutlich schnellere GeForce 8800 Ultra benötigt im System 325 Watt, die GeForce 8800 GTX gar „nur“ 297 Watt. Bei den 700 Millionen Transistoren scheint der 80-nm-Prozess keine große Hilfe zu sein. Bleibt nur die Hoffnung, dass der Die-Shrink auf 65 nm diesbezüglich Abhilfe schafft und zügig kommt.
Übertaktbarkeit
Vielen dort draußen wird die gerade neu gekaufte Grafikkarte noch nicht schnell genug sein. Ein probates Mittel, dieses Bedürfnis nach noch mehr Geschwindigkeit zu befriedigen, ist die Hardware zu übertakten. Als kleine Stabilitätsprobe ließen wir den 3DMark06, der besonders grafiklastig ist, laufen und testeten nachfolgend den höchsten Takt mit Hilfe von Company of Heroes, F.E.A.R und Prey. Jedoch muss man vor den Messungen anmerken, dass sich die Ergebnisse nicht auf jede Karte desselben Typs übertragen lassen, da die Güte von Chip zu Chip unterschiedlich ist.
Übertakten
Angaben in Bildern pro Sekunde (FPS)
|
Das Übertaktungspotenzial der Radeon HD 2900 XT ist als überraschend gut zu bezeichnen. Anscheinend taktet ATi die R600-GPU absichtlich nicht am Limit, um so eine bessere Yield-Rate erzielen zu können. So konnten wir den Chiptakt auf 830 MHz anheben, was einer Taktsteigerung von 90 MHz entspricht. Den GDDR3-Speichertakt konnten wir um 130 MHz auf 960 MHz steigern, womit die Speicherbandbreite bei schier unendlichen 122 GB pro Sekunde liegt. Somit konnten wir in etwa eine Mehrleistung von zehn Prozent erreichen.
Wie wir beobachtet haben, bringt der höhere Speichertakt auf der Radeon HD 2900 XT nur einen minimalen Performancegewinn, während die Taktsteigerung der GPU für fast die gesamte zusätzliche Geschwindigkeit verantwortlich ist. Zumindest in den ausgewählten Qualitätseinstellungen kann die Radeon HD 2900 XT mit der zusätzlichen Bandbreite also nichts anfangen, was bei der sowieso schon hohen Speicherbandbreite aber kaum verwunderlich ist.
H.264-Wiedergabe
Zum Einsatz in dieser Disziplin kommt der Trailer des bekannten Films „Children of Men“, der in der Auflösung 1920x1080 (Vollbilder, 1080p), sprich die Bedingung für so genanntes FullHD, vorliegt. Da alle aktuellen HD-Videos in H.264 codiert sind, ist natürlich auch Children of Men in demselben Format gespeichert. Als Abspielsoftware verwenden wir „PowerDVD 7“ von CyberLink, weil das Programm problemlos auf die Video-Beschleunigung von aktuellen ATi- und nVidia-Grafikkarten zugreifen kann. Weitere Modifikationen für die Video-Beschleunigung des HD-Videos sind nicht notwendig. Die CPU-Last wird während des Abspielens von uns mittels ThrottleWatch und einem selbst geschriebenen Skript aufgezeichnet.
Die CPU-Auslastung bei der Wiedergabe eines H.264-Videos ist bei der ATi Radeon HD 2900 XT am höchsten. Die Ergebnisse der Radeon X1950 XTX und der GeForce 8800 GTX fallen insgesamt besser aus. Einen Grund dafür können wir leider nicht nennen. Aktiv war die Videobeschleunigung auf der Radeon HD 2900 XT, wenn man PowerDVD bei der Angabe trauen kann, definitiv. Man kann nicht ausschließen, dass die Treiber diesbezüglich erst noch angepasst werden müssen. Probleme während des Abspielens gab es dennoch keine.
Preis-Leistung-Verhältnis
Neben der Leistung, der Bildqualität und den sonstigen Eigenschaften einer modernen Grafikkarte spielt der Preis für die meisten Käufer eine entscheidende Rolle. Denn was nützt einem die schnellste GPU, wenn sie schlicht unbezahlbar ist? Aus diesem Grund haben wir ein Diagramm mit allen 3D-Beschleunigern aus dem Testparcours zusammengestellt und die günstigsten Preise bei Geizhals [29] heraus gesucht. Dabei wird der Preisindex nicht nur nach dem günstigsten Preis erstellen, die Hardware muss auch erhältlich sein. Wir weisen darauf hin, dass sich der Preis der bevorzugten 3D-Karte täglich ändern kann, weswegen eine dauerhafte Korrektheit nicht garantiert werden kann. (Stand der Preise: 13.05.2007)
Preisliste
Angaben in Euro
|
Den eigenen Angaben zu Folge möchte ATi die Radeon HD 2900 XT für eine Unverbindliche Preisempfehlung von 399 Euro verkaufen. Genaue Marktpreise können wir leider nicht nennen, da zur Veröffentlichung des Artikels noch kein Online-Shop die Grafikkarte gelistet hat. Somit ist der Preis der neuen ATi-Grafikkarte etwa 90 Euro höher als der einer GeForce 8800 GTS und 70 Euro niedriger als der einer GeForce 8800 GTX.
Im Folgenden wird nun das Preis-Leistung-Verhältnis der im Test vertretenen Karten bestimmt. Dabei wird das Performance-Rating durch den Preis dividiert und mit 1000 Multipliziert. Das Ergebnis repräsentiert die Leistung, die man kaufmännisch gerundet für einen Euro erhält. Das Preis-Leistung-Verhältnis wurde für verschiedene Auflösungen und Qualitätseinstellungen ermittelt.
Preis/Leistung – 1600x1200 4xAA/16xAF
Angaben in Prozent
|
Preis/Leistung – 1280x1024
Angaben in Prozent
|
Preis/Leistung – 1600x1200
Angaben in Prozent
|
Preis/Leistung – 1280x1024 4xAA/16xAF
Angaben in Prozent
|
Fazit
Die G80-GPU in Form der GeForce-8800-Serie konnte sich nun mehr als ein halbes Jahr ohne Konkurrenz austoben und tat dies eindrucksvoll. AMDs Grafikkartensparte ATi hatte nur noch wenig zu sagen und lag in allen Bereichen stark zurück, ohne in irgendeiner Disziplin Argumente setzen zu können. Doch am heutigen Tag, den 14. Mai im Jahre 2007, soll dieser Zeit ein Ende gesetzt sein: ATi präsentiert die „Radeon HD 2000“-Serie, dessen Flaggschiff Radeon HD 2900 XT ab sofort für einen Kampfpreis von etwa 400 Euro den Besitzer wechseln wird. Doch ist die Zeit von nVidias Dominanz wirklich vorbei? Teilweise schon – aber längst nicht in der Form, wie sie von vielen erwartet worden ist.
Ohne Anti-Aliasing und der anisotropen Filterung ist die Performance der Radeon HD 2900 XT gut. ATi schafft es zwar nicht an die GeForce 8800 GTX heranzukommen, kann sich in 1280x1024 aber einen 18-prozentigen Vorsprung gegenüber der GeForce 8800 GTS, der eigens auserkorenen, direkten Konkurrenzkarte, verschaffen. Das Vorgängermodell Radeon X1950 XTX lässt man um 41 Prozent zurück. In 1600x1200 wächst der Rückstand zur GeForce 8800 GTX von neun auf 13 Prozent an, die Differenz von 18 Prozent zur GeForce 8800 GTS kann die ATi-Grafikkarte aber halten. In 2560x1600 wiederholt sich das Bild. Die GeForce 8800 GTX kann sich 20 Prozent vor der Radeon HD 2900 XT platzieren, während die Radeon-HD-2000-Karte erneut 18 Prozent vor der GeForce 8800 GTS liegt.
Unter Hinzunahme der beiden qualitätssteigernden Features bricht die Performance der Radeon HD 2900 XT stark ein. Gar so stark, dass ihr selbst die Radeon X1950 XTX gefährlich nahe kommt. Einen genauen Grund dafür können wir nicht nennen. ATi spricht von einem Treiberfehler bei Verwendung von Adaptive Anti-Aliasing und konnte uns auch schon eine neue Beta-Version zuschicken. Dieser Treiber zeigt sich aber nur in wenigen Applikationen wie Oblivion als schneller – dort allerdings signifikant. Außerdem ist die Performance mit herkömmlichem Multi-Sampling-Anti-Aliasing ebenfalls nicht gerade berauschend, und hier ändert sich mit dem neuen Treiber nichts. Man kann nur hoffen, dass es sich wirklich um ein Treiberproblem handelt und dieses so schnell wie möglich behoben wird.
Bezüglich der Direct3D-10-Performance sieht es zwar nicht schlecht, aber auch nicht wirklich besser aus. So liegt die Radeon HD 2900 XT gesunde 15 Prozent vor der GeForce 8800 GTS, bleibt aber zehn Prozent hinter der GeForce 8800 GTX zurück.
In der Kategorie Bildqualität kann die Radeon HD 2900 XT aufholen. Die Karte tut sich aber schwer, gegen die G80-GPU von nVidia zu bestehen. Wirklich gut gelungen ist das acht-fache Anti-Aliasing, das unserer Ansicht nach qualitativ über dem 8xQAA von nVidia liegt. Der ATi-Algorithmus zeigt quasi keine Schwächen und glättet jedes Spiel bei jedem Winkel mit einer beinahe schon perfekten Qualität. Sehr gut! Das neue Custom-Filter-AA hört sich vielversprechend an, hat aber einen großen Nachteil, der sicherlich nicht jedermanns Sache ist: Das Bild wird leicht unscharf. Die Kantenglättung ist ohne Zweifel sehr gut und allem anderen, was es jemals zuvor gegeben hat, überlegen. Nur sollte jeder für sich entscheiden, ob man die Unschärfe in Kauf nehmen will. Der Edge-Detect-Modus, der die Unschärfe verhindert, scheint dagegen noch nicht wirklich zu funktionieren und kann auch nur umständlich mit einem externen Tool aktiviert werden. Der Qualitätsgewinn gegenüber 8xAA liegt mehr oder weniger bei Null.
Auf ganzer Linie zurückstecken muss ATi bei der anisotropen Filterung, die auf der GeForce 8800 tadellos arbeitet. Bei maximalen Treibereinstellungen flimmert das Bild auf dem R600 immer noch vor sich her, wenn auch nicht mehr ganz so extrem wie auf der Radeon X1950 XTX. Die Bildruhe einer GeForce 8800 erreicht man aber nicht annähernd. Darüber hinaus kann die nVidia-Karte mit einer besseren Präzision und einer leicht besseren Winkelunabhängigkeit punkten, wobei man letzteres aber nur in seltenen Fällen wird erkennen können. Die Standardeinstellungen der Treiber sind in etwa gleichwertig. Bei der Radeon HD 2900 XT flimmern vermehrt die Texturen, auf der GeForce 8800 fällt der brilineare Filter unangenehm auf.
Verbessern muss ATi die Lüftersteuerung der Radeon HD 2900 XT, die insbesondere unter Windows noch ungeschickt agiert und alle paar Minuten den Lüfter laut aufdrehen lässt. Laut ATi soll dieser Fauxpas mit einem zukünftigen Treiber behoben werden. Unter Last hinterlässt der Radiallüfter aber ebenso wenig eine gute Figur. Der Lüfter ist nicht störend, aber klar wahrnehmbar, was spätestens seit der GeForce-8800-Serie nicht mehr zeitgemäß ist. Die Temperaturen liegen im grünen Bereich. Wie es Gerüchte prophezeit haben, fallen die Stromverbrauchswerte schlecht aus. Selbst die GeForce 8800 Ultra könnte man dagegen noch als Stromsparer bezeichnen. Im Idle-Modus hält sich die Differenz noch in Grenzen, doch unter Last steigt sie auf hohe 30 Watt an.
Positiv hervorzuheben ist die Möglichkeit, auf der Radeon HD 2900 XT sowohl Ton als auch Bild über den DVI-Port per HDMI-Adapter an einen HD-Fernseher oder HD-Beamer wiederzugeben. So steht dem künftigen HD-Fernsehabend über den PC nichts mehr im Wege.
Neben der Leistung bedarf es weiterer Verbesserungen im Treiber. So zeigt der Launch-Treiber noch einige teils störende Fehler auf. In Anno 1701 bekommt der Benutzer nur einen Bluescreen zu Gesicht, während man in Splinter Cell 4 immerhin das Spiel zu sehen, dafür aber Grafikfehler auf den Bildschirm gezaubert bekommt. Unter Windows Vista bereitet das Catalyst Control Center Probleme, in dem es manchmal gar nicht oder erst nach einer langen Wartepause startet. Mit einem neuen Treiber, der sich schon in unserem Testlabor befindet, sind diese Schwierigkeiten allerdings Geschichte.
Derzeit fällt es trotz des positiven Preises von 400 Euro schwer, eine Kaufempfehlung für die Radeon HD 2900 XT auszusprechen. Wer auf eine gute Kantenglättung steht, macht mit der Grafikkarte zwar nichts falsch. Die Performance ist mit Anti-Aliasing und der anisotropen Filterung aber enttäuschend (– auch wenn wir zurzeit zumindest teilweise einen Treiberfehler vermuten). Selbst eine fast 80 Euro günstigere GeForce 8800 GTS macht der Radeon HD 2900 XT das Leben schwer, während die GTX-Version gar lässig Kreise um die R600-Karte zieht. Ein weiterer Pluspunkt ist die höherwertige Texturfilterung des G80, der die Radeon HD 2900 XT einzig das sehr gute Anti-Aliasing entgegensetzen kann. Wir empfehlen, mit dem Kauf einer Radeon HD 2900 XT noch einige Zeit zu warten. Falls sich in zukünftigen Treibern die Performance verbessert, ist die Radeon HD 2900 XT für den Preis durchaus eine Überlegung wert. Derzeit ist man mit einer gleich teuren und von Haus aus übertakteten GeForce 8800 GTS aber besser bedient.
Update 14. Mai, 18:03: Einen ersten Vergleich der derzeit erhältlichen Radeon-HD-2900-XT-Treiber in 3DMark05, Serious Sam II, Splinter Cell 3 und Oblivion haben wir als Ergänzung zum Artikel in einer News-Meldung veröffentlicht [30].
Weitere Meldungen zum Thema:










