nVidia GeForce 8600 GTS (SLI) und 8600 GT im Test: Mid-Range mit Direct3D-10-Unterstützung

 3/43
Wolfgang Andermahr
181 Kommentare

Technik im Detail

Die GeForce-8600-Serie basiert wie die GeForce-8800-Karten auf der neuen G80-Architektur von nVidia, wobei sowohl bei der GeForce 8600 GTS als auch bei der GeForce 8600 GT die abgespeckte G84-GPU zum Einsatz kommt. Im Gegensatz zum G80 (90 nm) wird der G84 im modernen 80-nm-Prozess gefertigt, um den Chip kleiner und günstiger zu halten. Der G84 bringt satte 289 Millionen Transistoren auf die Waage, was für einen Mid-Range-Chip sehr viel ist, wobei ATi mit dem RV560 bereits gar noch höhere Regionen vorgestoßen ist.

Bisherige Spekulationen sagten dem G84 64 skalare Shader-ALUs zu. Doch dies entspricht nicht den Tatsachen. Auf der GeForce 8600 sind 32 1D-Unified-Shader-Einheiten verbaut, die pro Takt eine Skalaroperation mit einer MADD- (Addition und Multiplikation) und MUL-Anweisung (Multiplikation) durchführen können – später dazu mehr. Die ALUs sind pro Cluster in einem 2x8-Verbund geschaltet, weswegen man auf insgesamt 16 ALUs pro Cluster kommt. Beim G84 kann man also von zwei Vec16-Shadern sprechen. Somit ist klar, dass der G84 über zwei Shadercluster verfügt, während der G80 auf acht dieser gekoppelten Einheiten zurückgreifen kann. nVidia hat allerdings die Shader-ALUs leicht überarbeitet. So wurde nach eigenen Angaben die „Shader per Clock Performance“ verbessert, wobei man leider keine genaueren Details bekannt gibt. Zudem soll die Stencil-Culling-Performance gegenüber dem G80 angewachsen sein.

nVidia G80 Architektur
nVidia G80 Architektur

Darüber hinaus setzt der G84 auf 16 vollwertige Texture Mapping Units, wohl die wichtigste Modifizierung der GeForce 8600 gegenüber der GeForce 8800. So kann der G80 pro Cluster acht Texturen Filtern (wobei diese immer aus derselben Textur stammen müssen), was vor allem bei anisotroper Filterung von Vorteil ist. So kann der G80 trotz normaler bilinearer TMUs eine trilinear gefilterte Textur oder eine bilineare Textur mit zwei-fachem anisotropen Filter innerhalb von einem Takt fertigstellen. Sowohl der G71 und der R580 benötigen für diese Operationen zwei Takte. Allerdings hat der G80 pro Cluster nur vier Adressierungseinheiten für die Texturen (Texture Addressing Units, TAU), es können pro Takt also nur vier Texturen adressiert werden.

Um dem G84 eine genügend hohe Texturleistung bereit zu stellen, hat nVidia die Textureinheiten nun aufgebohrt. So können weiterhin acht Texturen pro Takt gefiltert, aber zusätzlich auch acht Texturen adressiert werden – ähnlich wie beim G71 und R580. Dies bringt in texturlastigen Spielen einen Performanceschub. nVidia setzt bei der GeForce 8600 acht Raster Operation Processors (ROPs) ein, die dieselben Fähigkeiten wie jene des G80 beherrschen. Mehr dazu in unserem Launch-Artikel zur GeForce 8800 GTX.

Spannender ist ein Blick auf den Speichercontroller. nVidia nutzt bei der GeForce 8600 zwei 64-Bit-Kanäle für den Speicher, was ein 128 Bit Speicherinterface ergibt. Dies ist unserer Meinung nach verwunderlich, da nVidia die G80-Architektur sehr skalierbar gestaltet hat. So wäre es ohne weiteres möglich gewesen, ein 192 Bit Speicherinterface einzusetzen, was die wichtige Speicherbandbreite enorm erhöht hätte. Zwar hätte man einen ROP-Cluster (vier einzelne ROPs) und zusätzliche 64 MB VRAM hinzufügen müssen, jedoch wäre die Performance durchgängig ein gutes Stück gestiegen, vor allem wenn man zukünftige FP16-HDRR-Spiele betrachtet. Der Speicherausbau der GeForce 8600 beträgt 256 MB, was durch vier 64 MB große Module erreicht wird.

G80 TMU/TMA-Verhältnis
G80 TMU/TMA-Verhältnis

Die GeForce 8600 GTS und die GeForce 8600 GT unterscheiden sich nur bezüglich der Taktraten. So taktet die TMU-Domäne (Textureinheiten, ROPs) auf dem Flaggschiff mit 675 MHz, während die GeForce 8600 GT mit 540 MHz arbeitet. Die 675 MHz deuten bereits an, dass sich eine 80-nm-GPU sehr hoch takten lässt. Die Texelfüllrate steigt insgesamt gesehen um ein gesundes Maß gegenüber der GeForce 7600 GT an. Ebenso sieht es bei der Speicherbandbreite aus. Die GeForce 8600 GTS taktet den GDDR3-Speicher mit 1000 MHz, die GeForce 8600 GT dagegen mit 700 MHz.

Interessanter sieht es bei der Shaderdomäne aus, die auf dem G84 wie auf dem größeren Bruder G80 sich massiv von der TMU-Domäne unterschiedet, damit die Skalarshader keinen Flaschenhals darstellen. Die ALUs der GeForce 8600 GTS arbeiten mit einer Frequenz von 1450 MHz, was eine theoretische Arithmetikleistung von 139 GFLOPS entspricht. Im Vergleich zur Radeon X1650 XT hört sich das nach wenig an, man darf aber nicht vergessen, dass Skalareinheiten deutlich effektiver als Vektorprozessoren arbeiten, da diese trotz einer Möglichen Aufteilung längst nicht immer mit allen vier Komponenten (Rot, Grün, Blau, Alphawert) gleichzeitig rechnen können – teilweise drehen die ALUs also Däumchen. Die Shadereinheiten der GeForce 8600 GT werden mit 1190 MHz angesteuert.

Auffällig ist das fehlen des NVIO-Chips (nVidia Input Output), der bei der GeForce 8800 die Ansteuerung des HDTV- sowie der DVI-Ausgänge und der SLI-Bridge übernommen hat. Bis jetzt ging man davon aus, dass auf dem G80 der NVIO platziert worden ist, da es Probleme mit der Bildausgabe und der extrem hoch getakteten Shaderdomäne gegeben hätte, wenn man alles auf einem Chip realisiert hätte – nun kann man diese Theorie aber streichen. Wie uns James Wang, „Technical Marketing Analyst“ bei nVidia, in einem Gespräch gegenüber erwähnte, setzt nVidia auf einer GeForce 8800 einen externen Chip für die Bildansteuerung ein, da es ansonsten zu Routing-Problemen der Datenströme auf dem komplexen Chip gekommen wäre. Der G84 ist simpler zu produzieren und hat ein weniger komplexes PCB, weswegen es ohne Schwierigkeiten möglich ist, auf den NVIO zu verzichten.

Unified-Shader
Unified-Shader

Zum Schluss wollen wir noch einmal auf die GFLOP-Zahlen und die Shadereinheiten zu sprechen kommen. So war es kein Geheimnis, dass das zweite MUL auf dem G80 nicht so funktionierte, wie man zu Anfangs davon ausgegangen ist. So hat das MUL kein „General Shading“, sprich die eigentlichen Multiplikationen, durchgeführt, sondern war als Special Function Unit (SFU), Perspektivenkorrektur sowie als Attributinterpolator tätig. Wie die Kollegen von Beyond3D vor kurzem herausgefunden haben, hat nVidia das zweite MUL mit den neuen Vista-Treibern zumindest teilweise für General Shading freigeschaltet. So konnte man einen MUL-Durchsatz von zusätzlichen 15 Prozent messen.

Mittlerweile ist auch die Treiberentwicklung für Windows XP mit dem ForceWare 158.16 weiter fortgeschritten und wir hegen die Vermutung, dass nVidia mit diesem Treiber eventuell die Kraft des zweiten MULs für Windows XP freigeschaltet hat. So konnten wir mit dem Treiber in shaderintensiven Anwendungen (shaderintensiv alleine reicht natürlich nicht, der Code muss MUL-lastig sein) im Gegensatz zum ForceWare 101.02 einen kleinen Performanceschub verzeichnen. Auf Nachfrage bestätigte uns James Wang, dass mit Hilfe des ForceWare 158.16 (beziehungsweise ForceWare 158.14 für Windows Vista) das zweite MUL auf einem G80 sowie G84 neben den Aufgaben als SFU nun auch für General Shading zuständig ist.

Technik im Detail (Fortsetzung)

Darüber hinaus hat nVidia bei der G84-GPU die PureVideo-Funktionen erweitert, dessen neue Leistungsfähigkeit selbst das Topmodell G80 nicht erreicht. nVidia nennt die verbesserte Videobeschleunigung „Next-Generation PureVideo Engine“. Sie beschleunig, wie die Bezeichnung bereits deutlich macht, HD-DVDs sowie Blu-ray-Discs per GPU, um selbst auf langsamen Rechnern eine flüssige Wiedergabe der hochauflösenden Videos zu ermöglichen. Dabei wird die Videobeschleunigung nicht über die Shadereinheiten durchgeführt, sondern separate Chipteile sind dafür verantwortlich. Neu ist ein modifizierter Videoprozessor, der auf den Namen „VP2“ hört. Der VP2 übernimmt die Hauptarbeit bei der Entlastung der CPU und ist für den MPEG-2-, VC-1- und H.264-Formate gedacht. Der VP2 besteht aus einem programmierbaren SIMD-Chip (Single Instruction Multiple Data), der Bitraten von bis zu 40 Mbit pro Sekunde verarbeiten kann.

PureVideo HD

Ein weiterer neuer Part ist die so genannte „BSP-Engine“, ein Bitstream-Prozessor, der spezielle Codes-Sequenzen wie CAVLC (Context Adaptive Variable Lenght Coding) und CABAC (Context Adaptive Binary Arithmetic Coding) erkennen und beschleunigen kann. Normalerweise übernimmt diese Aufgaben der Prozessor, der dies aber nur ineffizient und langsam ausführen kann. Ebenfalls neu ist die „AES128 Engine“, die das Decodieren des AES128-Verschlüsselungsprotokolls beschleunigt. Dies wird genutzt, um den Kopierschutz „AACS“ (Advanced Accress Content System) umzusetzen, der die Filminhalte auf einer HD-DVD und Blu-ray schützt.

PureVideo HD

Die GeForce 8600 ist somit in der Lage, beinahe die gesamte Decodierarbeit im Alleingang zu erledigen und die CPU stark zu entlasten. Bis jetzt konnten sowohl ATi- als auch nVidia-Karten die Decodierarbeit nur teilweise übernehmen. nVidia verspricht dadurch, die CPU-Auslastung beim Einsatz einer GeForce 8600 auf etwa 20 Prozent reduzieren zu können. Im Vergleich: Eine GeForce 8800 kann die CPU nur um etwa 40 Prozent entlasten, wobei dies auch vom verwendeten Prozessor abhängig ist. Bis jetzt kommen allerdings nur Windows-Vista-Nutzer in den Genuss der neuen PureVideo-HD-Engine. Erst spätere Windows-XP-Treiber sollen die PureVideo-Funktionen der GeForce 8600 nutzen können.

Eine weitere Neuerung auf dem G84 ist, dass die Grafikkarten HDCP-geschützte Inhalte nun auch über Dual-Link-DVI wiedergegeben werden können, was bis dato mit keinem anderen 3D-Beschleuniger möglich war. Somit schafft nVidia Abhilfe für Monitore mit einer hohen Auflösung, auf denen es nicht möglich ist, HD-Videos in voller Auflösung wiederzugeben.