Neue ATi-Grafikkarten im Test: Radeon HD 4850 und eine Vorschau zur HD 4870

 4/34
Wolfgang Andermahr
655 Kommentare

Technik im Detail Part 2

Raster Operation Processor (ROP):
Deutlich verbessern konnte man die Raster Operation Processors (ROPs, von ATi gerne Render Back Ends genannt), die einen großen Schritt gegenüber denen im RV670 gemacht haben sollen. Das Wichtigste vorweg: Ja, die herkömmlichen Box-Filter-Anti-Aliasing-Modi werden auf dem RV770 wieder vollständig in den ROPs und nicht mehr teilweise (MSAA-Resolve) in den Shadereinheiten ausgeführt, wie uns Eric Demers mitteilte. Dadurch soll die Performance bei der Kantenglättung auf dem RV770 stark ansteigen, was wir in gleich folgenden Messungen untersuchen werden.

Die Custom-Filter-AA-Modi mit einem anderen Filter (Narrow-Tent, Wide-Tent und Edge-Detect) werden logischerweise weiterhin zu einem Teil in den ALUs berechnen, da den ROPs dazu die nötige Flexibilität fehlt. Die Performance des CFAA will ATi auf dem RV770 dennoch stark erhöht haben. Auf der neuen GPU werden erneut 16 ROPs in vier einzelnen ROP-Partitions verbaut, die pro Takt 16 Pixel fertigstellen können. Verbessert hat man die Performance bei reinen Z-Berechnungen (Tiefentests zur Sichtbarkeitsprüfungen, die entscheiden, ob ein Pixel überhaupt gerendert werden muss).

RV770 Raster Operation Processors
RV770 Raster Operation Processors

Anstatt 32 Z-Tests kann der RV770 nun 64 Z-Tests durchführen, es gibt also nicht mehr nur zwei, sondern vier Z-Einheiten pro ROP. Damit hat man einen weiteren Engpass der R600-Architektur behoben oder zumindest vermindert. Ebenfalls einen Schritt nach vorne hat die ROP-Performance beim Anti-Aliasing gemacht. So konnten die ROPs im R600/RV670 bei zwei- oder vier-fachem Anti-Aliasing nur noch acht Pixel pro Takt fertigstellen, die Hälfte der eigentlichen Durchsatzrate. Beim RV770 werden nun „Single-Cycle-ROPs“ für bis zu 4xAA verwendet, die dann pro Takt auch 16 Pixel berechnen können. Bei acht-fachem Multi-Sampling-AA halbiert sich die Anzahl auf acht Pixel. Es spielt keine Rolle mehr, ob 32-Bit- oder 64-Bit-Texturen gefiltert werden müssen. Auf einem RV670 können die ROPs bei 64-Bit-Texturen (FP16) ohne MSAA nur acht Pixel pro Takt fertigstellen. Beim RV770 gibt es die Limitierung nicht mehr.

Speicherinterface:
Das Speicherinterface auf dem RV770 ist weiterhin 256 Bit breit und setzt sich aus vier einzelnen 64-Bit-Controllern zusammen. An diesen werden jeweils zwei Speicherbausteine mit einer Busbreite von 32 Bit angeschlossen. Den Memorycontroller hat man auf dem RV770 allerdings runderneuert, wobei man von dem seit der R520-GPU bekannten Ring-Bus etwas Abstand genommen hat, ohne auf eine klassische Crossbar (eine Punkt-zu-Punkt-Verbindung) zu setzt. Eine Crossbar gibt es auf dem RV770 nur zwischen den „Low Bandwith Clients“ wie dem PCIe-Interface oder dem UVD.

Stattdessen ist jeder der vier Speichercontroller (die mit einer ROP-Partition und einem L2-Cache verbunden sind) an einen einzelnen lokalen Memorycontroller angeschlossen, den ATi Hub nennt. Der Hub soll ziemlich identisch mit den Ring-Bus-Hubs in der R600-Architektur sein. Die Verbindung zwischen den vier einzelnen Memorycontroller soll wie der bekannte Ring-Bus arbeiten, wobei kein Ring-Bus-Protokoll mehr genutzt wird. Die Effizienz der Speicherbandbreite soll durch das neue Design gesteigert worden sein.

RV770 Speichercontroller
RV770 Speichercontroller

Ein interessantes Details am Speichercontroller ist ein so genannter „CrossFire X Interconnect“, der auf dem RV770 neu hinzugekommen ist. Eric Demers wollte sich zu diesem Thema leider nicht äußern und so können wir nur spekulieren, was der neue Anschluss macht. Definitiv fest steht, dass der Interconnect nicht beim klassischen CrossFire-Verbund aus zwei, drei oder vier diskreten Grafikkarten zum Einsatz kommt. Stattdessen wird der CrossFire X Interconnect nur beim R700 eingesetzt werden, der noch nicht vorgestellten High-End-Karte mit zwei RV770-GPUs auf einem PCB.

So ist es denkbar, dass durch den Interconnect beide GPUs miteinander kommunizieren und sich erstmals den auf der Platine verbauten Speicher teilen können. Normalerweise muss jede GPU auf dieselben Daten im Speicher zugreifen können, weswegen man den Speicher bei CrossFire nicht addieren kann. Falls durch den Interconnect nun eine Art „Shared Memory“ realisiert werden könnte, würde diese störende Limitierung wahrscheinlich der Vergangenheit angehören. Sicher sind wir uns aber nicht, zumal ATi angedeutet hat, dass der Interconncect eher eine andere Funktion haben wird. Neben GDDR3 und GDDR4 kann der Speichercontroller im RV770 zusätzlich modernen GDDR5-Speicher ansprechen, der erstmals auf der Radeon HD 4870 Premiere feiert.

Double Precision (DP):
In Zeiten von GPU-Computing spielt die „doppelte Präzision“ eine immer größer werdende Rolle. Anstatt mit einer Genauigkeit von 32 Bit wird bei Double Precision jeder Datenwert mit einer 64-Bit-Präzision berechnet. DP kann von den 800 MADD-Einheiten aber nicht so ohne weiteres Ausgeführt werden, da dazu entweder dedizierte DP-Einheiten notwendig sind. ATi geht beim RV670 sowie beim RV770 dagegen einen anderen Weg und lässt bei Double Precision die fünf MADD-ALUs eines Stream Processors an einer Operation rechnen, wobei die fünfte ALU die „Akkumulierung“, also die Zwischenspeicherung, übernimmt.

Pro Takt wird also ein DP-Wert fertig gestellt, der aber nicht nur eine sondern fünf ALUs blockiert. Die theoretische DP-Shaderleistung fünftelt sich also. Die Radeon HD 4850 bietet zum Beispiel eine theoretische Rechenleistung von 1000 GFLOP/s bei Single-Precision. Bei einer 64-Bit-Präzision ständen dem Kunden dann also nur noch 200 GFLOP/s zur Verfügung, was aber immer noch deutlich mehr als bei einer High-End-Quad-Core-CPU wäre. Einen direkten Vergleich zu den diskreten DP-Einheiten auf dem GT200 von Nvidia wollen wir nicht ziehen, da wir uns nicht ganz sicher sind, was die Einheiten alles für Berechnungen in einem Takt ausführen können.

Unified Video Decoder (UVD):
Ein alter Bekannter hat erneut Einzug in den RV770 gefunden, der Unified Video Decoder, kurz UVD, zur Beschleunigung von HD-Videos im MPEG2-, H.264- und VC-1-Codec. Der UVD liegt auf dem RV770 in der zweiten Generation vor, ist größtenteils aber identisch zu dem auf dem RV670 geblieben. Neu hinzu gekommen ist die „Picture-in-Picture“-Funktion, durch die zwei HD-Videos zur selben Zeit abgespielt werden können. Dabei soll die CPU-Auslastung nur minimal ansteigen. Der UVD2 kann über den DVI-Ausgang (alternativ HDMI oder DisplayPort) 7.1-Audio mit einer Datenrate von bis zu 6.144 Mbit/s bei 192 KHz/24-Bit ausgeben.

RV770 UVD
RV770 UVD

Während auf den alten Radeon-HD-3000-Karten nur Dolby Digital sowie DTS als Bitstream ausgegeben werden konnten, sind mit dem UVD2 nun auch Dolby Digital+, Dolby True HD sowie DTS HD möglich. Der HDMI-Standard entspricht der aktuellen Variante 1.3. Verbesserungen in der Bildqualität hat es im RV770 ebenfalls gegeben: So kann die GPU auf das HD-Bild einen dynamischen Kontrast anwenden, der die Farben verstärken soll. Auf Wunsch kann man das Feature im Treiber deaktivieren.

Stromsparmechanismus:
PowerPlay, ein effektiver Stromsparmechanismus, der seit dem RV670 von ATi auf Desktop-GPUs eingesetzt wird, wird auf dem RV770 natürlich erneut genutzt und soll gar verbessert worden sein. So gibt es einen speziellen Mikrocontroller auf dem PCB, der mit speziellen Monitor-Programmen ausgestattet ist, die die Temperatursensoren, die Auslastung einzelner GPU-Blöcke und den Datenverkehr über den PCIe-Bus ständig kontrolliert. Falls der Datenverkehr gering ist, kann der Chip die Taktraten nicht nur massiv senken, ebenso werden die Spannungen reduziert und es wird Clock-Gating betrieben. Die Effizienz von PowerPlay soll sich auf dem RV770 um den Faktor 2 gegenüber der Implementierung auf dem RV670 gesteigert haben.

RV770 Stromsparmechanismen
RV770 Stromsparmechanismen

Bildqualität:
In Sachen Bildqualität hat sich auf dem RV770 nichts getan. Sowohl der anisotrope Filter als auch das Anti-Aliasing arbeiten auf ein und demselben Niveau wie auf einem RV670, weswegen unsere Beobachtungen beim Launch-Review zur GeForce GTX 280 immer noch gelten. Der RV770 ist mit dem RV670 völlig gleichzusetzen. Zwar wurde in den Textureinheiten die Präzision leicht erhöht, jedoch soll das keinen (oder eher nur einen theoretischen) Einfluss auf die Qualität des anisotropen Filters haben.