HD 6970 und 6950 im Test: Zwei neue AMD-Radeon-Grafikkarten die enttäuschen

3/35

15.12.2010 6:01 Uhr

Technik 1 – Die Neuerungen

Allgemeines:
AMDs im Oktober vorgestellte Barts-GPU (Radeon HD 6800) war keine echte Neuentwicklung, sondern im Grunde genommen ein Hybrid verschiedener Radeon-HD-5000-Rechenkerne inklusive einiger kleineren Verbesserungen wie der Unified Video Decoder der dritten Generation, einem leicht verbesserten Tessellator, HDMI 1.4a sowie dem DisplayPort nach dem 1.2-Standard. AMDs heute vorgestellte Cayman-Generation (Radeon HD 6900) hat dagegen deutlich umfangreichere Änderungen erfahren, wobei es sich schlussendlich ebenfalls „nur“ um einen Refresh der Cypress-GPU (Radeon HD 5800) handelt. Allzu viel neues gibt es also nicht.

Der „Cayman“ wird weiterhin bei TSMC im 40-nm-Verfahren gefertigt, da andere Strukturtechnologien frühestens Ende nächsten Jahres die Marktreife erreichen werden. Die Transistorendichte berechnet sich über 2,64 Milliarden Schaltungen, die auf einer Die-Größe von 389 mm² untergebracht sind. Damit ist AMDs Packdichte (für sich betrachtet) der von Nvidia überlegen, da die Kalifornier für etwa 300 Millionen weitere Transistoren eine Größe von mehr als 500 mm² benötigen.

Shadereinheiten:
Die größte Neuerung auf der Cayman-GPU ist in der Shaderarchitektur zu suchen, die erstmals nach der Einführung der Radeon-HD-2000-Generation eine grundlegende Änderung erfahren hat. Es handelt sich nicht mehr um eine 5D-VLIW-Anordnung, sondern um ein effizienteres 4D-VLIW-System. Zu Deutsch: Während ein Barts Shader-Cluster noch grob gesagt aus fünf einzelnen ALUs besteht, von denen eine (T-Unit) komplexer ist um unter anderem Special-Function-Funktionen wie Sinus- und Kosinus-Berechnungen durchzuführen, gibt es auf dem Cayman nur noch vier identische ALUs – die T-Unit entfällt. Für Special-Function-Berechnungen werden drei ALUs gleichzeitig belegt, die dann im Zusammenschluss an solchen Aufgaben rechnen. In einem solchen Rechenfall ist also nur noch eine ALUs für die normalen Rechenaufgaben übrig.

Ein Grund für den Wechsel auf ein 4D-VLIW-Design ist die bessere Auslastung der einzelnen ALUs. Denn obwohl der Compiler auf den älteren Karten bereits sehr ausgereift ist, werden im Durchschnitt nur etwa 3,5 der fünf ALUs ausgelastet. Die Auslastung auf dem Cayman mit seinem neuen, „abgespeckten“ Design liegt im Endeffekt nun gar ein wenig höher, zumal das Scheduling und das Register-Management vereinfacht werden konnte. Der „Rückschritt“ soll aus der Leistungsperspektive also ein Fortschritt gewesen sein. Ein weiterer (nicht weniger wichtiger) Grund für den Wechsel von 5D auf 4D ist der eingesparte Platz auf dem Die, der die Performance-pro-mm² um zehn Prozent gesteigert haben soll und für weniger defekte Chips in der Fertigung sorgen sollte.

An den Fähigkeiten der einzelnen ALUs hat sich dagegen nicht viel geändert, denn pro Takt kann weiterhin primär ein MAD (Multiply-ADD) berechnet werden. Für Double-Precision (64 Bit anstatt 32 Bit Genauigkeit) müssen sich allerdings nun nicht mehr die vormals fünf ALUs zusammenschließen, stattdessen reichen bei der Cayman-GPU vier ALUs aus, wodurch AMD die DP-Leistung ein gutes Stück steigern konnte (anstatt 1/5 der SP-Leistung liegt die DP-Performance bei 1/4). Die GPU-Computing-Leistung soll ebenfalls gesteigert worden sein, wobei wir in diesem Test aus Zeitgründen nicht näher darauf eingehen werden.

AMDs Cayman-GPU setzt sich insgesamt aus 24 SIMD-Einheiten zusammen, die pro SIMD aus 16 kompletten 4D-VLIW-Cores bestehen. Je nach Zählweise kommt man beim Cayman also auf 1.536 ALUs (1.600 auf dem Cypress) oder 384 4D-Einheiten. Obwohl die reine Anzahl der ALUs auf dem Cayman geringer ist als auf dem Vorgänger, ist die Rechenleistung in den meisten Fällen dennoch höher, da die Effizienz gesteigert wurde. Falls ein Programmcode allerdings viele 5D-Berechnungen verlangt, kann es durchaus sein, dass die neue GPU langsamer als die alte ist – das sollte in der Praxis aber so gut wie nicht passieren.

Front-End und Tessellation:
Die zweite große Neuerung auf dem Cayman ist im Front-End zu suchen, das die gesamten Einheiten der GPU mit Daten versorgt. Dieses hat AMD gegenüber dem Cypress schlicht und ergreifend fast vollständig verdoppelt. Es sind nun zwei „Graphics-Engines“ vorhanden, es gibt also zwei Hierarchial-Z-Einheiten für Tiefenberechnungen, zwei Vertex- und Geometry-Assember, zwei Tessellation-Einheiten und zwei separate Rasterizer (die zwei Rasterizer gab es allerdings auch schon auf dem Cypress). Der theoretische Geometriedurchsatz pro Takt konnte so verdoppelt werden.

Die Tessellation-Einheiten sind dabei nicht nur doppelt vorhanden, sie kommen darüber hinaus mit einem neuen Buffer, in denen Daten abgelegt werden können. Das soll verhindern, dass die gesamte GPU bei hohen Tessellation-Faktoren „stallt“, also blockiert wird. Die theoretische Tessellation-Leistung des Cayman soll deswegen drei Mal so hoch wie auf dem Cypress sein. In der Praxis sollen davon noch höchstens 70 Prozent Mehrleistung in Unigines Heaven-Benchmark übrig bleiben.

Die beiden neuen Graphics-Engines schicken die Daten anschließend weiter zu einem doppelt ausgelegten „Ultra Threaded Dispatch Processor“, der dann wiederum die Daten auf die einzelnen SIMDs verteilt. In diesem Punkt also nichts neues.