GF100 „Fermi“: Nvidias nächste Grafik-Architektur im Detail erklärt

 5/6
Wolfgang Andermahr
657 Kommentare

ROPs und Speicherinterface

Auch die Raster Operation Processors (ROPs) haben im GF100 eine größere Überarbeitung erfahren. Die ROPs sind in der Architektur zwar nach wie vor an den Memorycontroller angeschlossen und laufen somit unabhängig von den Streaming Multiprocessors. Auf dem GF100 sind nun allerdings insgesamt sechs ROP-Partitions vorhanden, die jeweils acht ROPs enthalten, womit es deren 48 gibt. Dies ist eine große Änderung gegenüber dem GT200, der zwar acht ROP-Partitions bietet, die sich aber nur aus vier ROPs zusammen setzen.

Auch innerhalb der ROPs hat sich etwas getan. Eine ROP kann nach einem Takt ein 32-Bit-Integer-Pixel, ein 16-Bit-Floating-Point-Pixel nach zwei Takten oder ein 32-Bit-FP-Pixel nach vier Takten ausgeben. Zudem wurde die Geschwindigkeit der Atomic Operations verbessert, die 20 Mal schneller als auf dem GT200 laufen.

Gleich geblieben ist das an den ROP-Partitions angeschlossene 64 Bit Speicherinterface. Aufgrund der sechs ROP-Partitions bietet der GF100 damit „nur“ ein 384 Bit breites Speicherinterface, dessen limitierte Bandbreite Nvidia aber durch GDDR5-Speicher ausgleichen möchte.

Mit die wichtigste Modifizierung betrifft das acht-fache Anti-Aliasing, das auf dem GF100 deutlich schneller als auf dem GT200 laufen soll, der unter dieser Einstellung noch einen recht hohen Performanceverlust erleidet. Die Leistungssteigerung ist mit einer Verbesserung der Kompressionseffizienz sowie den zusätzlichen ROPs erklärt, die nun kleinere Primitive effektiver bearbeiten, wenn diese nicht komprimiert werden können. Nvidia gibt für das 8xMSAA einige Benchmarks mit dem Spiel H.A.W.X. an, das zuvor stark unter acht-facher Kantenglättung gelitten hat.

Architektur-Diagramm
Architektur-Diagramm
Architektur-Diagramm
Architektur-Diagramm
Architektur-Diagramm
Architektur-Diagramm
32xCSAA
32xCSAA

Der GF100 ist in der Testsequenz mit aktivierter vier-fachen Kantenglättung 60 Prozent schneller als ein GT200. Wird die Kantenglättung auf 8xMSAA erhöht, beträgt die Geschwindigkeitssteigerung dagegen gleich 130 Prozent. Der Geschwindigkeitsverlust des GF100 soll bei geringen neun Prozent liegen, wenn 8xMSAA anstatt 4xMSAA zum Einsatz kommt.

Darüber hinaus gibt es einen neuen Anti-Aliasing-Modus: 32xCSAA, das das flotte (wenn auch nicht ganz so hübsche) Coverage-Sampling-AA nutzt. Der Modus setzt sich aus 8xMSAA sowie 24 zusätzlichen CSAA-Samples zusammen. Möglich wird dieser wahrscheinlich nur durch die drastische Steigerung der 8xMSAA-Performance. Gleichzeitig wurde das Transparency-MSAA erweitert, das nun auch auf CSAA-Samples das Transparency-AA anwendet und so Alpha-Test-Texturen besser bearbeiten kann.

Einen Benchmark (Age of Conan) gibt es zum 32xCSAA auch: Das Spiel soll nur noch sieben Prozent gegenüber dem herkömmlichen 8xMSAA verlieren und dabei gleichzeitig sichtbar besser aussehen.

Raytracing auf dem GF100

Die klassische Rendermethode in der 3D-Welt ist die bekannte Rasterization, da es recht einfach zu handhaben ist, schnell auf aktueller Hardware berechnet werden kann und gleichzeitig dennoch für das menschliche Auge ziemlich realistische Ergebnisse erzeugt. Der Konkurrent zur Rasterization heißt Raytracing (mehr zu diesem Konflikt in unserer Artikeldatenbank), der mit Hilfe von Strahlenlehre ein realitätsgetreues Bild erzeugen kann. Jedoch benötigt dieses Verfahren enorme Rechenkraft und läuft auf modernen GPUs nicht optimal.

Architektur-Diagramm
Architektur-Diagramm
Raytracing
Raytracing
Raytracing
Raytracing
Raytracing
Raytracing

Wahrscheinlich ist dies auf dem GF100 auch noch nicht der Fall, jedoch wurden in der Hardware einige Modifizierungen vorgenommen, um die Darstellung von Raytracing zu optimieren. So wurde zum Beispiel die Cache-Hierarchie für Raytracing optimiert. Zudem wurde die Hardware angepasst, um mit speziellen Global-Illumination-Effekten wie Path Tracing besser umgehen zu können. Laut Nvidia läuft das Path Tracing auf dem GF100 vier Mal so schnell wie auf dem GT200.

Architektur-Diagramm
Architektur-Diagramm

3D Vision Surround

Mit der Radeon-HD-5000-Serie führte ATi die Eyefinity-Technologie ein. Mit deren Hilfe ist es möglich, mehr als nur zwei Monitore gleichzeitig an einer Grafikkarte zu betreiben. Dies bietet nicht nur im Office-Bereich Vorteile, sondern funktioniert genauso gut in Spielen und gibt dem Kunden ein deutlich intensiveres Spielerlebnis. Es war nur eine Frage der Zeit, bis Nvidia mit einer Konkurrenztechnologie kontert.

Und so führen die Kalifornier mit dem GF100 3D Vision Surround ein, das noch einen drauf setzt soll. Denn so wird es mit dem GF100 nicht nur möglich sein, drei Bildschirme zu betreiben und darauf zu spielen. Gleichzeitig kann zusätzlich die 3D-Brille 3D Vision (falls vorhanden) angeschaltet werden und die Spiele laufen dann in Stereoscopic 3D. Doch hat 3D Vision Surround auch einen Nachteil gegenüber Eyefinity: Während bei der ATi-Umsetzung eine Grafikkarte ausreicht, müssen es bei Nvidia mindestens zwei 3D-Beschleuniger sein. Das gilt auch, wenn 3D abgeschaltet wird. Wir vermuten, dass dies mit einer zu geringen Anzahl an TMDS-Transmittern im GF100 begründet ist, da eine einzelne Karte nur zwei Monitore ansteuern kann. Mehr als drei Monitore scheinen zudem nicht gleichzeitig in Spielen zu funktionieren.

3D Vision Surround

Bei 3D Vision Surround inklusive 3D liegt die maximale Auflösung aller Displays bei 1920x1200. Wird 3D abgeschaltet, erhöht sich diese auf 2560x1600. 3D Vision Surround unterstützt eine Bezel-Korrektur. Diese sorgt dafür, dass die Ränder der Monitore in das Spielgeschehen mit eingerechnet werden, um so ein realistischeres Spielgefühl zu geben. Ohne Bezel würden die Ränder ignoriert und damit würde das Bild am zweiten Monitor direkt dort wieder anfangen, wo es am ersten aufgehört hat.

25 Jahre ComputerBase!
Im Podcast erinnern sich Frank, Steffen und Jan daran, wie im Jahr 1999 alles begann.