Für viele wird es sicher wieder einmal zu schnell gegangen sein, schließlich haben sich wohl eine nicht zu verachtende Zahl von Käufern noch in den letzten Wochen eine Grafikkarte der GeForce 6800- oder Radeon X850-Serie zugelegt, in dem Glauben, sie würden ein absolutes High-End-Produkt erstehen. Bis gestern waren diese Karten sicher auch noch das schnellste, was sich zur Zeit auf unserem kleinen grün-blauen Planeten befindet. Bis gestern, denn am heutigen Tage stellt nVidia die neueste Generation der hauseigenen Grafikkarten vor, die auf den Namen „GeForce 7800 GTX“ hört.
nVidia verspricht für diese neue Grafikkarte einiges. So konnte man bereits im Vorfeld des heutigen Launches vernehmen, dass man sich für die siebte Generation der GeForce-Karten so einiges vorgenommen hat. Und so verspricht man nicht nur mehr Leistung, nein, man kümmert sich auch um vermeintliche Sekundärbelange wie zum Beispiel einen adäquaten Stromverbrauch und eine gemäßigte Lautstärke der Grafikkarte auch unter Volllast.
Nun ist sie da, die GeForce 7800 GTX. In dieser Grafikkarte arbeitet nVidias neueste Errungenschaft, der G70-Chip, über den im Vorfeld viele Gerüchte verbreitet worden sind. Was wirklich hinter und in diesem steckt, wollen wir nun in diesem Artikel klären. Gleichfalls wollen wir ein brandneues Testsystem einweihen. Dieses basiert auf einem Athlon 64 4000+ und einem nForce 4 SLI-Mainboard von Gigabyte. Mehr dazu aber unter dem dazugehörigen Artikelabschnitt. Also, lasset die Spiele beginnen. Wir sind gespannt.
| Radeon X800 XT PE | Radeon X850 XT PE | GeForce 7800 GTX | GeForce 6800 GT | GeForce 6800 Ultra | |
| Logo |
|
|
|
|
|
| Chip | R420/423 | R480 | G70 | NV40/45 | NV40/45 |
| Transistoren | ca. 160 Mio. | ca. 160 Mio. | ca. 303 Mio. | ca. 222 Mio. | ca. 222 Mio. |
| Fertigung | 0,13 µm low-k | 0,13 µm low-k | 0,11 µm | 0,13 µm | 0,13 µm |
| Taktung (MHz) | 520 | 540 | 430 | 350 | 400 |
| Renderpipes | 16 | 16 | 24 | 16 | 16 |
| ROPs | 16 | 16 | 16 | 16 | 16 |
| Pixelfüllrate | 8320 MPix/s | 8640 MPix/s | 6880 MPix/s | 5600 MPix/s | 6400 MPix/s |
| TMUs je Pipe | 1 | 1 | 1 | 1 | 1 |
| Texelfüllrate | 8320 MTex/s | 8640 MTex/s | 10320 MTex/s | 5600 MTex/s | 6400 MTex/s |
| Vertexeinheit | VS 2.0 | VS 2.0 | VS 3.0 | VS 3.0 | VS 3.0 |
| Vertexpipes | 6 | 6 | 8 | 6 | 6 |
| Interface | PEG x16/AGP | PEG x16/AGP | PEG x16 | PEG x 16/AGP | PEG x16/AGP |
| SLI-Modus* | nein | nein | ja | ja | ja |
| Texturen pro Pass | 16 | 16 | 24 | 16 | 16 |
| Pixelshader | PS 2.b | PS 2.b | PS 3.0 | PS 3.0 | PS 3.0 |
| Speicher (MB) | 256 GDDR3 | 256 GDDR3 | 256 GDDR3 | 256 GDDR3 | 256 GDDR3 |
| Anbindung | 256 Bit | 256 Bit | 256 Bit | 256 Bit | 256 Bit |
| Speichertakt (MHz) | 560 | 590 | 600 | 500 | 550 |
| Bandbreite (MB/s) | 35840 | 37760 | 38400 | 32000 | 35200 |
| RAMDAC | 2x400 MHz | 2x400 MHz | 2x400 MHz | 2x400 MHz | 2x400 MHz |
| Präz. pro Kanal | 24Bit (FP24) | 24Bit (FP24) | 32Bit (FP32) | 32Bit (FP32) | 32Bit (FP32) |
| *Der SLI-Modus setzt ein PCI-Express-Interface voraus | |||||
Vertexshader:
Allfällig ist natürlich für eine neue Generation auch wieder die Steigerung der Vertexleistung geworden, die kaum ein Spiel auch nur ansatzweise auszureizen im Stande ist. Vielmehr dienen die Verbesserungen in dieser Region der GPU dem professionellen Markt der OpenGL-CAD/CAM/CAE-Beschleuniger, sowie natürlich dem 3DMark, welcher sich dank horrend-unrealistischer Polygonzahlen über jedes Bißchen Vertexeinheit freut.
Zu allererst ist natürlich für die Leistungssteigerung die von sechs auf acht gestiegene Anzahl der Vertexshader und der leicht erhöhte Takt der GPU zu nennen, wie unsere tabellarische Übersicht auf der vorhergehenden Seite zeigt.
Neben der Takt- und Parallelitätssteigerung, die allein schon für rund 43 Prozent der theoretisch vorhandenen Mehrleistung verantwortlich sein dürften, hat man bei nVidia auch die Leistung des dem Vertexshader nachgeschalteten Triangle-Setups und speziell des festverdrahteten Culling-Teils nach eigenen Angaben um 30 Prozent verbessert*. Dies ist wohl nötig gewesen, da nVidias Early-Z-Lösung nicht direkt an die Anzahl der Pixelpipelines gebunden ist, so dass, wenn man, wie hier geschehen, mehr Shaderpipelines hinzunimmt, nicht gleichzeitig die Anzahl verwerfbarer Pixel steigt. Zugespitzt würde dies irgendwann den Vorteil des Early-Z negieren, mehr Pixel auf einmal verwerfen zu können, als anderweitig zu bearbeiten. Ferner ist nun - auch hier müssen wir noch auf weitere Erklärungen seitens nVidia warten - in jedem der Vertexshader die Berechnung einer üblichen Vector4-Operation parallel mit einer Skalaroperation möglich. Im nV40 waren die Skalaroperationen noch auf wenige Spezialbefehle eingeschränkt, so dass nicht generell von einer 4+1-FP-ALU im Vertexshader gesprochen wurde.
Pixelshader:
„Ein schäbiges ADD!“, so könnte man böswillig und verkürzt die „bis zu doppelte Performance“ der Pixelshader-Pipelines pro Takt und Stück auch beschreiben. De facto wurde die Shader-Einheit 1, die die TMU ansteuert, schlicht und einfach um die Möglichkeit bereichert, einen zusätzlichen ADD-Befehl zum bereits vorhandenen MUL-Kommando auszuführen, so dass sich jetzt die Möglichkeit ergibt, dass beide Shader-Units eine MAD-Operation pro Takt ausführen können. Vorher war dies nur der Shader-Einheit 2 möglich, so dass sich der MAD-Durchsatz pro Takt und damit auch die Shader-Gesamtleistung verdoppelt - willkommen in der wunderbaren Welt des Marketing.
Ganz so drastisch ist die Realität natürlich nicht – die Verbindung eines MUL mit einem ADD (beide Befehle machen so ziemlich genau das, wonach sie klingen: Multiplizieren und Addieren) bzw. das daraus resultierende MAD(D) wird neben dem Normalmapping auch im Dot-Product für Specular-Mapping genutzt und somit in zwei der bereits häufig und großflächig eingesetzten Shadertechniken.
Mehr als durch dieses „zusätzliche ADD“, von nVidia nach eigenen Angaben aufgrund extensiver Recherchen, was verwendete Shaderoperationen in modernen Spielen für Beleuchtung und Normalmapping angeht, hinzugefügt, dürften sich die Shadereinheiten aber durch ihre schiere Anzahl und viele kleinere Verbesserungen im Detail verschnellert haben. Ein wenig pikant ist allerdings die Frage, warum man dieses „ADD“, wenn es doch so wichtig und richtig ist, erst aus der zweiten Shadereinheit des nV40 entfernte.
Ansonsten wurde die Geschwindigkeit der Pixelshader vornehmlich durch die höhere Parallelität, jetzt 24 4xSIMD-Kanäle, vormals nur 16, und durch im Anschluß beschrieben Änderungen an der Textureinheit erreicht – diese stellte bis zum nV45 unter Umständen noch einen Flaschenhals dar, der die Auslastung der Pipeline herunter drückte.
Texture-Engine:
Die TMU ist beinahe traditionell ein Problemkind in der CineFX-Engine. Nicht, dass sie nicht schnell und flexibel zu Werke gehen könnte. Nein, ihr Einsatz blockiert für die Dauer ihrer Latenz, die mit zunehmend anspruchsvollerem Texturfilter natürlich steigt, die zweite Shadereinheit und, sobald der interne Buffer voll ist, auch die erste. Somit wird bei hohen Graden an anisotroper Texturfilterung eine Pixelpipeline einen mehr oder minder großen Teil der Zeit einfach gar nichts tun, sondern einfach nur abwarten, bis die TMU ihr Ergebnis zurückliefert. Das wirklich problematische an dieser Geschichte ist, dass die Latenz der TMU um ein Vielfaches größer ist als die Zeit, die ein normal-aufwendiger 2.0-Shader zur Ausführung braucht – nicht einen oder zwei Takte mehr, sondern eher im Bereich dutzender, sinnloser Wartezyklen.
Diese überflüssige Warterei wollte man verständlicherweise reduzieren und so veränderte man die Texturcaches bzw. deren Anbindung so, dass nun auch größere Texturwerte als 32 Bit schneller bereitgestellt werden können. Dies könnte entweder durch eine Verbreiterung der Cacheanbindung oder einfach durch größere Caches geschehen sein. Für die GeForce 6-Serie gab nVidia auch den Hinweis an Developer, Floating-Point Texturen mit vier Kanälen (RGBA) lieber in zwei separate Zweikanal-Texturen (RG & BA) aufzuteilen, woraus man bis zu 30 Prozent zusätzliche Performance gewinnen könne.
Transparency-AA:
Ein großes Problem des Multisampling waren und sind so genannte Alpha-Test-Texturen. Diese werden genutzt, um durchsichtige Löcher in Texturen darzustellen, ohne dass man das entsprechende Objekt aufwendig mit Geometrie modellieren muss. Aktuell sind die Maschendrahtzäune in Half-Life² so ein Beispiel. Dadurch, dass die Löcher quasi Bestandteil einer Textur sind und eben nicht mit Geometrie erreicht werden, wirkt hier Multisampling einfach nicht und sobald die extrem dünnen Maschendräht virtuell kleiner sind als ein Pixel, beginnen sie auf- und wieder wegzupoppen.
Transparency-AA kann einerseits schon länger Supersampling für Alpha-Test-Texturen aktivieren, ein altes Verfahren, welches vor dem heute üblichen Multisampling bereits von GeForce 2 und VSA-100 genutzt wurde, aber damals auf das komplette Bild angewandt wurde und entsprechend Leistung verschlang. Andererseits, und das ist neu, kann der G70 dieses ressourcenverschlingende Supersampling für entsprechende Texturen aktivieren oder auf mit Pixelshadern berechnete Oberflächen, die wirklich durchsichtige Flächen enthalten, selektiv begrenzen, und so einiges an Leistung sparen – etwas langsamer als aktuelles Multisampling ist es jedoch.
Zusätzlich gibt es noch eine schnellere Multisampling-Variante des Transparency-AA, welche ein sehr ähnliches Verfahren nutzt, aber noch etwas schneller zu Werke geht. Genauere Details wollte nVidia hierüber nicht verraten, es scheint aber, als würde hierbei eine Art Verteilung der Samples auf die durchsichtig und die dahinter liegende Fläche vorgenommen. Intelligenterweise scheint es sich bei dem Raster, welches für Transparency-AA verwendet wird, nicht um das ineffektive Ordered-Grid zu handeln. Über den Treiber hat man die freie Auswahl zwischen beiden Modi.
PureVideo
Wie unser Test zeigt, verfügt auch der G70 über einen funktionsfähigen Videoprozessor. Dieser ist im Gegensatz zu früheren Varianten nun in drei eigene Einheiten für verschiedene Kompressionsverfahren und -bearbeitungsstufen, sowie für verschiedene Post-Processing-Effekte und De-Interlacing-Verfahren aufgeteilt. Neben dem bisher bereits möglichen 3:2-Pulldown wird nun auch das für PAL-verwöhnte Europäer unter Umständen nicht unwichtige 2:2-Pulldown-Verfahren angeboten (dies allerdings erst in einem spätern Treiber. Woher kommt uns das nur bekannt vor?). Ebenfalls soll der G70 fortschrittliche Kompressionsformate wie H.264 unterstützen (auch dies wiederum nur unter Verwendung spezieller Software wie bsw. den kostenpflichtigen nV-DVD-Dekoder) und dank seiner Programmierbarkeit auch für zukünftige Entwicklungen gerüstet sein.
HDR / MSAA:
Noch eine kleine Anmerkung am Rande. Bisher war es in Spielen wie Far Cry oder Splinter Cell Chaos Theory nicht möglich, „High Dynamic Range Rendering“ (HDR, vier Kanäle mit FP16-Genauigkeit) zusammen mit Multi-Sampling zu verwenden. Wie wir uns bei nVidia auf dem Launch-Event in Paris persönlich überzeugen konnten, werden in beiden Launch-Demos definitiv geglättete Kanten zu sehen sein – und laut Aussage von nVidia verwenden beide Demos, „Mad Mod Mike“ und „Luna“ (übrigens ein Anagramm von „Nalu“ von vor einem Jahr), HDR-Rendering.
Auf Nachfrage konnte uns nVidia bestätigen, dass die angenommene Unverträglichkeit von MSAA und HDR nur für, so wörtlich, herkömmliche Verfahren gelte. Man habe aber einen Weg gefunden, diese Beschränkung zu umgehen und diverse Developer davon unterrichtet. So dürfen wir uns in Zukunft hoffentlich auf glatte Kanten in allen Lebenslagen freuen!
Update:
* die „eigenen Angaben“ nVidias beziehen sich auf das Triangle-Setup, nicht auf den Culling-Teil.
Bereits auf den ersten Blick wird deutlich, dass sich gegenüber einer GeForce 6800 Ultra oder 6800 GT verhältnismäßig viel am Design der Karte getan hat. In erster Linie fällt auf, dass das PCB nochmals ein ganzes Stück länger geworden ist. Dieses bringt es nun auf stolze 23 cm, was der Länge einer 6800 Ultra mit 512 MB Speicher entspricht. Gegenüber einer normalen Ultra ist dies übrigens eine Steigerung von einem Zentimeter. Ein Zentimeter, der sich schnell als Knackpunkt herausstellen könnte, denn bei unserem Testmainboard wurde so schon ein S-ATA-2-Stecker blockiert.
Ebenfalls ähnlich wie bei der GeForce 6800 Ultra mit 512 MB wurde die Stromversorgung gestaltet, die um einiges massiver als auf einer normalen Ultra-Karte daherkommt. Ebenfalls mit von der Partie sind – wie es sich für eine gute High-End-Karte gehört – zwei DVI-Ausgänge und ein SLI-Anschluss, von dem wir später in unseren Benchmarks auch Gebrauch machen werden.
Der von nVidia neu entwickelte Kühler basiert vollends auf Aluminium und hat keine Kupferplatte als Basis, wie es noch bei manchen Modellen der GeForce 6800 Ultra der Fall war. Die Wärme wird an eine Vielzahl Aluminiumkühlrippen weitergegeben, die von einem Radiallüfter mit ausreichend Frischluft versorgt werden. Beim Speicher setzt nVidia beim Referenzmodell auf GDDR3-Chips aus dem Hause Samsung mit einer minimalen Zugriffszeit von 1,6 ns. Dies entspricht genau den vom Bios veranschlagten 600 MHz. Dass diese aber auch ein paar MHz mehr vertragen, zeigen Messungen, die wir später noch genauer kommentieren werden. Für ausreichende Video-In-Fähigkeiten sorgt ein extra Chip von Philips.
Neu ist übrigens auch der Lüfteranschluss, der nun nicht mehr nur drei Adern besitzt. Die vierte wird von nVidia für eine dynamische Lüftersteuerung genutzt, die insgesamt zehn Stufen haben soll. Diese sorgt dafür, dass die Karte auch unter Volllast stets angenehm leise bleibt und kaum sauer aufstoßen sollte.
Testsystem:
Neues Testsystem, neue Benchmarks:
Alle von uns genutzten Benchmarks kommen natürlich in der aktuellsten Version (Stand 17. Juni 2005) zum Einsatz.
Da sich unser Testsystem in diesen Tagen quasi noch im Aufbau befindet, würden wir uns freuen, wenn uns Vorschläge für weitere Benchmarks unterbreitet werden. Diese können gerne in den Kommentaren zu diesem Artikel preisgegeben werden. Wir werden versuchen – soweit es unsere Zeit ermöglicht – auf möglichst viele Vorschläge einzugehen.
Bei der Äußerung von weiteren, gewünschten Benchmarks bitten wir jedoch darum, diese entsprechend einer guten Möglichkeit zur Durchführung von Geschwindigkeitsmessungen zu selektieren. Benchmarks, die mit Fraps durchgeführt werden müssen, nagen naturgemäß mehr an den Nerven des Redakteurs und sind zudem ungenauer als fixe Timedemos, die immer denselben Ablauf zum Gegenstand haben.
Zu den Features der neu entwickelten Engine, auf der 3DMark05 basiert, gehört unter anderem auch die Unterstützung des Shader-Model 2.b und 3.0 aktueller ATi- und nVidia-Karten. Lief 3DMark03 auch noch auf älteren Grafikkarten, ist für die Nutzung des neuesten Teils eine Grafikkarte mit DirectX-9.0-Fähigkeiten essentiell.
3DMark 05
Angaben in Punkten
|
Hart umstritten, aber dennoch interessiert sich das Gros unser Leser immer noch primär für 3DMark03 aus dem Hause FutureMark. Trotz seines Alters wird er immer noch gerne als Anhaltspunkt für die Leistungsfähigkeit von aktuellen Grafikkarten genutzt.
3DMark 03
Angaben in Punkten
|
Zwar basiert das Spiel auf der vermeintlich unterlegen geglaubten OpenGL-API, kann aber durch exzessiven Gebrauch von hochauflösenden Texturen und Bumpmapping grafisch mehr als überzeugen. Alle unsere Messungen wurden im „High Quality“-Modus vollzogen, der automatisch achtfache anisotrope Filterung aktiviert.
Doom 3
Angaben in Bildern pro Sekunde (FPS)
|
Doom 3
Angaben in Bildern pro Sekunde (FPS)
|
Doom 3
Angaben in Bildern pro Sekunde (FPS)
|
Es gehört zu den grafisch eindrucksvollsten Titeln am Markt und macht z.B. Doom 3 harte Konkurrenz. Die Cry-Engine ist die dritte im Bunde der Top-Grafik-Engines aus dem Jahr 2004, die bisher kaum an Aktualität verloren haben.
Far Cry
Angaben in Bildern pro Sekunde (FPS)
|
Far Cry
Angaben in Bildern pro Sekunde (FPS)
|
Far Cry
Angaben in Bildern pro Sekunde (FPS)
|
Neben Doom3 und FarCry war Half-Life2 wohl das Spiel des Jahres 2004 mit der aufwändigsten Grafikengine. Riesige, mit prachtvollen Effekten versehene Außen- und Innenlevel belasten Grafikkarten dank der Source-Engine.
Half-Life 2
Angaben in Bildern pro Sekunde (FPS)
|
Half-Life 2
Angaben in Bildern pro Sekunde (FPS)
|
Half-Life 2
Angaben in Bildern pro Sekunde (FPS)
|
Ein weiteres grafisch aufwändiges Spiel des Jahres 2004, das mit Bumpmapping, exzellenten Texturen und Shadern für düstere Stimmung sorgt. Viele Lichteffekte sorgen für rechenintensive Schattenwürfe.
The Chronicles of Riddick
Angaben in Bildern pro Sekunde (FPS)
|
The Chronicles of Riddick
Angaben in Bildern pro Sekunde (FPS)
|
The Chronicles of Riddick
Angaben in Bildern pro Sekunde (FPS)
|
Mit reichlich Polygonen wird die Grafikkarte zur Arbeit bewegt, dazu kommen viele Shader-Effekte in detaillierten Spiele-Leveln. Das aus Polen stammende Spiel stammt ebenfalls aus dem Jahr 2004.
Painkiller – Battle out of Hell
|