Einleitung
Am heutigen Mittwoch, den 14.4.2004, um Punkt 15:00 Uhr fiel der Startschuss für die offiziell erlaubte Berichterstattung über den NV40. Das weltweite Web wird überschwemmt mit vorgeblichen Fakten über den NV40, die sicher auch alle zutreffen - wenn man denn bereit ist, bestimmte Auslegungen als Faktum zu akzeptieren. Willkommen in der wunderbaren Welt des Marketings. Denn eines ist sicher: Nur die wenigsten hatten die Gelegenheit, die Vorabinformationen, die es von nVidia unter strengem NDA (Non-Disclosure Agreement) gab, am lebenden Objekt nachzuvollziehen. Um Verwirrungen vorzubeugen: Das trifft auch auf ComputerBase [1] zu.
Viel ist im Vorfeld spekuliert worden über den NV40. Nach ähnlichen Spekulationen und vollmundigen Ankündigungen beim NV30 vor gut einem Jahr ist das auch wenig verwunderlich, denn seit dieser Zeit ist nVidia in Zugzwang, was die DirectX9-Generation von Grafikkarten betrifft und konnte zu den Produkten von ATi nur durch Tricks in der Software aufschließen, die bei ATi teils in Hardware gegossen wurden.
Dazu kam die Auslegung der NV3x-Serie auf ein DirectX 9, welches es in der Form, die man beim Point-of-no-Return des NV3x-Designs noch als gesichert annahm, niemals gab. Ein DirectX 9 mit der grundsätzlichen Minimalanforderung des FP16-Formates und der Option, FX12, ein Integer-Format, als Partial-Precision auf spezielle Anweisung hin einsetzen zu können. Bekanntlich kam alles anders und DirectX 9 erhielt „per default“ als Datenformat das von ATi unterstützte FP24, mit der Option, Partial-Precision als FP16-Format anzufordern. FX12 - und damit etwa die halbe Rechenkraft des NV30 - lag bei 2.0-Shader völlig brach.
Dies änderte sich, als nVidia in Anbetracht der Kräfteverhältnisse zwischen ATi Radeon 9700 Pro und GeForce FX5800 Ultra kurzfristig reagierte, ja reagieren musste, und mit dem NV35 einen gestärkten DirectX 9-Chip brachte, allerdings weniger als erhofft. Nun ist er da, der viel erwartete NV40, der ursprünglich wohl bereits zur CeBIT 2004 präsentiert werden sollte, dort aber nur großen Distributoren und OEMs gezeigt wurde. Um auch namentlich eine Zäsur zu setzen, beruft sich nVidia ab sofort wieder auf die „GeForce Series“, in diesem Fall die 6. Generation. Das „FX“ zollt dem weniger erfolgreichen NV3x Tribut und entfällt.


Die Karte
Bevor wir uns in einem umfangreichen Abschnitt der überarbeiteten Architektur des NV40 widmen, wollen wir einen Blick auf die Hardware werfen - sofern uns dieser in Ermangelung einer eigenen Karte vergönnt ist. nVidia selber bietet der Presse bisher nur Bilder der 6800 Ultra an - von der kleineren Non-Ultra sind aktuell nicht einmal die Taktraten durchgesickert. Die verfügbaren Bilder zeigen das Referenzmodell mit zwei DVI-Ausgängen, wie sie bis dato nur bei wenigen Karten (beispielsweise Gainward) anzutreffen waren. Ausgesprochen aufgeräumt präsentiert sich die Stromversorgung - nur wenige Kondensatoren sind auf der Karte beherbergt. Dafür verfügt auch das Referenzmodell über zwei 5,25"-Stromanschlüsse, die laut technischen Dokumenten durch ein mindestens 480 Watt starkes Netzteil versorgt werden müssen. Die Volari V8 Duo hielt hier mit zwei Anschlüssen und 400 Watt bisher die Spitze. Sicherlich beachtet werden muss, dass es sich bei solchen Angaben immer um Werte für das "worst case scenario" handelt. D.h. Rechner mit maximaler Ausstattung. In handelsüblichen Otto-Normal-PCs wird mit Sicherheit auch ein schwächeres Netzteil genügen. Der Trend ist dennoch klar ersichtlich - leider.



Mehr als interessant erscheint der Kühler der 6800 Ultra, ist dieser mit einem Ein-Slot-Design doch eine deutliche Verbesserung gegenüber älteren Vertretern, die neben einer bestialischen Lautstärke auch gleich zwei Slots für sich in Anspruch nahmen - Stichwort „FX-Flow“. nVidia will eigenen Angaben zufolge die Temperatur gegenüber dem Vorgänger auf der Rückseite um 10 °C gesenkt haben, was die praktisch nicht vorhandene Kühlung (es ist wohl eher eine Arretierung) der Rückseite des Chips erklären würde. Misstrauisch stimmen uns jedoch Aufnahmen, die wir selber zur CeBIT 2004 schossen und bisher unter Verschluss gehalten hatten. Der dort gezeigte Referenzkühler geht deutlich über das Slotblech hinaus und ist - soweit wir in Erfahrung bringen konnten - auch auf den wenigen NV40-Samples verbaut, die im Umlauf sind. Die von nVidia veröffentlichten Fotos entsprechen demnach definitiv nicht den aktuell fertigen Karten!



Beiden Kühlungen gemein ist allerdings das selbe Grundkonzept, das einen Radiallüfter sowie mittels Heatpipe gekühlte Speicherbausteine vorsieht. Der Vorteil des Radiallüfters ist, dass bei gleicher Bauhöhe der Kühlkörper des Grafikchips wesentlich größer ausfallen kann, da er von der Seite mit Frischluft durchströmt und nicht von oben befächert werden muss. Da es mit an Sicherheit grenzender Wahrscheinlichkeit auch in Zukunft keine Karten „Made by nVidia“ geben wird, dürfte sich an der Kühlung wohl auch nichts mehr ändern - die Aufgabe ging an die Grafikkartenhersteller über. So bleibt der bittere Beigeschmack, dass die gezeigten Bilder in Sachen Kühlung definitiv ein geschöntes Bild aufzeigen. Ein erster Entwurf aus dem Hause Sparkle zeigt somit erneut ein Zwei-Slot-Design. Bilder anderer Hersteller? Weitestgehend Fehlanzeige. Und so hört man allerorts, dass die Massenproduktion wohl erst gegen Anfang Juni so langsam in Gang kommen wird.
Wer an dieser Stelle ein PCI-Express-Interface oder zumindest nVidias PCI-Express-Bridge erwartet hat, wird eines Besseren belehrt. Der NV40-Chip besitzt ein reinrassiges AGP-Interface, das allerdings, sollten Boards mit PCI-Express-Slot Mitte des Jahres auf den Markt kommen, durch die Bridge kompatibel gemacht werden kann. Die Anbindung zwischen Bridge und Grafikchip erfolgt dann Informationen zufolge über ein übertaktetes AGP 16x-Interface.
Der Chip
Der NV30, oder mit dem Produktnamen ausgedrückt die GeForce FX 5800 Ultra, welcher am 18. November 2002 [2] weltweit angekündigt wurde, musste sehr lange auf seine Markteinführung warten und der von nVidia gewählte 0,13 µm Fertigungsprozess war daran nicht ganz unschuldig. So hatte TSMC (Taiwan Semiconductor Manufacturing Company), bis dahin nVidias Haus und Hofschmiede wenn es darum ging, die Grafikchips auch auf Silizium zu bannen, zu Beginn seine liebe Mühe mit diesen feinen Strukturen - die Ausbeute an Chips, die mit dem vorgesehen Takt von 500 MHz (für das Ultra-Modell) betrieben werden konnten, war zu gering. So konnte der NV30 zwar bereits im November angekündigt werden, erste verlässliche Testergebnisse entsprechender Karten gab es jedoch erst Ende Januar [3] zu bestaunen, erste Produktankündigungen seitens der Hersteller folgten kurz darauf. Ende Februar 2003 verkündete [4] Terratec als erster Hersteller die europaweite Auslieferung erster GeForce FX 5800 Ultra Grafikkarten; wirklich verfügbar waren sie aber auch dann nicht. Diese unheimliche Verzögerung kann man natürlich nicht nur den Fertigungsproblemen zuschreiben, doch auch diese hatten ihren gehörigen Anteil daran.
Am 12. Mai wurde übrigens von nVidia mit dem NV35, Produktname GeForce FX 5900 Ultra, bereits der Nachfolger präsentiert, um dessen Verfügbarkeit es auch deutlich besser bestellt war [5]. Dieser wurde zwar auch im 0,13 µm Fertigungsprozess hergestellt, allerdings, und das passt an dieser Stelle voll ins Bild, hat sich die Grafikchipschmiede bereits Ende März [6] dazu entschieden, einen Teil seiner 0,13 µm-Produktion in die fähigen Hände von IBM zu legen - mit Erfolg.
Auch der am heutigen Tage präsentierte Grafikchip wird mit seinen 222 Mio. Transistoren mit 0,13 µm feinen Strukturen bei IBM auf 300-Millimeter Wafer produziert.
Beim bloßen Abzählen der vollständigen Grafikchips lassen sich aus einem solchen 300 mm im allerbesten Fall aufgerundet 200 Chips verwerten - alles in allem nicht übermäßig viel. Die Ausbeute tut ihr Übrigens; doch wie hoch diese ist, bleibt wohl vorerst noch ein Geheimnis. Fakt ist jedoch, dass die 0,13 µm-Fertigungstechnologie inzwischen aus ihren Kinderschuhen entwachsen ist und IBM im Bereich der Prozessoren z.B. den von Apple eingesetzten PowerPC 970FX bereits mit 90 nm in den eigenen Reinsträumen fertigen kann, so dass die Ausbeute (Yield) auf sehr hohem Niveau angesiedelt sein dürfte.
Betrachtet man einen Chip auf diesem Wafer im Detail, so ergibt sich in etwa folgendes Bild. Eine klare Gliederung in bestimmte Bereiche ist natürlich vorhanden, diese ist aber aufgrund der Einfärbung nur schwer erkennbar.
Ausgeschnitten und mit einem Gehäuse versehen, stellt sich der NV40 bereits viel vertrauter und weniger abstrakt dar:


Im Vergleich zu den bisherigen Grafikprozessoren stellt der neue in der Anzahl der Transistoren und der Chipgröße alles bisher Vertraute in den Schatten. Auch klassische Prozessoren haben diesem nichts entgegen zu setzen. Mit seinen 125 Mio. Transistoren wirkt der Pentium 4 3,4E GHz (Prescott) dagegen schon mickrig und selbst der Pentium 4 Extreme Edition 3,4 GHz (Gallatin bzw. Northwood 2M) ist da mit seinen 169 Mio. Transistoren nicht wirklich eine vergleichbare Konkurrenz. Der AMD Athlon 64 ist mit seinen 105,9 Mio. Transistoren in etwa halb so komplex wie der NV40.
Auf den folgenden Seiten wollen wir tiefer in die Neuerungen der GeForce 6 Serie eintauchen und beginnen dabei mit einer kleinen Systematisierung.
Technische Daten
Der NV40 soll mit einem Rundumschlag nicht nur eine Steigerung gegenüber dem eigenen Vorgänger darstellen, sondern muss auch gegen den Next-Gen Chip von ATi bestehen, dem rund die doppelte Leistung der Radeon 9800 Pro nachgesagt wird.
| GeForce4 Ti4800 |
GeForce FX 5800 Ultra |
GeForce FX 5950 Ultra |
GeForce 6800 Ultra |
|
|---|---|---|---|---|
| Chip | NV28 | NV30 | NV38 | NV40 |
| Transistoren | ca. 63M | ca. 130M | ca. 135M | ca. 222M |
| Fertigung | 0,15 µm | 0,13 µm | 0,13 µm | 0,13 µm |
| Taktung (MHz) | 300 | 500 | 475 | 400 |
| Renderpipes | 4 | 4 (8)* | 4 (8)* | 16(32) |
| Pixelfüllrate | 1200MPix/s | 2000MPix/s | 1900MPix/s | 6400MPix/s |
| TMUs je Pipe | 2 | 2 | 2 | 1 |
| Texelfüllrate | 2400MTex/s | 4000MTex/s | 3800MTex/s | 6400MTex/s |
| Vertexeinheit | DX8 VS1.1 | DX9 VS 2.0+ | DX9 VS 2.0+ | DX9 VS3.0 |
| Vertexpipes | 2 | 3 (Array) | 3 (Array) | 6 |
| Dreiecksdurchsatz | ca. 136MV/s | ca. 375MV/s | ca. 356MV/s | ca. 600MV/s |
| Texturen pro Pass | 4 | 8 (16) | 8 (16) | 8 (16) |
| Pixelshader | PS1.3 | PS 2.0+ | PS 2.0+ | PS 3.0 |
| FP-Einheiten | - | 1 (Shadercore) | 2 (Shadercore + FPU) | 2 (Shader-Unit 1 & 2)** |
| Speicher (MB) | 128 DDR | 128 DDR-II | 256 DDR | 256+ GDDR3 |
| Anbindung | 128-bit DDR | 128-bit DDR | 256-bit DDR | 256-bit DDR |
| Speichertakt (MHz) | 325 | 500 | 475 | 550 |
| Bandbreite (MB/s) | 10400 | 16000 | 30400 | 35200 |
| SinglePass Texturop. | 4 | 16 (D3D) / 4 (oGL) | 16 (D3D) / 4 (oGL) | 16 (D3D) / ? (oGL) |
| FSAA/AF-Technik | AccuView | IntelliSample | IntelliSample HCT | IntelliSample 3.0 ° |
| RAMDAC | 2x400MHz | 2x400MHz | 2x400MHz | 2x400MHz |
| TV-Encoder | extern | integriert | integriert | integriert |
| Sonstiges | DVD MC | DVD MC/iDCT | DVD MC/iDCT | DVD MC/iDCT, MPEG2 En- / Decoder, MPEG4 En- / Decoder |
| Präz. pro Kanal | 9Bit (FX9) | 32Bit (FP32) | 32Bit (FP32) | 32Bit (FP32) |
| * nVidias High-End GPU unterstützen seit dem NV30 ein Verfahren, bei dem in den ROPs am Ende der Pipeline jeweils zwei, anstatt der üblichen einen Z-/Stencilwerte verarbeitet werden können. Solange Pixel also ohne Farbwert auskommen und auch nicht texturiert sind (Stencilschatten und reine Z-Writes) bekommt man zwei Pixel pro Takt durch eine physikalische Pixelpipeline. | ||||
| ° Hierbei handelt es sich um Marketingbezeichnungen für Multisampling-FSAA. Bei nVidia kommt beim FSAA bis 2x ein gedrehtes Raster zum Einsatz, 4xAA ist wird bis einschließlich NV38 mit geordnetem und daher ineffizientem Raster durchgeführt, der NV40 verwendet auch bei 4xMSAA ein gedrehtes Raster. Das AF von nVidia ist nur sehr gering winkelabhängig und auch im NV40 wird es einen Schalter für maximale AF-Qualität bis 16xAF geben. HCT steht für verlustarme Komprimierung des gesamten Contents. | ||||
| ** Wenn die vorliegenden Informationen korrekt sind, besitzt der NV40 zwei FP-Einheiten in jeder seiner 16 Pipelines. Allerdings scheint es ebenso vielfältige Möglichkeiten wie Einschränkungen zu geben, um diese gemeinsam zu nutzen. Nur die wenigsten der komplexeren Shader-Instruktionen können auf beiden wirklich parallel und ohne irgendwelche Abhängigkeiten laufen. Für detailliertere Informationen zur CineFX-Architektur der GeForceFX bietet 3DCenter.de einen passenden Artikel [7] an. | ||||
nVidia hat mit dem Design des NV40 anscheinend nicht gekleckert, sondern geklotzt. Vielleicht, weil man sich nach dem Rückstand im letzten Jahr in Zugzwang sah, vielleicht aber auch, weil man von ATis Next-Gen Chip, dem nach derzeitigen Informationen für Ende April angesetzten R420, viel erwartete. Es sei an dieser Stelle noch einmal ausdrücklich erwähnt, dass die Taktraten des normalen GeForce 6800 aktuell noch nicht feststehen. Ganz offensichtlich möchte der Grafikriese aus dem sonnigen Kalifornien hier der Konkurrenz aus Kanada den Vortritt lassen, so dass man gegebenfalls auf überraschende Ergebnisse des R420 und dessen Varianten reagieren kann.
Zusammengefasst lässt sich die 3D-Pipeline des NV40 in einer recht simplen Grafik zusammenfassen. Von den sechs Blöcken der ersten Reihe verköpert jeder einzelne eine Vertex Shader Pipeline. In der Mitte finden sich die insgesamt sechzehn Pixelshader und in der letzten Reihe finden wir die Raster Operators Pixel Pipeline.
Auf den nächsten Seiten wollen wir versuchen einige der durchaus eindrucksvollen Zahlen mit ein wenig Hintergrund zu füllen, wo uns dies ohne Betrachtungen am konkreten Objekt möglich ist.
Renderarchitektur, Teil 1
Zuvorderst in der 3D-Pipelines sitzen die Vertexshader. Hier war schon das so genannte Vertex-Array, welches inoffiziellen Angaben zufolge aus drei separaten Vertexeinheiten bestehen soll, des NV3x hinsichtlich seiner Programmierbarkeit sehr mächtig und nicht viel fehlte zu einem Shader-Model 3.0 Vertex-Shader.
Dies hat nVidia nun nachgerüstet und so kann der NV40 sich voller Kompatibilität mit dem 3.0-Shader Model rühmen.
| NV30/5/6/8 | NV40 | |
|---|---|---|
| Anzahl Vertexeinheiten | 3 (Array) | 6 (2*Array) |
| Durchsatz pro Takt | 0,75 | 1,5 |
| Max. Instructions | 65535 | 65535 |
| Max. Static Instructions | 256 | >511 |
| Max Const. Instructions | 256 | >511 |
| Temporary Registers | 16 | 32 |
| Static Flow Control | Ja | Ja |
| Dynamic Flow Control | Ja | Ja |
| Geometry Instancing | Nein | Ja |
| Vertex Texture Fetch | Nein | Ja |
Die vormals noch geheimnisvoll als Array betitelte Vertexeinheit hat sich, dem Branching zuliebe, auf mysteriöse Weise in sechs Einheiten aufgeteilt und somit, was den Durchsatz anbelangt, im Direktvergleich zum NV30 verdoppelt. Man könnte nun entweder von dualen Arrays sprechen oder dem NV30 zubilligen, was schon lange gemutmaßt wurde: Drei Vertex-Einheiten.
Dahinter wird es erst wieder interessant, wenn wir uns dem Ende der Tabelle nähern. Hier kommen die schon von Matrox im Zusammenhang mit dem Parhelia erwähnten Displacement Maps [8] ins Spiel. Diese ermöglichen (oder werden vielmehr ermöglicht durch) die Fähigkeit der Vertex-Einheiten, nun auch Texturzugriffe, allerdings ohne die Möglichkeit, mehr als Point-Sampling, also ungefiltert, durchzuführen. Geometry Instancing, oder, wie das Feature auch heißt, Vertex Stream Divider, dienen hingegen dazu, Geometrie-Anweisungen z.B. in Strategiespielen auf viele verschiedene Einheiten leicht versetzt aufzuteilen, anstatt jede Einheit einzeln zu animieren.
Renderarchitektur, Teil 2
16 Pixelpipelines mit jeweils zwei FP-Shadereinheiten - das klingt zunächst einmal ziemlich eindrucksvoll. Doch schon der Vorgänger, der NV3x, wollte teils mit acht Pipelines auftrumpfen können. Im Gegensatz zur ersten DirectX9-Generation ist der NV40-Chip in der Lage, auch wirklich 16 Pixel pro Takt in den Framebuffer zu schreiben, sprich 16 dieser Shader-Einheiten arbeiten parallel nebeneinander.
Wie auf dem Diagramm zu sehen, gibt es neben den doppelten Shader-Einheiten noch ein weiteres Leckerli in der Pixelpipeline: Floating-Point Texture Filtering, doch dazu später im Abschnitt HDR mehr.
| NV30 | NV35/8 | NV40 | |
|---|---|---|---|
| Anzahl FP-Einheiten | 4 | 8 | 32 |
| Max. Instruction Slots | 512 | 512 | >511 |
| Max. Instructions | 512 | 512 | 65535 |
| Interpolated Reg. | 2+8 | 2+8 | 10 |
| Temporary Registers | 22 | 22 | 32 |
| Constant Registers | 32 | 32 | 224 |
| Dynamic Flow Control | Nein | Nein | Ja |
Auf den ersten Blick ist die Anzahl der FP-Einheiten im NV40 schlicht überwältigend. Hier ist allerdings ein wenig Vorsicht geboten, denn es ist nicht alles Gold, was glänzt - manchmal ist auch ein wenig unedleres Metall darunter gemischt. Bestanden die Floating-Point Einheiten beim NV30 noch ausschließlich aus dem Shadercore, der für alle FP-Operationen herhalten musste, wurde das Ganze beim NV35/8 etwas unübersichtlicher, denn die zweite FPU konnte nicht alle Operationen des Shadercore übernehmen. Dies ist im Übrigen auch ein Grund, warum man beispielsweise in nVidias FX Composer [9] auch mit CineFX I Chips eine deutlich höhere interne Auslastung erhält, als mit CineFX II - der Shader-Compiler im Treiber ist schlicht nicht in der Lage, das volle Potential der GPU nutzbar zu machen.
Der NV40 hat nun laut nVidia zwei recht indifferente FP-Shader-Einheiten pro Pipeline, wobei nur die Shader-Unit 1 in der Lage ist, neben ihrer Vektor4-Funktion auch ein TMU-Kommando abzugeben. Die zweite FPU ist hierzu nicht in der Lage. Die Fähigkeit, eine zweite TMU pro Takt anzusprechen, ist der Shader-Unit 1 im Vergleich zum nV30/5/8 genommen - angesichts nur einer TMU pro Pipeline kein großer Verlust.
Allem Anschein nach verbirgt sich hinter der Shader-Unit 1 der ehemalige Shader-Core, dem allerdings ein paar Möglichkeiten fehlen, die dafür der zweiten FPU zugeteilt wurden. Neu ist hingegen, dass das Splitting der Vektor4-Einheit nun sehr flexibel gelöst wurde. nVidia nennt dies "dual-issue" und "co-issue". Die beiden Shader-Units mit zusammen zwei Vektor4-Möglichkeiten lassen sich nun nicht nur in Vektor3 und Skalar-Operation aufteilen, sondern auch 2:2 in Vektor2-Operationen und beispielsweise eine Texturoperation. Darin liegt auch ein Grund, warum wir in unserer Tabelle auf die Angabe von Shader-Leistungswerten verzichteten. Der andere Grund ist, dass die möglichen Werte noch nicht gesichert erscheinen. Theoretisch kann der NV40 durch Kombination von Co-Issue und Dual-Issue von zwei Vektor4-Operationen über zwei Vektor3 plus zwei Skalar-Operationen bis hin zu vier Vektor2-Operationen durchführen. Daraus ergibt sich zwar eine große Flexibilität, aber gleichzeitig lässt sich diese Leistung kaum noch in einer Tabelle übersichtlich darstellen.
Wie hier zu sehen ist, befindet sich in jeder der sechzehn verbauten ROP-Pipelines neben der Color-Compare-Einheit nochmals eine separate Z-Compare Einheit. Der Tatsache, dass diese Color-Compare Einheit ohne Textureinsatz parallel als zweite Z-/Stencileinheit fungieren kann, verdankt der NV40 (und auch schon NV30, 35 und 38) seine - gegenüber der Pixelfüllrate - verdoppelte Z-/Stencilleistung. Außerdem hat man die ROP, Raster Operators, am NV40 an die neue Situation angepasst.
Wie auf diesem Bild zu sehen ist (GeForce3 - FX unten, Radeon 9700 Pro oben), haben die ROPs bei nVidia teilweise Probleme mit Color-Banding bei gewissen Blending-Operationen gehabt, während ATi bei Alpha-Blending so ihre liebe Müh' und Not hatte. Zumindest das Problem bei nVidia sollte mit dem NV40 der Vergangenheit angehören.
Anti-Aliasing und anisotrope Texturfilterung
Anti-Aliasing, das Stiefkind nVidias, und in der Technik, zumindest im für Endkunden sichtbaren Teil, seit der GeForce 3 aus dem Jahre 2001 kaum verändert. Zumindest in Sachen Performance konnte man durch erhöhte Speicherbandbreite und allgemein stark gestiegene Rohleistung zwar zulegen. Aber wenn man sich einmal die Subpixel-Raster der GeForce3 bis GeForce FX [10] anschaut, so wird klar, dass eine deutliche Steigerung der Bildqualität von 2x MSAA auf 4xMSAA aufgrund des geordneten Rasters [11] bei letzterem kaum gegeben war.
Mit der GeForce 6800 ändert sich dies nun endlich.
Das Anti-Aliasing wurde immerhin bis zur 4-Sample Stufe verbessert, so dass hier nun auch ein gedrehtes Raster mit einer EER (Edge Equivalent Resolution) von 4x4 zum Einsatz kommt. Leider gibt es, ohne Testobjekt, keine Infos darüber, wie die Raster bei anderen Modi aussehen. Bei 2xFSAA ist davon auszugehen, dass sich das Raster nicht nennenswert geändert haben wird, da es schon nahezu das Optimum darstellte, was man aus zwei Samples herausholen konnte.
Höhere AA-Modi werden wie gehabt mit einem Supersampling-Anteil realisiert. Wirklich sinnvoll erscheint uns dies allerdings weiterhin nur in Kombination von entweder 2xRGMS mit 2xOGSS (der bekannte 4xS-Modus), der bei der zu erwartenden Leistung der GeForce 6800 auch nutzbar schnell sein dürfte und mit starken Einschränkungen wiederum 4xOGSS mit 2xRGMS, der bekannte 8xS-Modus, der trotz aller Leistungssteigerung wohl eher für ältere oder anspruchslosere Spiele herhalten dürfte.
Die Gamma-Adjustierung auf einen Wert von 2.2, der bei ATi fest voreingestellt ist und bei passendem Anzeigegerät sehr gute Resultate liefern kann, wird es bei nVidia auch weiterhin nicht geben. Dort ist man der Meinung, dass die Verfälschungen, die diese Korrektur bei Monitoren oder TFTs mit einem anderen Gamma-Wert als 2.2 bewirken kann, die Vorteile bei passendem Monitor mehr als aufwiegt. Schade, dass man sich nicht zu einer einstellbaren Gamma-Korrektur hat durchringen können, aber irgendwas muss der NV50 ja noch an Neuheiten bringen.
Über die anisotrope Filterung des NV40 ist bisher nicht viel Verlässliches bekannt. Fakt scheint jedoch neben der Tatsache, dass nun ein Anisotropie-Level von bis zu 16:1 geboten wird, zu sein, dass man wiederum einige Möglichkeiten hat, die Texturqualität zu beeinflussen.
Da wir uns in der Vergangenheit durchaus negativ über die unabänderliche Senkung der Texturqualität in den neueren Detonator- und ForceWare-Treibern beklagten, ist es nur fair, wenn wir dieses Mal lobend erwähnen, dass es endlich einen Schalter gibt, der die volle Qualität ermöglichen wird.
Zitat"High Quality" mode ist designed to give discriminating users images that do not take advantage of the programmable nature of the texture filtering hardware, and is overkill for everyday gaming. Image quality will be virtually indistingushable form "Quality" mode, however overall performance will be reduced. Most competitive solutions do not allow this level of control. Quantitative image quality analysis demonstrates that the NVIDIA "Quality" setting produces superior image fidelity to competitive solutions therfore "High Quality" mode is not recommended for benchmarking
Wenn dieser Schalter seinen Dienst wie versprochen verrichtet, wird es ein heißes Rennen um die beste Bildqualität geben, denn auch wenn die Kategorie Texturfilterung wieder an nVidia gehen sollte, steht noch die Frage nach der Anti-Aliasing Qualität und der generellen Geschwindigkeit der Next-Gen Chips aus.
Ultra-Shadow II
Kommen wir nun zu einem Feature, welches in ähnlicher Form auch schon beim NV35 und NV38 hervorgehoben wurde: Ultra Shadow. Natürlich ließ es sich nVidia nicht nehmen, beim NV40 eine "2" hinter die Bezeichnung zu setzen. Wirklich neues bietet Ultra Shadow II im Vergleich zum selben Feature des NV35/8 jedoch nicht. Durch die vierfache Anzahl der Z-/Stencilpipelines gegenüber der Vorgängergeneration konnte man jedoch auch die Leistung von Ultra Shadow II vervierfachen.
Wie auf dem obigen Schaubild zu sehen, gibt Ultra Shadow II dem Programmierer, vorerst allerdings nur unter OpenGL, die Möglichkeit, eine maximale und minimale Grenze zu definieren, in der ein Schatten einer bestimmten Lichtquelle/Objekt-Kombination überhaupt nur möglich ist. Innerhalb dieser Grenzen werden die Lichteinwirkungen auf das Pixel auf herkömmliche Weise berechnet. Außerhalb dieser Grenzen jedoch kann der Chip alle Anweisungen ignorieren, die diese vorbestimmte Lichtquelle auf Schattierungen, die durch das zuvor festgelegte Objekt hervorgerufen werden können, hat. Das kann einiges an Stencilfüllrate sparen und so bei Applikationen, die darauf hin ausgelegt sind, die Leistung der Grafikkarte deutlich erhöhen. Die Fähigkeit, Pixelshaderprogramme vorzeitig abzubrechen, die mit dem Shader-Model 3.0 zur Pflicht wurde, kann hier ein Übriges tun, indem der Shader vorzeitig abgebrochen wird, sobald feststeht, dass sich der Farbwert des entsprechenden Pixels durch eine bestimmte Lichtquelle nicht mehr ändern wird.


Hier eine Szene aus Doom3, die nVidia in ihrer Pressemappe verteilte (nein, nur das Bild, kein Doom3). Links mit sichtbaren Schatten- und Lichtvolumen ohne Ultra Shadow, rechts mit Ultra Shadow. Deutlich zu sehen ist die wesentlich geringe Anzahl übereinanderliegender Licht- und Schattenkegel, ohne dass das endgültige Bild darunter leiden muss.
High-Definition Range-Rendering
High-Definition Range, Overbright-Lighting und Glow-Effekte waren schon seit Einführung von DirectX9 Ende 2002 eines der Themen, mit denen viel Wirbel erzeugt wurde.
Vereinfacht gesagt geht es darum, einen größeren Dynamikumfang bei der Helligkeitsdarstellung zu erreichen, so dass helles, in einen dunklen Raum einfallendes Licht beispielsweise nicht den Rest des Bildes als einfach nur „schwarz“ erscheinen lässt, sondern auch in dunklen Bereichen Details weitestgehend bewahrt.
Laut nVidia hat dieses Beispiel für eine Floating Point Texture auf der rechten Seite einen 90-fach höheren Helligkeitsumfang zwischen den beiden Lichtquellen in den abgebildeten Fenstern mit Blick auf eine Naturszene.
Das besondere, so nVidia, am NV40 sei, dass es durch Verwendung des OpenEXR [12]-FP16-Formates erstmals möglich sei, den kompletten Vorgang im High Dynamic Range Rendering inklusive der Texturfilterung und der Zwischenspeicherung der Lichtinformationen und des Rendering-Vorganges komplett im Floating-Point Format zu halten.
Mögliche Einsatzgebiete wären unter Zuhilfenahme von Tone-Mapping z.B. Blendeffekte wie bei einer Blitzgranate oder einem versehentlichen Blick in einen Suchscheinwerfer. Ob die Entwickler darauf jedoch einsteigen werden, oder ob es eine Spielerei für eine kleine Minderheit bleiben wird, ist noch kaum abzusehen - wie bei jeder Insellösung.
Das OpenEXR-Format ist zwar, wie der Name schon sagt, für jedermann frei zugänglich, aber bislang ist nVidia die einzige Chipschmiede, die dies implementiert. ATis Radeons der DirextX9-Generation sind zwar ebenfalls zu FP-Buffern in der Lage, allerdings ohne Floating-Point Texturfilterung.
Video Prozessor
Als letzte größere Neuerung wollen wir hier den Video-Prozessor vorstellen. Zunächst einmal kurz die Checkliste der Features.
- Inverse Telecine (3:2 Pulldown)
- Motion Adaptive De-Interlacing
- Color Space Conversion
- Gamma correction
- Processor Amplifier
- WMV9/H.264 Motion Compensation
- WMV9/H.264 In-Loop Deblocking
- Noise Reduction
- Frame Rate Conversion
- MPEG 2 En- und Decoding
- MPEG 4 En- und Decoding
- WMV9 En- und Decoding (inkl. HDTV)
- DivX En- und Decoding
- High Quality Scaling
Auf die bekannten Features, die seit mindestens einem Jahr schon Standard in jeder anständigen Grafiklösung sind, wollen wir hier nicht weiter eingehen. Jedoch scheint es erwähnenswert, dass der Programmable Video Processor, kurz PVP, in der Lage ist, nicht nur beim Dekodieren, also Abspielen der wichtigsten Video-Formate, das Hauptsystem zu entlasten, sondern, wie wir schon vermelden [13] konnten, auch beim Komprimieren von Videomaterial in MPEG2/4 und WMV9 sowie DivX für einen Geschwindigkeitsschub zu sorgen.
Dies im Gegensatz zu unserer Meldung allerdings nicht durch den Einsatz der Shadereinheiten, sondern eben des PVP, einer dedizierten Hardware-Einheit.
Dazu soll der NV40 in der Lage sein, bis zu 95 Prozent der Arbeit(sschritte) beim Abspielen von MPEG2-Videos und bis zu 60 Prozent bei deren Komprimierung auszuführen, was angesichts der kommenden HDTV-Welle besonders in den Vereinigten Staaten sicherlich ein breitenwirksames Feature darstellt.
Wir hoffen, dass auch die Budget-Versionen des NV4x mit dieser Technologie ausgestattet werden, die Chancen dafür stehen allerdings eher schlecht, da sich neben den Pixel- und Vertexpipelines hier ein großer Transistorbrocken zu befinden scheint, der sich für Einsparmaßnahmen geradezu anbietet.
Nach Dawn und Dusk kommt Nalu
Etwas, was zu einer Produktankündung im Grafikkarten-Segment standesgemäß dazu gehört, sind Grafikdemos, die die Fähigkeiten des jüngsten Sprosses eindrucksvoll unter Beweis stellen sollen. Nicht erst seit der Elfe „Dawn“ sind solche Demos üblich. Doch das seiner Zeit zusammen mit der GeForce FX 5800 Ultra (NV30) vorgestellte, filigrane Fräulein gehört sicherlich zu den Demos mit der größten Fangemeinde. Nicht umsonst gab es hier Bemühungen, die Dame auch auf Nicht-nVidia-Karten zum Lächeln zu bewegen, was auch mit einem leicht verminderten Detailgrad gelang [14]. Sex sells - die Marketingstrategie ging halbwegs auf, wenngleich die GeForce FX 5800 Ultra aufgrund ihrer zu geringen Leistung und zu hoher Lautstärke kaum Abnehmer fand. Auch um die Verfügbarkeit im Handel war es niemals wirklich gut bestellt, folgte mit der GeForce FX 5900 Ultra (NV35) doch bereits kurze Zeit später der Nachfolger. Doch „Dawn“ war damit keinesfalls von der Bildfläche verschwunden, vielmehr nutze der Grafikkarten-Hersteller „Dusk“ - sozusagen die böse Dawn - zur Präsentationen eben jener Karte.
Beide Demos, das heißt die 72 MB große Dawn-Demo [15] und die in Form von kompiliertem Programmcode 85 MB umfassende Dusk [16], stehen inzwischen zusammen mit anderen Grafik-Demos für interessierter Besitzer einer Grafikkarte der nVidia GeForce FX-Serie zum Download bereit. Für die Vorstellung der GeForce 6800 Ultra hat sich nVidia ein nicht weniger aufreizendes Geschöpf ausgesucht. Gestatten, Nalu - Meerjungfrau.



Ein Highlight von Nalu ist sicherlich das lange blonde Haar, auf das Dusk und Dawn mangels Render-Leistung der NV3X-Generation noch verzichten mussten. Die Haare werden in Echtzeit simuliert und mithilfe von "Deep Shadows" zum leuchten gebracht. Die Wasseroberfläche spiegelt sich auf ihrer Haut, was Nalu noch realistischer erscheinen lässt. Insgesamt haben 19 Renderzyklen an dem Gesamtergebnis Anteil.
Für wen Nalu ein neues Hintergrundmotiv zu sein scheint, dem hoffen wir mit den drei oben aufgeführten Bildern, jedoch mit einer deutlich höheren Auflösung von 2400x1800 im 32-bit-PNG-Format, eine Freude machen zu können. Das insgesamt 11 MB große Komplettpaket steht allen registrierten Mitgliedern zum Download von unserem Server bereit:
Doch es ist nicht nur Nalu, mit der nVidia beim NV40 für Aufsehen sorgen möchte. So darf die neue Karte auch in den Technologie-Demos „Clear Sailing“ und „Timbury“ ihr Können unter Beweis stellen. Bei Timbury kommt zum Beispiel das bereits erwähnte OpenEXR-FP16-Format zum Einsatz.




Wie in der Vergangenheit üblich, wird nVidia auch diese drei Demos früher oder später zum Download bereit stellen, so dass jeder glückliche Besitzer einer GeForce 6800 diese auch voll ausreizen kann - das passende Spielematerial wird (wie immer) noch etwas auf sich warten lassen.
Vorläufige Einschätzung
Mit dem NV40 hat man vieles richtig gemacht, was beim NV30 aus verschiedenen Gründen falsch lief, und viele Grundlagen ausgebaut. Bis auf die Leistung, über die man für ein abschließendes Urteil noch die endgültige Performance des Konkurrenten aus Kanada abwarten sollte, ist der NV40 allerdings eher eine Evolution als eine Revolution. Sicherlich gibt es viele Features, die einem beim Durchgehen der Listen erstrebenswert erscheinen. Aber vieles davon kann auch schon der vielgescholtene NV30 - nur eben um Größenordnungen langsamer. Den von nVidia gezeigten Zugewinnen von oftmals über 400 Prozent in der Shader-Performance in gängigen und kommenden Spielen wollen wir erst glauben, wenn wir sie selber anhand einer laufenden Karte gemessen haben.
Neben der fragwürdigen Diskrepanz zwischen aktuellem Kühler und der von nVidia auf Bildern gezeigten Kühllösung, stößt die Verfügbarkeit der Karten bitter auf. Nicht nur, dass für die Presse wieder einmal eine verschwindend geringe Anzahl an Karten vorrätig war, was oftmals kein gutes Zeichen für den Endkunden zu sein scheint. Hört man sich bei den Abnehmern des NV40, den Grafikkartenherstellern, um, so kristallisiert sich eine breite Markteinführung erst für Juni/Juli heraus. ATi soll hier mit dem noch ausstehenden R420 wesentlich schneller in den Markt preschen und gab schon zur CeBIT bekannt, binnen einer Woche im Handel sein zu wollen. Der Preis des NV40 soll sich anfangs bei 399 Dollar für die Ultra-Variante bewegen, was samt Aufschlag dem seit längerer Zeit üblichen Einstiegspreis für Highend-Grafikkarten entspricht.

















