3Dlabs mit „neuem Realismus”

20.4.2004 11:43 Uhr Carsten Spille

Knapp zwei Jahre ist es her, da man bei 3Dlabs mit dem P10 den Schritt weg vom festverdrahteten Grafikbeschleuniger hin zu programmierbaren Grafikprozessoren machte. Der Begriff VPU war gebohren, während andere Hersteller noch ihre GPUs unters Volk brachten.

Seit gestern nun schickt sich die nächste Generation programmierbarer Grafikchips, die auf den Namen Wildcat Realizm aus dem Hause 3Dlabs an, die Käuferherzen zu erobern. Waren wir bei der Ankündigung des Vorgängers noch der Meinung, der Aufkauf durch Creative Labs brächte eine stärkere Fokussierung auf den Spielesektor, so müssen wir heute, unseren damaligen Irrtum einsehend, beobachten, daß 3Dlabs ihrer Klientel, der professionellen 3D-Gestaltung im OpenGL-Bereich, treu bleibt.

Features des Wildcat Realizm:

150 Mio. Transistoren (130 Mio für VSU)
Dual-VPU/VSU Fähigkeit
AGP8X / PCI-e Interface
Hierarchisch organisierter Z-Buffer
64 Bit Floating-Point Frame-Buffer (FP16)
Array aus 16 Vertex-Prozessoren (FP36) (VSU: 32 VP)
1k Vertex-Shader Instruktionen
48 Fragment-Prozessoren (FP32)
256k Fragment-Shader Instruktionen
32 Texturen pro Pass
67 Mrd. FP-Ops pro Sekunde allein im Vertex-Bereich
512 MB GDDR3 Speicher adressierbar
16 GB virtueller Speicher (256 GB in 64Bit-Umgebungen)
2 Dual-Link DVI-I-Interfaces für 3480x2400 Pixel-Displays mit 50Hz
16x SuperScene Anti-Aliasing
Frame-Lock / Gen-Lock als Add-On Card
64 Bit Accumulation Buffer

Nun noch ein paar kleiner Anmerkungen zu den einzelnen Punkten, soweit sie uns aus den vorliegenden Unterlagen ersichtlich sind.

Zuerst einmal gilt hier, wie überall, daß Marketing-Unterlagen mit ein wenig Vorsicht zu geniessen sind, da sie naturgemäß das dargestellte Produkt ins bestmögliche Licht rücken sollen.

Der Wildcat Realizm als VPU wird mit 150 Millionen Transistoren hergestellt und kann, mittels einer sogenannten VSU (Vertex/Scalability Unit) gekoppelt werden. Dieser 130 Millionen Transistoren große Chip kann seinerseits noch eine weitere VPU ansteuern. Interessanterweise betonen 3Dlabs in ihren Unterlagen dauernd die Überlegenheit eines echten PCI-e 16x Interfaces gegenüber der Bridge-Chip Lösung bestimmter Hersteller. Namentlich erwähnt wird das PCI-e Interface allerdings nur in Verbindung mit der VSU. Die Verbindung VSU-VPU wird dagegen immer nur als dual 4,2GB/s-Interface bezeichnet - ein Schelm, wer Böses dabei denkt. Die VSU, die bei Benutzung allerdings praktischerweise gleich die Vertexberechnung übernimmt und dabei noch die doppelte Anzahl an Vertex-Einheiten mitbringt, wie eine einzelne VPU, scheint also sowohl die Funktion eines Bridge-Chips als auch eines zusätzlichen Geometrie-Prozessors zu erfüllen. Dies scheint nötig zu sein, da nur so die verarbeitete Geometrie effektiv auf zwei Fragment Prozessoren (die Vertex-Einheiten der VPUs werden deaktiviert, sobald eine VSU vorgeschaltet ist) aufzuteilen ist.

Was die Anzahl der ausführbaren Instruktionen je Shader angeht, so gibt 3Dlabs hier die Instruktionen in Maschinencode an. Das hat im Allgemeinen nicht viel mit der bei DirectX-Shadern beliebten maximalen Programmlänge der einzelnen Shader zu tun, so daß hier eine Vergleichbarkeit kaum gegeben sein dürfte. Auch wenn sich 1000-1024 und 250.000-262144 Instruktionen ziemlich beeindruckend anhören, so ist unbekannt, wie lang z.B. ein 512-Programminstruktionen langer Shader in Maschinencode bsw. bei ATi oder nVidia ist.

32 Texturen pro Pass sind ebenfalls eine nette Angabe, allerdings klingt auch dies ein wenig besser, als die Realität es erwarten läßt. Seit DirectX9 gehört die Fähigkeit, 32 Textur-Ops anstossen zu können, zum Standard-Repertoire der DirectX-Chips.

Auch die 67 Milliarden Floating-Point Operationen pro Sekunde im Vertexshader sind eine Zahl, die sich zwar hoch anhört, aber gleichzeitig nicht viel über die zu erwartende Leistungsfähigkeit des Produktes aussagt, da es ein wenig im Dunkeln gelassen wurde, ob sich dies auf eine VSU oder VPU bezieht, sprich auf einen oder auf zwei Vertex-Arrays und welche Einheiten (Rasterizer, Set-Up usw.) noch in diese Zahl mit einbezogen sind.

Die Adressierung von 512 MB GDDR3 ist mittlerweile kaum noch ein Alleinstellungsmerkmal, der virtuelle Adressraum von 16 bzw. 256 GB dagegen schon. Hiermit kann aus dem Hauptspeicher, ähnlich dem bei DirectX Next geplanten Virtual Memory das gerade benötigte Arbeitsset direkt geladen werden, welches dank dem GDDR3-Burst-Memory, von welchem bis zu 128MB zusammen mit und angesteuert von der VSU auf den Karten verbaut werden kann, mit weniger CPU-Interaktion auskommt. Gerade bei den Arbeitsumfeldern, in denen sich die 3Dlabs-Produkte traditionell heimisch fühlen und in denen oft schon das Geometrie-Set die Grenzen herkömmlichen Grafik-RAMs sprengt, kann dies enorme Vorteile bescheren.

Ebenfalls kaum interessant für den Consumer-Bereich aber nichts desto trotz beeindruckend sind die Display-Auflösungen, mit denen sich Karten im professionellen Umfeld herumschlagen müssen. Sind im Consumer-Bereich noch 2048x1536 Pixel auf CRT-Monitoren mit 21 oder mehr Zoll Diagonale noch sehr selten, so werden im medizinischen und wissenschaftlichen Umfeld durchaus auch Displays mit Auflösungen von über 9 Mega-Pixel eingesetzt. Diese werden durch die zwei kombinierten Dual-DVI-I Interfaces angesteuert, da ein einzelnes, normales DVI-I Interface hier nur eine Wiederholrate von 12,5 Hz erlauben würde.

In Fällen, wo die Display-Auflösung etwas beschränkter ausfällt, man trotzdem aber dankend auf Kantenflimmern verzichten will, bietet sich das einzigartige SuperScene Anti-Aliasing der Wildcat-Reihe an, welches auch die Wildcat Realizm im Gegensatz zum P10 von ihren Ur-Ahnen übernommen hat. Mit dynamisch zugeteilten und pseudo-zufällig verteilten 16 Sampe-Positionen auf einem 16x16 Subpixel großen Raster (nVidia bietet selbst mit dem nV40 eigentlich nur ein 4x4 großes Raster, ATi 6x6) gibt es Kanten in kaum erreichter Glättungsqualität.

WildCat SuperScene Anti-Aliasing 10fach vergrößert

GeForce4 4x Anti-Aliasing 10fach vergrößert — WildCat SuperScene Anti-Aliasing 10fach vergrößert

Links das 16x SuperScene Anti-Aliasing der Wildcat4-Reihe, welches hier 12 Farb-Zwischenstufen produziert und links das 4xOG-Anti-Aliasing der GeForce4-Reihe, beide in zehnfacher Vergrößerung.

Der Kostenfaktor kann durch das Auslagern der Frame- und Gen-Lock Interfaces auf eine Add-on Karte in Grenzen gehalten werden, während man sich bei anderen bekannten Lösungen im Vorfeld entscheiden muss, ob die gewünschte Karte diese Features unterstützen soll oder nicht. Wenn man sich später anders entscheiden muss, belastet das das Budget nicht unwesentlich.

Auch wenn die Programmierbarkeit im Vergleich zum P10, welcher in etwa auf DirectX8-Niveau verharrte, weiter gesteigert worden ist, reicht es aufgrund fehlender Vertex Texture-Lookups nicht zur Klassifizierung eine DX9-Shader-Model 3.0-Chips. Die Pixelshader allein sollten jedoch die Anforderungen für Shader-Model 3.0 erfüllen können, wobei 3Dlabs hierauf wahrscheinlich wenig Wert legen wird und eher die volle Ausnutzung der Fähigkeiten unter der OpenGL Shading Language in den Vordergrund stellt.

Alles in allem ein interessanter Chip - wer weiß, vielleicht kann man auf ihm sogar das ein oder andere Spiel geniessen. Dank SuperScene Anti-Aliasing sollte das Endergebnis recht ansehnlich werden, falls 3Dlabs auch den leider mißratenen anisotropen Texturfilter gegenüber dem P10 verbessern konnte.

Über Preise und Verfügbarkeit ist bislang noch nichts konkretes bekannt.