Original erstellt von Carsten
Ja, bis zu acht. Die R300 Chips können das neben ihren acht Texturinstruktionen auch noch und unter besonderen Umständen, die ich aber nicht kenne, sollen sie ja bis zu 24 Operationen pro Takt (also drei pro Shaderpipe und Takt) hinbekommen.
Kommen bestimmte arithmetische Ops hintereinandern, können doppelt so viele Ops so viele pro Takt ausgeführt werden, also 16. (Plus 8 Texture-Ops = 24.) Mehr arithmetische Ops pro Takt beherrscht die FX prinzipiell auch. Das geht, weil die arithmetische Stage auch komplizierte Ops in einem Takt berechnen können soll (der Sinus dauert beim R350 nichtsdestotrotz mehrere Takte.) Man kann die einzelnen rechnenden Units in bestimmten Fälle auf zwei Befehle aufteilen, so dass man auf die doppelte arithmetische Power kommt. Beim NV30 (und NV35) teilen sich Texture-Op-Stages und arithmetische Stages ja Rechenunits, doch zwei "zusammengefasste Texture-Ops" für eine arithmetische Op sind nicht so mächtig, dass sie zwei arithmetische Ops ausführen können, das gilt lediglich für die "normalen" reinen arithmetischen Units bei CineFX2. Letztlich ver-eins-komma-fünf-facht sich dann die arithmetische Leistung.
Original erstellt von Carsten
Erbsenzähler. Vergleiche machen natürlich nur Sinn, wenn man von ansonsten identischen Umständen ausgeht.
Sie sind ja nicht identisch

Deshalb möchte ich ja die Kausalität gewahrt wissen. "Identische" Umstände sind ohnehin praktisch nicht zu gewährleisten. Ein Mehr an Transistoren macht die GPU nicht zwangsläufig langsamer, bekanntlich bekam Kyro2 ca. 3 Mio Transistoren
mehr, bei identischem Featureset, um den Chip
höher zu takten. Man könnte
u. U. zusätzliche Transistoren für's Filtern durch weitere Transistoren ausgleichen, um den Takt zu erhalten. Aber ok, das ist bei den heutigen Transistor-Monstern wahrscheinlich impraktikabel.
Was meinst du mit "Und das kann wohin führen.... ?" Riptor schiebt scheinbar (vielleicht irre hier) die R350-PS.2.0-Geschwindigkeits-Vorteile vor allem auf "FP24 statt FP32", anstatt auf die tatsächlichen Umstände.
Dass FP32-Logik mehr Transistoren kostet und sich das dadurch auch irgendwo auf den Speed auswirken wird, ist klar, aber weil die konkreten Umstände alles andere als "identisch" sind, ist es imo nicht sinnvoll, über den Transistorcount so zu reden als sei er der Hauptverantwortliche für die erreichbare Taktrate.
Insofern kann ich angesichts der Tatsache,
dass die Umstände alles andere als gleich sind, deine Einlassung auf meiner Bemerkung zu Riptor hin nicht so recht verstehen. Könntest die Hintergedanken ausführen, anstatt den Vorwurf der Erbenszählerei zu bringen...?
Riptor scheint von einem seriellen Rechenwerk auszugehen, was aber falsch ist. Selbst wenn die Durchlaufzeit sich erhöht, was beim Shaderwechsel dann auch zusätzliche Latenzen bedeutet, also die Leistung senkt, einmal geladen macht die Pipe pro Takt eine bestimmte Anzahl an Ops in voller Breite, FP32 kostet ggü. FP24 dann natürlich mehr Transistoren. Das mit den Latenzen ist aber auch so'ne Sache — CineFX kann die Latenzen von Dependend Reads sehr gut in der Pipe "verstecken", wodurch diese aber wieder anfälliger wird, wenn bestimmte Optimerungs-Regeln verletzt werden.
Original erstellt von Carsten
Und 10-15% würden den R3xx die Kronen in etlichen der ansonsten sehr knappen <DX9-Benches kosten und damit wäre das Primärziel des Chips klar verfehlt gewesen.
Das ist nicht der Ansatz für den Artikel. <DX9-Benches, da sind die Frameraten imo bereits so hoch, dass 10-15% so entscheidend nicht mehr sind, wenn man die Spiele-Praxis im Auge hat. Du weißt, dass ich hinterfrage, was für den Kunden sinnvoll wäre, und nicht, mit welcher Methode das Unternehmen die größte Stückzahl absetzt. Ist imo ganz in der Tradition von 3DC, und ich bin froh, dass Leo mir eine Plattform für meine vielleicht noch etwas weiter "abgehobene" Sicht der Dinge gibt. Das muss imo auch mal sein, in der ziemlich vom Kommerz geprägten Web-Landschaft.
Falls mein Ansatz, hohe Genauigkeitsanforderungen an die HW zu stellen, die über bloße Spieletauglichkeit hinaus gehen, als zu perfektionistisch gesehen wird, sehe ich das gar nicht mal als schlimmen Vorwurf. Letztlich schwang im Artikel, wenn auch nicht direkt ausgesprochen, mit, dass die R300-Schiene eine (gute!) HW für hier und jetzt ist, in dieser Form aber nicht zukunftstauglich ist. Darüber zog ich keine Bewertung, also kein Urteil, ob man lieber schnelle hier+jetzt oder langsamere morgen+irgendwann Hardware nehmen sollte. Natürlich stellte ich mehr oder minder direkt die Forderung nach besseren Filtern. Das AF bleibt imo für das Jahr 2003 unangemessen, von den im Artikel als erste gezeigten Artefakten beim BF ganz zu schweigen. Jedenfalls interessiert es mich jedenfalls herzlich wenig, welche Primärziele ATI mit diesem Chip hatte. Sucht man sich für alles den richtigen Kontext, ist die FX 5200 plötzlich ein toller Chip, zumal NVs die damit verknüpften Primärziele offenbar erreicht... das ist mein Ansatz nicht, wie du weißt.
Original erstellt von Carsten
Docj, das ist es. Wenn man im Worst-Case so 'gut' ist, wie das Gegenüber im Optimalfall, dann ist die Entscheidung zu 8x1 ggü. 4x2 eine win-loss Situation, besser geht es nicht.
Ist es
praktisch (bei den relevanten Shader-Längen) nicht wirklich. Letztlich spart man z.B., you get it

, Transistoren.
Original erstellt von Carsten
Deswegen simplifizierte ich auch, indem ich schrieb: "(Shader-)Pipelines" und nicht "Pixelpipelines".
Es ist ziemlich Wurst, ob man 8 Shader-Pipes mit 1 PS-Stage, oder 4 Pipes mit 2 Stages hat (ebenfalls simplifizierend ausgedrückt.) Das 8x1-Design hat Vorteile, die sind aber nicht Welt bewegend. R300s 8x1 ist ggü. dem 4x2 vom NV30 klar im Vorteil, weil NV30 pro Takt nur 4 arithmetische 2.0-Shaderops (statt 8, wie R300) berechnen kann, aber fast gar nicht, weil die TMUs zu 4x2 angeordnet sind.
Original erstellt von Carsten
Die Granularität kommt bei konventionellen ST- oder MT-Situationen aber wieder dem 8x1-Design zugute, während es bei bis zu 24 Shader-Ops pro Takt offensichtlich auch der Geschwindigkeit nicht abträglich ist.
Wie gesagt, die "24" Ops gelten nur unter bestimmten Umständen. In der Regel ist der arithmetische Block länger als der Sampling-Block, demzufolge zählt die arithmetische Power eher. NV35 kann unter Sonder-Umständen 8 Texture-Ops und 8 arithmetische, oder 0 Texture Ops und 12 arithmetische Ops ausführen. Wenn du von einem "2. zweiten 4xSIMD Pixelprozessor" sprichst, impliziert das taktbereinigte doppelte Shader-Power ggü. der Konkurrenz, was jedoch nicht der Fall ist. (Oder, um genau zu sein, in dem "besten" Fall steht es zwar 24 vs. 12, also 2:1 für ATI. Doch die Texture-Ops nehmen bei üblichen Shadern den deutlich geringeren Teil ein, wie bekannt.)
Taktbereinigt ist beim NV35 die die "zählende" (also die arithmetische) Shaderpower nur ein bisschen schwächer, was der Takt ggü. R350 locker wieder wett machen dürfte. CineFX2 leidet darunter, dass die Pipes aufgrund strenger und hochkomplexer Optimierungsregeln zumeist stark unterausgelastet sind. (Die Texture-Op-Einheiten sind so oder so, ob beim NV35 oder R3x0, in der Regel unterausgelastet, das ist aber weniger schlimm, wenn du die Anteile in einigen Shadern vergleichst. Die Modifizierung von Textur-Koordinaten wird ab PS.1.4 ja mit den arithmetischen Ops gemacht, nicht mehr mit Texture Ops. Rechnen ist das, was zählt. Hier steht es 8 vs. 8 Ops, unter besonderen Umständen 16 vs. 12.)
Wenn man "nur" trilinear filtert, oder "nur" 2x AF nimmt, meinetwegen auch bilinear, ist es füllratentechnisch egal ob 8x1 oder 4x2, egal ob beim Single- oder Multitexturing. Bei einer ungeraden Anzahl bilinear gefilterter Texturen ohne AF ist man mit 8x1 im Vorteil, wobei der Vorteil mit zunehmender Texturzahl sinkt. Die tatsächlichen (also relativ kleinen) 4x2-Nachteile reißt NV mit dem Takt mehr als wieder raus, wenn wir mal bilineares Single-Texturing außer Acht lassen.
Wenn du Füllrate ansprichst, die Stencil-Füllrate mit aktiviertem MSAA ist beim R350 ggü. NV35 z.B. nicht gerade toll. Hier gibts ja keine Texturfilterung, da bieten NV30 bzw. NV35 8x0. In neueren Games, die auf den First-Z-Pass setzen ist die FX nicht im Nachteil (da ebenfalls 8x0) und bei Stencil Schatten der NV35 zumindest auf dem Papier deutlich im Vorteil (ebenfalls 8x0, dazu Ultra Shadow) während sie bei Uralt-Games (bilineares Single-Texturing) wegen 4x2 tatsächlich im Nachteil ist — solange man kein AF nimmt, jedenfalls...

: