DJDino,
Sicher, es können mit Pixleshader-Befehlen Effekte erzeugt werden, die über das hinausgehen, was man mit den sehr flexiblen TMUs der GeForce2 (TNT2 war da noch ein wenig weiter zurück) kaum noch hinbekommen dürfte. Das Problem bleibt trotz Pixelshader weiterhin die Performance, da GF3/4 nur mit sehr kurzen Pixelshader-Programmen wirklich effektiv umgehen können (trifft im übrigen auch auf die Radeon8500 zu). AFAIK sind das nur 2 Instruktionen, die single-clock berechnet werden können, danach werden die TMUs der GeForce3/4 zuerst in Kombination genutzt, wie schon die Pipelines auf einer TNT2 kombiniert werden konnten, ergo halbiert sich die Leistung. (Die Parhelia kann im übrigen 5 solcher Befehle pro TMU verarbeiten und bei Bedarf zwei der Pipelines zusammenschalten, so daß 10 instruktionen effektiv genutzt werden könnten).
Dein Satz "...die im Shader enthaltenen Befehle" zeigt, daß du imho einen Denkfehler in Bezug auf Pixelshader machst. Diese sind eigentlich nicht sehr viel anders als normale TMUs, nur daß sie eben pixelgenau mit abhängigen Texturwerten umgehen können. Sie sind keine Minicomputer innerhalb der Pipeline und haben auch keine Befehle gespeichert. Sie werden über diese Shader-Programme angesprochen und bekommen gesagt, was sie bitte schön zu tun haben.
Und bis auf die abhängigen Texturenwerte in einem Pass kann man quasi alles auch Multipass mit den Register Combinern erledigen.
BTW, eine GeForce4 kann, genauso wie eine GeForce2 nur 4 Pixel pro Takt zweifach texturiert ausgeben, da musst du irgendwas mißverstanden haben.