Hardware T&L, Sinn und Unsinn

Crazy_Bon · 1. September 2001

Unterschiede scheinen bei 3D-Now! sehr minimal zu sein selbst bei Quake3. Möchte gerne mal wissen wie stark sich der Unterschied zeigt bei einem leistungsstärkeren Pentium3 (ab 1GHz) bei Quake3. Sollte der Leistungsabfall immernoch um die knapp 4% betragen mit SSE-Unterstützung ist das etwas enttäuschend für Intel. Oder will jemand ID-Software etwa eine schlampige Programmierung unterstellen?

Unregistered · 1. September 2001

das könnte hier wirklich ausschlagebend sein, der "Nature-Test" von 3DMark2001 läuft nämlich im Softwaremodus schneller als mit "pure T&L" !!!!!!!!!
Scheinbar packt diese zugegeben spezielle komplexe Nature-Szene mit all seinen Pixel, Vertex Shadern, Pump Mapping, etc... berechnungsmässig eine CPU SCHNELLER als der Geforce3-Chip !

Mein System : Pentium III-S Tualatin(512Kbyte L2-Cache)1,133 Ghz,Geforce3, 256Mb Ram (Cas2-2-2):

3DMark2001 1014x768 32bit Naturetest-SOFTWAREMODUS :

24 Frames/sec.

Daselbe im "Pure T&L" (Hardware) - Modus :

21 Frames/sec.

( P.S. : Alle Tests, default run : 5633 Punkte *g* Compare URL: http://gamershq.madonion.com/compare2k1.shtml?1490768 ---> Ganz schön flott der Tualatin und dabei nie über 45Grad*g* ! )

Also wenn man bedenkt das demnächst Prozessoren im 2Ghz Bereich Standart sein werden, wird dieser Vergleich dann noch krasser. Die "Nature-Szene" ist irsinnig komplex und komplett auf Directx8 mit all seinen Shadern & Co aufgebaut und spiegelt damit jetzt schon den Grafik-Standart zukünftiger Spiele wieder.

Wenn also genau in diesem Test eine CPU mit "nur" 1,13 Ghz schneller rechnet als der Geforce3-Chip in Hardware, tja dann denke ich wird T&L demnächst keinen Spieleentwickler mehr interessieren und ich glaube : abgeschafft oder aber durch eine effizientere T&L-Technik ersetzt werden.
Mir sagt dieser Nature-Test auf jeden Fall , das der Bericht auf www.3dcenter.de absolut wahr sein MUSS.
Bei heutigen weniger komplexen Spielen mag T&L noch Vorteile schaffen, der "Nature-Test" zeigt aber anscheinend das bei solch komplexen Einsetzen von sämtlichen DirectX8-Effekten eine der Geforce3-Chip mit seinen 200Mhz eindeutig langsammer ist als die CPU.

Eine andere Lösung wäre meiner Meinung nach genau jene welche ja jetzt bei der Radeon II kommt : Dessen Grafikchip taktet schon mit 250Mhz und die Geforce3Ultra soll sogar mit 300Mhz takten. Dann wäre die Grafikkarte mit T&L wieder schneller unterwegs als die CPU.

Bin gespannt wie der Vergleich dann ausschaut

GRAKA0815 · 1. September 2001

Prima! Endlich mal ein Test in dem es bestätigt ist. Jetzt fehlt nur noch ein lebendes Spiel.

Unregistered · 2. September 2001

Denke mal das wird in realen Spieln genauso seine Gültigkeit haben, die werden ja schliesslich grafisch auch immer komplexer und basieren zunehmend auf DirectX8 wie 3DMark2001 auch.
Einziger Unterschied in realen Spielen : Die vielen Hintergrundberechnungen, Gegnerinteligenz&Co machen der CPU zusätzlich zu schaffen, hmmmm..... da wendet sich eigentlich wieder das Blatt, dann ist hier T&L mit der CPU-entlastenden Wirkung also doch vom nutzen, daran hab ich nicht gedacht

Carsten · 2. September 2001

Ich denke, daß es in diesem Falle eindeutig mit der programmierung von 3dmark2001 zusammenhängt. ich hab folgendes auch schon in einer mail an madonion geschrieben, aber bis jetzt leider noch keine Antwort erhalten:

Auch bei mir ist es so, daß *nur* der Nature-Test im Software-Modus schneller läuft, als mit "pure HW". etwa 24 zu 32 fps.
so weit so gut. Es drängt sich hier aber die frage auf, inwieweit in diesem Falle der Software-Modus wirklich ein reiner Software-Modus ist. Wenn, wie der Name suggeriert, die Berechnungen sowohl der Pixel- als auch der Vertexshader-Effekte komplett von der CPU ausgeführt werden, müßte dieser Test doch auch auf anderen Grakas im software-modus anwählbar sein, da ja die Graka nur noch einen geringen einfluß auf das letztendliche Bild hat, oder?
Nun, dem ist bekanntlich nicht so.
Wer diese Effekte im Software-Modus sehen möchte, muß sich derzeit in Ermangelung einer GF3 auf die mitgelieferte Demo des 3DMark beschränken, in welchem es offensichtlich möglich ist, die Effekte der Nature-Sequenz zu simulieren. Diese Demosequenz ist mitnichten vorgerendert, sondern wird in echtzeit berechnet. Das ist einfach nachzuprüfen, indem man mal die geschätzten 10fps in 640x480x16bit mit den weitaus niedrigeren Werten in höheren Auflösungen und Farbtiefen vergleicht. Dies kann mittels Fraps, einem Framecounter für directX geschehen.
Es ist weiterhin so, daß unter Einsatz einer GF2 Graka der Nature-Test nicht absolviert werden kann, genausowenig, wie der Einzelfunktionstest "Pixel-Shader". Wohl aber wird der Einzelfunktionstest "Vertex-Shader" von der CPU emuliert, mit durchaus beachtlichen Resultaten.
Meine Folgerung daraus:
1.) Kann die CPU Pixel-Shader gar nicht, oder zumindest nicht so simulieren, daß es sinnvoll wäre, diesen Wert mit in den Benchmark zu integrieren.
2.) Da optisch kein Unterschied zwischen der GF3 pure HW und dem Software-modus zu bestehen scheint, werden gewisse Effekte wohl dennoch eingesetzt.
3.) Im Software-Modus wird der Vertex-Shader von der CPU simuliert, mit beträchtlichem Erfolg. Der Pixelshader hingegen wird weiterhin von der GF3 berechnet. Da die sog. Nfinfite FX Engine nun nicht mehr voll ausgelastet ist, ist mehr Rechenzeit und/oder Bandbreite für den Pixelshader freigeworden.
Zusammen mit den CPU-emulierten Vertex-Shadern ergibt das eine sehr brauchbare Kombination und ist offenbar leistungsfähiger, als nur die GF3 alleine. Es findet offenbar eine Art Load-Balancing statt, wie es auch einige professionelle OpenGL-Karten bieten. Prinziepiell eine gute sache, oder?
jeder macht das, was er am besten kann und hilft dem anderen..

Leider kann ich das ganze nicht belegen, aber ich bin der festen Überzeugung, daß es so oder ähnlich sein muß, da mit meiner GF2 z.B., die ja definitv nicht über eine DX8 Einheit verfügt, die Nature-Sequenz im Demo in der Standard-Benchmark einstellung (1024x32bit usw) nicht unbeträchtlich geruckelt hat, was ja bei über 30fps nicht merh so stark auffallen sollte, oder?

Quasar

P.S.: @graka0815, erinnerst du dich, worüber wir uns im bezug auf synthetische Benches einig waren? man kann so gut wie *alles* beweisen....

Bombwurzel · 2. September 2001

Original erstellt von GRAKA0815

@Bombwurzel
....
Lichtgeschwindigkeit haben. Fazit: Selbst 10 Prozessoren in einem System bringen nichts mehr, da das Board die Informationen ja irgenwo bündeln und zusammenführen muss.

Sorry, GraKa.
Da muß ich dich wohl arg enttäuschen. Denk doch mal an Projekte wie Seti@Home, UnitedDevices und ähnliche. Da kommen ettliche tausend TeraHerz zusammen wenn man alle angeschlossenen Rechener betrachtet. Und diese Rechner sind bestenfalls über ne 100MBit Leitung mit dem Server verbunden.
Die Menge der Daten die ein oder mehrere Prozessoren verarbeiten können hat nichts, aber auch überhaupt gar nichts mit deren Taktfrequenz zu tun. Hierbe kommt es ausschließlich auf ein intelligentes Daten-Management und ein breites Bussystem an. Selbst wenn, wie du behauptest, bei 1THz Schluss sein sollte werden Leistungssteigerungen durch Mulitprozessorsysteme in jedem Fall erreicht werden, da die einzelnen Prozessoren nur Ergebnisse austauschen und nicht alle Daten. Oder denkst du etwa, das in einer Maschine mit 8 Prozessoren á 1 GHz irgend wo ein Chip sitzt der mit 8Ghz getaktet ist?? Das wäre absoluter Unsin, dann bräuchten wir keine MP-Systeme, da sie keinen Vorteil bieten würden. Überhaupt hat später (na eigentlich bei MP-Systemen heute schon) der Begriff CPU sich wohl irgendwie selbst überlebt. Denn bei MP-Systemen gibt es keine Zentrale Recheneinheit mehr. Jeder der einzelnen Prozessoren arbeitet autonom die ihm vom Betriebsystem oder Programmierer vorgegebenen Prozesse ab und legt die entsprechenden Daten entweder selbst auf das entsprechende Interface oder speichert sie im RAM, wo sie sich ein anderer Prozessor die Daten zur Weiterverarbeitung holt. Aber wie gesagt nur die Ergebnisse. Falls dir Clustering was sagt, solltest du mal drüber nachdenken. Es gibt Linux-Cluster mit 1024 Rechnern á 1GHz oder mehr - hey, da wäre deine Gesammtfrequenz von 1000 GHz irgendwie schon deutlich überschritten. Auch dort gibt es keinen Prozessor der irgendwo mit 1000 GHz getaktet ist, nur weil er angeblich alle Daten verwalten müsse. Auch hier reicht ein 1GHz völlig aus.
Darüber hinaus werden Prozessoren später mit viel großeren Bandbreiten arbeiten. Momentan sind wir bei Grafikchips schon bei 256Bit, dasselbe wird demnächst auch bei CPUs der Fall sein und das ist noch lange nicht das Ende. Auch werden starke Veränderungen der Chip-Architektur deutlich die Geschwindigkeit nach oben setzen. Die x86 Technologie ist mittlerweile 26 Jahre alt (1975 gabs den ersten XT), glaube bitte nicht das diese Technologie das non plus ultra der Computertechnik ist. Ganz im Gegenteil. Prozessoren wie der PowerPC und der Alpha gehen mit ihrer Architektur revolutinäre Wege. Ein PowerPC mit 400MHz ist in vielen Bereichen schneller als ein 1GHz Athlon/Pentium. Vom Alpha möchte ich hier gar nicht reden.

Unregistered · 2. September 2001

Zitat : Wenn, wie der Name suggeriert, die Berechnungen sowohl der Pixel- als auch der Vertexshader-Effekte komplett von der CPU ausgeführt werden, müßte dieser Test doch auch auf anderen Grakas im software-modus anwählbar sein, da ja die Graka nur noch einen geringen einfluß auf das letztendliche Bild hat, oder?
Nun, dem ist bekanntlich nicht so. ..

Na wenn das kein Beweis ist das Nvidia mit Madonion unter einer Deke steckt und ich glaube...der Test läuft demnach nur deswegen auf GF3-Karten, damit sich die Leute diese kaufen...nach dem Motto : "Ich will auch das dieser Test bei mir funktioniert *heul*"

das_ICH · 2. September 2001

kurz was anderes

Gebannt verfolge ich seit Stunden diesen Thread und ich denke
das ihr alle eines vergessen habt.......gebt ihm ne Wertung.
Ich für meinen Teil habe ihm gerade ein "Super" verpasst und ich denke mal, er hat es wirklich verdient.

QLink · 2. September 2001

Berichtigt mich wenn ich mich irre, aber hatten wir nicht schon mal so einen Thread, wo es darum ging ob T&l sinvoll ist oder nicht???

GRAKA0815 · 2. September 2001

@Bombwurzel

Zunächsteinmal können wir uns sicher darauf einigen, dass z.B. bei SETI@Home nicht alle Daten auf einmal auflaufen.
Weiterhin ergibt sich immer ein Problem a la AGP2x / 4X Bitte wo liegt hier der Vorteil wenn ich zwar eine AGP4x GRAKA habe der Bus mit 266 Mhz taktet aber spätestens an der North- (oder war es die South-) bridge die Signale nur mit dem Bustakt von 100 bzw. 133 Mhz weitergeleitet werden? Somit wird auch bei Prozessoren die mit L-geschw. arbeiten die L-geschw. der Limitierende Faktor immer bleiben, da KEINE INFORMATIONEN schneller als L-geschw. übertragen und somit verarbeitet werden können. EGAL wieviele Datenbusse Du auch einsetzten wirst. Ich habe auch geschrieben, dass ich glaube, das dies mit 1000Ghz erreicht sein wird, und nicht das es mit 1000Ghz erreicht ist! Vielleicht sind es auch 1000Thz, ich weiss es nicht genau. Ist aber egal, da mit L-geschw. das physikalische Ende der Fahnenstange in der Informationstechnologie erreicht sein wird. Es sein denn, dass es jemandem gelänge, durch Tunneln informationen zu übertragen.

Bombwurzel · 2. September 2001

@Graka0815

ich glaub, du hast ne etwas falsche Vorstellung von Multiprocessoring, auch hierbei laufen nicht alle Daten gleichzeitig zusammen. Und mit dem marginalen Unterschied zwischen AGPx2 und AGPx4 hast du die Antwort schon selbst gegeben

.
Da siehst du nämlich, das trotz gleichbleibend geringer Bandbreite zum Austausch zwischen GraKa und Prozessor, sich die Leistung der GraKa immer wieder immens steigern lässt, da die Daten die über den AGP-Bus gehen in keinem Verhältins zu den Daten stehen, die die GPU berechnet.

GRAKA0815 · 2. September 2001

Du weichst vom Thema ab! ES WERDEN NIEMALS DATEN FLIESSEN DIE SCHNELLER ALS DIE L-GESCHW. SIND. WENN DIES ABER DIE PHYSIKALISCHE HÜRDE IST, NUTZT KEIN MP-SYSTEM MEHR ETWAS SOBALD ICH ALLES IN DER L-GESCHW. BERECHNEN KANN. ES IST UNMÖGLICH!

Bombwurzel · 2. September 2001

Original erstellt von GRAKA0815
Du weichst vom Thema ab! ES WERDEN NIEMALS DATEN FLIESSEN DIE SCHNELLER ALS DIE L-GESCHW. SIND. WENN DIES ABER DIE PHYSIKALISCHE HÜRDE IST, NUTZT KEIN MP-SYSTEM MEHR ETWAS SOBALD ICH ALLES IN DER L-GESCHW. BERECHNEN KANN. ES IST UNMÖGLICH!

jetzt hör erstmal auf hier rumzubrüllen

Ich weiß jetzt überhaupt nich was du immer mit deiner Lichtgeschwindigkeit hast. Was haben Signallaufzeiten mit der Geschwindigkeit zu tun in der die Daten berechnet werden?
Sicher ist es so, das ein Elektron was von Chip zu Chip 1 picosekunde benötigt auch in 1 Mio Jahren immernoch 1 picosekunde benötigen wird (wegen der Lichtgeschwindigkeit).
Tatsache ist aber, das wenn sich 2 Prozessoren die Arbeit teilen, die Aufgabe auch annähernd doppelt so schnell gelöst ist. Sicher, bei einfachen Aufgaben die sich nur schlecht auf mehrere Aufgaben aufteilen lassen, ist irgendwo das Ende erreicht. Aber bei komplexen Prozessen sind die Programmierer gefragt, die Programme so zu schreiben, das eine sinnvolle Aufteilung der Teilschritte erfolgt und somit eine Maximierung der Endgeschwindigkeit zu erreichen ist. Darüber hinaus hat die breite des Datenbusses ein sehr entscheidenden Einfluss auf die Rechengeschwindigkeit. Ob nun ein Chip mit jedem Taktzykus nur 64 oder 256 Bit über den Bus schicken kann ist schon sehr erheblich. Das gleiche gilt für die Verarbeitung der Daten in der CPU - nicht umsonst arbeiten Intel und AMD derzeit intensiv an 64Bit Prozessoren und reden so langsam vom Ende der 32Bit-Architektur. Dabei kann nämlich die Leistungsfähigkeit der CPU bei gleicher Taktfrequenz nahezu verdoppelt werden - die entsprechnde Software wieder vorausgesetzt, denn wenn ein 64Bit Chip nur 32Bit vorgesetzt bekommt, kann er natülich auch nur 32Bit verarbeiten und ist eben auch nicht schneller als sein 32Bit Pendant.
Bei der Rechengeschwindigkeit von Computern wird es warscheinlich keine Grenze geben - sicher werden die einzelnen Komponenten irgendwann ihre Grenze erreichen, aber in ihrer Gesamtheit werden Computer immer schneller werden. Solange bis wir jedes zu berechnende Problem in nahezu Nullzeit berechen können - aber bis dahin ist es noch ein langer Schritt.

Carsten · 2. September 2001

Moin Moin Alle!

Es scheint wohl eine grundsätzliche einigkeit darin zu bestehen, daß c nicht erreicht geschweigedenn überschritten werden kann, oder?

Um Bombwurzels Ausführungen mal etwas anschaulicher darzustellen, damit sich jeder was darunter vorstellen kann, behaupte ich mal, das sogar die Menschen auf dieser Welt sehr wohl Lichtgeschwindigkeit und mehr erreichen können.

Natürlich nicht jeder einzeln, aber wenn wir mal von einer Geschwindigkeit von 20km/h ausgehen, die ja wohl jeder Mensch zumindest kurzzeitig erreichen kann, braucht es nur 54 millionen Leute, die alle diese 20km/h laufen und schon haben wir zusammen c=1,08mrd Km/h

Man muss natürlich noch den Overhead abziehen, der durch Mulitprozessing entsteht, braucht es vielleicht noch mal 10% mehr.

Quasar

GRAKA0815 · 2. September 2001

Ihr scheint mich (oder das Prob) nicht zu verstehen. Greifen wir nun mal Quasars einfall mit den 5,4 Milliarden Menschen auf. Sicher, wenn soviele Menschen auf einmal 20 Km/h rennen, habe ich mathematisch c erreicht. Das Prob ist nur, das wenn die Aufgabe darin bestünde am Ziel irgendetwas zu tun (bsp. ein päckchen abliefern) und es nur 5,4 Mrd. Fächer gibt, weil es physikalisch "nur soviele" geben kann, nutzt es nichts, wenn ich dann 10,8 Mrd. Menschen losrennen lasse mit 10,8 Mrd. Päckchen.
Wozu? Ich rede hier von dem ultimativen Prozessor, der alles in L-geschw. berechnet. Daten können nur mit L-Geschw. fließen, und auch die Signallaufzeit geht nicht schneller als c. Wenn also ALLES mit max. c läuft, was will ich dann noch mit 4, 10 oder nochmehr Prozessoren in meinem System. Siehe oben die Leute. Nochmehr Leute hätten keinen zusätzlichen Einfluss auf das Ergebnis, da "5,4 Mrd." hier die max. zu bewältigende Grenze ist.

Aber egal! Das Thema ist HW T&L. Irgendjemand einen Tipp zu meinem Direct Draw Problem?

Crazy_Bon · 2. September 2001

Langsam wird hier zuviel gesponnen, DirectDraw-Porbloem? Kannst du ihn nochmal schildern? Etwas unübersichtlich geworden hier.

Carsten · 2. September 2001

Ja, hab ich.
du hast sicher die Beta v648 installiert. M$ wollte die final eigentlich anfang september fertiggestellt haben, hat aber mal wieder nicht geklappt!
Da die alte v648 abgelaufen ist, haben sie ne neue interimsrelease rausgebracht. v663 oder so...einfach drüberinstallieren....

vielleicht langts auch, einfach das systemdatum um einen Monat zurückzudrehen...

Quasar

Bombwurzel · 2. September 2001

@GraKa0815

ich lese immer nur Päckchen??
klar, wenn du nur 1 Päckchen zu einer Stelle transportieren willst, ist irgendwo die Grenze erreicht wo´s nicht mehr schneller geht. Allerdings ist dieser Vergleich ziemlich weit von der Realität entfernt.
Um mal weiter in Päckchen zu reden. Wenn du nun 2 Päckchen an zwei unterschiedliche Stellen transportieren möchtest (also das mathematische Problem das du berechnen möchtest in 2 Teilaufgaben zerlegst) macht es schon Sinn, mit doppelt sovielen Leuten loszusausen, 5,4Mrd in die eine Richtung und 5,4Mrd in die andere Richtung. Nur dann kommen beide Pakete in der kürzest möglichen Zeit beim Empfänger an.
Is vielleicht ´n bissel abstrakt, die Version mit den Päckchen, aber vielleicht verstehst du so meinen Denkansatz besser.

GRAKA0815 · 2. September 2001

Danke Quasar!
Muss mal sehen ob ich die auf der MS Seite finde.

Ich benche dann mal selbst nach. Einmal auf einem Dual P3 600 Katmai System mit zwei GF2 MX400 32MB 1xAGP 1xPCI und einmal auf einem single P3 933 System mit GF2 Ultra. Habe morgen oder übermorgen wieder zwei GF3 hier und checke das auch mal mit den 3DMark2001.

GRAKA0815 · 2. September 2001

@Bombwurzel

Vielleicht sollten wir ein Päckchen Thread aufmachen? Also ich werde bei nächster Gelgenheit nochmal Steven Hawkins fragen. Der konnte das irgendwie besser verdeutlichen. Aber faktum ist nunmal, dass die Menge der Daten die Übertragen werden können (durch was und wen auch immer) begrenzt ist. Daran ändert auch ein nach links und rechts laufen der Leute nichts mehr. Dies kann nur funktionieren solange diese Grenze nicht erreicht wird. Hierin denke ich könnten wir uns nun einig sein. Ich finde es selber fantastisch wie mein DUAL P3 600 Katmai System einen SETI Block in "nur" 12,x Std. abrechnet, wärend mein P3 933/952 System hierzu zwischen 29 und 34 Std. benötigt. Ist schon geil wenn Programme auf MP zugeschnitten sind.

Aber bitte bleiben wir hier bei HW T&L, HSR usw.

Hardware T&L, Sinn und Unsinn

Rear Admiral

Unregistered

Gast

GRAKA0815

Gast

Unregistered

Gast

Commodore

Admiral

Unregistered

Gast

Lieutenant Pro

Lieutenant

GRAKA0815

Gast

Admiral

GRAKA0815

Gast

Admiral

Commodore

GRAKA0815

Gast

Rear Admiral

Commodore

Admiral

GRAKA0815

Gast

GRAKA0815

Gast

Ähnliche Themen