News DP-Performance von AMD Firestream

In der Regel erreichen die AMD-GPUs "bis zu" zwischen 12,5 und 50% der SP-Performance auch im DP. Bei Nvidia sieht es schlechter aus.

Im Vergleich mit der CPU werden die angegebenen Raten jedoch auch wirklich erreicht und sind keine theoretischen Idealfälle. Von den 48 GFLOP/s. eines Quadcores bleibt in der Praxis vielleicht die Hälfte übrig.
 
Artikel-Update: Bei der Angabe der Double-Precision-Leistung hat es offenbar ein Missverständnis gegeben. AMD hat uns soeben darüber informiert, dass die Firestream 9170-Beschleunigerkarte eine DP-Performance von 102 GFLOPS bietet. Bei Single Precision sind es dagegen sogar 512 GFLOPS.
 
Was? 102 nur? Das wäre ja ein Einbruch sondersgleichen. Da kommt man ja mit Xeons besser weg.
Was ist denn da mit halber Fließkommarechnungsanzahl bei Double Precision?

Kann ich da 'ne Quelle haben?
 
@ Raseman

die 8600 kann den 1GB Speicher garnicht verwalten weil sie zu schwach dafür ist. im gegensatz zu dieser.

die 8600 ist mit 512 MB schon am ende für die reichen 256MB eigentlich aus.
 
der Cell 2 in 45nm müsste doch auch langsam in der Produktion sein.
Weiß jemand was der an FPU Leistung schafft?
 
@ xp_home

Naja, also kleines Zusatzfeature würde ich 100 GFlOP/s bei Doppelter Präzision nicht nennen - immerhin noch doppelt so schnell wie der Core2Duo. ;)
 
Dass Ihr die Meldung von AMD bekommen habt, geht wohl auf meine Kappe. Aber jetzt der Reihe nach:
http://forum.beyond3d.com/showthread.php?p=1141518#post1141518
I should also note that doubles are *not* done in the "t" unit, but they are instead done in the XYZW units in "fused" manner. Thus, you can execute a double precision operation in XYZW along side a 32-bit operation in the t unit. Thus, doubles are handled at 1/4 rate in 4/5th of the units, so double precision peak is 1/5 of single precision peak. However, in practice, you the difference can be better than 1/5th depending on the scheduling of your 32-bit ops or worse under bandwidth/latency increases from reading/writing wider data.
Aus den Docs des Brook+/CAL-SDK:
6.9 Double-precision Instructions
Double precision values are represented by two 32-bit elements. The source value for a doubleprecision instruction must be in src.xy after any swizzle operations. For example, if src.xy contains 0x4008000000000000 then src.y = 0x40080000 and src.x = 0x00000000. The result of an instruction can be placed in dst.yx or dst.zw, where the most significant bit is stored in y or w, respectively. Singleprecision instructions can be used to test the sign of a double-precision value
Die "fette" ALU ("T") ist an DP-Aufgaben nicht beteiligt, ergo fallen gleich 100 GFLOPs weg. Nur die vier "dünnen" ALUs (XYZW) können DP-Rechenungen durchführen. Diese 100 GFLOPs sind damit 1/4 der SP-Leistung. Diese 100 GFLOPs sind die reine DP-MADD-Performance, zB die DP-ADD-Performance soll bei 2/5 der Gesamt-SP-Leistung liegen. In einem Mixed-Mode aus SP und DP sind aber tatsächlich bis zu 350 GFLOPs möglich.
 
Kann man zwei von den Dingern zusammenschalten? Da hätte man einen TFlop/s Rechenleistung...
 
Man sollte noch hinzufuegen das NVIDIAs Tesla reihe auch alle mit double precision rechnen.
 
Aral schrieb:
Man sollte noch hinzufuegen das NVIDIAs Tesla reihe auch alle mit double precision rechnen.

Tun sie nicht.
 
Interesant. Sollte Raytracing ein Erfolg werden, währen ATIs FireStream und CUDA die besten Konkurrenten zur Larrabee.
Die aktuelle DP Performance müsste dafür allerdings verbessert werden.
 
Eigentlich der gleiche Chip wie auf einer 38x0.
Es sind sozusagen "nur" ein anders BIOS sowie grundlegend andere Software dabei. Dadurch, dass die Programmierbarkeit von GPUs so eingeschränkt ist, wird das nur sehr gezielt einsetzbar sein. Das Problem gibt es bereits bei Folding@home mit den bisher ünterstützten Grafikkarten. Was sie können machen sie sehr schnell, nur leider geht bisher vieles noch nicht. Deswegen bin ich eher darauf gespannt, was mit CUDA und Firestream in ein paar Jahren machbar ist.
 
nun ja die 102 GFlops hauen mich nicht sehr vom Hocker wenn eine nichtspezialisierte CPU (core2quad) die Hälfte schaft und das ohne spezielle Einschränkungen und SDK...
Und auch bei der Verlustleistung sehe ich keinen nennenswerten Vorteile.
 
@ jarod

Ja, der Stromverbrauch wäre wirklich mal interessant zuz erfahren, da das Desktop-Pendant der Karte ja einiges mehr als der Core2 verbraucht.
 
20% der SP-Leistung im DP-Betrieb ist noch immer mehr als doppelt so schnell wie ein Core2 Vierkerner.
2 Firestream-Karten kriegt man evtl. in einem Rechner unter, aber ein 4-Sockel-Server mit 4 Quadcore-Xeons liegt dann ausserhalb eines jeden Preisrahmens und skaliert jenseits der Doppelsockel-Konfigurationen auch deutlich schlechter. Den Preisunterschied inkl. Verzinsung holt man über ein wenig Energieersparnis nie wieder rein.
 
Zurück
Oben