Programme, die mit der GPU rechnen

Raptor2063 · 3. August 2010

es muss ja nicht CUDA o.ä. sein, OpenCL wäre schon mal ein Anfang, aber da ist ja auch noch nicht so viel am Markt, außer bei Playern oder sowas.

also im Foto/Video-Bereich müssten die Softwareentwickler mehr machen. (Photoshop, usw.) und eben auch wirklich mal beim Finalrendering... oder mal ext. Renderer die sowas nutzen

Kasmopaya · 5. August 2010

https://www.computerbase.de/forum/t...inem-pcb-von-zotac.768851/page-3#post-8252300
Neue Benchmarks zu Folding @ Home:

Laut der aktuellen PCGH schauts aber etwas anders aus. Zumindest bei FAH rocken die ATIs wohl so garnicht:
HD4890 - 2300 PPD - 100W
HD5770 - 2200 PPD - 70W
HD5870 - 3600 PPD - 120W

9600GT - 2900 PPD - 30W
GTS250 - 5200 PPD - 70W
GTX260 - 5800 PPD - 100W
GTX285 - 8500 PPD - 120W [das kommt mir aber etwas wenig vor]
GTX465 - 10000 PPD - 150W
GTX480 - 14000 PPD - 170W

Consystor · 5. August 2010

Hallo!

@Kasmopaya:
Entspricht in etwa dem, was sich mir vor ein paar Tagen auch gezeigt hat. Habe kürzlich ein OpenCL-Projekt von mir auf ner GTX260 AMP², einer GTX470 und einer HD5850 laufen lassen. Es wird während der Rechenzeit durchgehend auf den globalen Speicher zugegriffen. Bei doppelter Genauigkeit war die 470 etwa doppelt so schnell wie die 260 und die 5850 nur etwa halb so schnell wie die GTX260 ...

BTW:
Eine super Arbeit von Dir hier im Forum mit den ganzen Threads zum Thema GPGPU-Computing!

Grüße

G-Power · 5. August 2010

Ja die 480 rechnet wirklich gut, da ich inzwischen auch eine habe kan ich nur sagen die wird immer besser mit Cuda 3.1 ist eine steigerung um ca. 8%+- zu Cuda 3.0 auf der 480 zu verzeichnen die 200er Serie (260) ist gleich geblieben. Man arbeitet fieberhaft bei GPUGRID an einer optimierung der 480 die zur zeit ca 80% leistet was eine 295 mit zwei kernen leistet ( 295er vorteil der Dual GPU wie bei Dual CPUs bzw Quad).
Leider wird von den meisten verkannt das der GF100 eigentlich nie als Gamingchip gedacht war auch wenn sich das als Fanboy gequatsche anhört es ist aber so. Zocken kann man mit der karte halt auch. Binn echt gespannt ob ATI auch diesen weg einschlägt oder ob sie nur wieder eine Gaming Graka rausbringen.
Ich hoffe das für Cuda bzw. Stream endlich mehr Software giebt die das nutzen kann, eine gemeinsame Schnittstellen wie Open CL were das beste was uns User passieren könte.
MfG

Consystor · 5. August 2010

Hört sich interessant an die Verbesserung um 8%.

Habe bei wiki oder so gelesen, dass der GF104 dafür gar nicht als Chip für die Tesla-Karten in Frage kommt. Angeblich sei beim GF100 eine "erhebliche" Beschleunigung des Rechnens mit doppelter Genauigkeit beim GF104 nicht drin. Ein derartiger Unterschied (vllt. nicht so gravierend?) besteht aber zwischen den GF100 für die GTX4XXer und den neuen Tesla-Karten aber auch schon.

Naja, ich hoffe jedenfalls dass die OpenCL-Leistung der GTX460, die ich mir jetzt hole, im Vergleich zu der GTX470, die ich zuvor wollte, nicht viel schlechter sein wird. Aber werde ich dann sehen. Bin schon gespannt...

Grüße

Kasmopaya · 6. August 2010

Ihr müsst da auf jeden Fall aufpassen was DP angeht: http://ht4u.net/news/21916_nvidia_beschneidet_auch_dp-faehigkeiten_der_geforce-gtx-400-serie/

NVIDIA beschneidet auch DP-Fähigkeiten der GeForce-GTX-400-Serie

Eine super Arbeit von Dir hier im Forum mit den ganzen Threads zum Thema GPGPU-Computing!

THX, hört man gerne.

MfG Kasmo

G-Power · 6. August 2010

@ Consystor ich weiß ja nicht was du berechnest aber ich würde zu einem GF100 greifen und nicht zum 104. Ich meine wenn Kermi dann aber auch richtig

Ja die DP Einheiten sind bei den GTX 4xx beschnitten NV macht das um eine gewisse Distanz zu den Tesla zu erreichen. Ist ja auch logisch welche FA. würde sich eine Tesla kaufen wenn eine 480 die gleiche Arbeit genau so schnell erledigt. Der GF104 ist ja enorm beschnitten in der Rechenleistung ich wüde nach gefühl schätzen so auf augenhöhe des G92 Chips bzw die unteren der 200er Serie. Was der unterschied zwischen der 200er und der GF100 Serie betrift ist eigentlich ziemlich einfach die 200er Serie kann keine Zwischenergebnisse verarbeiten das die GF100 Serie kann ( Cash). G80/92/200 Daten rein-> Berechnungen durchführen -> Ergebnis raus. GF100 Daten rein-> Berechnungen durchführen Zwischenergebnis ablegen und mit dem Zwischenergebnis weiterrechnen -> Ergebnis raus (ähnlich einer CPU). Bei Ati wird wie bei G80-200 verfahren. Ich hoffe ich hab kein Müll geschrieben aber so habe ich den GF100 verstanden. Ich persönlich würde heute nich mehr bei Rechenleistung auf CPUs setzen (gut die können noch einiges mehr und nich alles läst sich auf GPUs berechnen) sondern auf GPUs (ist auch Stromsparender).

MfG

FloW3184 · 15. August 2010

OpenCL sollte jetzt seit der stream sdk v2.2 ne ecke schneller auf atis laufen.

Was ist neu in v2.2 ?

* Support for OpenCL 1.1 specification.3
o Please see the OpenCL 1.1 specification for more information about this feature.

* Support for Ubuntu 10.04 and Red Hat® Enterprise Linux® 5.5.

* Support for X86 CPUs with SSE2.x or later (Adds to existing support for X86 CPUs with SSE3.x or later).

* Support for Microsoft Visual Studio 2010 Professional Edition and Minimalist GNU for Windows (MinGW) [GCC 4.4].

* Support for GNU Compiler Collection (GCC) 4.1 or later on Linux® systems (Adds to existing support for GCC 4.3 or later).

* Support for single-channel OpenCL image format.3

* Support for OpenCL / DirectX 10 interoperability.
o Please see this Khronos OpenCL extension registry entry for more information about this extension.

* Support for additional double-precision floating point routines in OpenCL C kernels.
o Please see chapter A, section 9 of the ATI Stream SDK OpenCL Programming Guide for more information about the additional routines added in this release.

* Support for generating and loading binary OpenCL kernels.
o Please see this knowledge base article for more information about this feature.

* Support for native OpenCL kernels.4

* Preview Feature: Support for accessing additional physical memory on the GPU from OpenCL applications.3,7
o Please see this knowledge base article for more information about this feature.

* Preview Feature: Support for printf() in OpenCL C kernels.
o Please see chapter A, section 8 of the ATI Stream SDK OpenCL Programming Guide for more information about this extension.

* Extension: Support for additional event states when registering event callbacks in OpenCL 1.1.
o Please see chapter A, section 8 of the ATI Stream SDK OpenCL Programming Guide for more information about this extension.

* Additional OpenCL samples:
o ConstantBandwidth (under cl/MicroBenchmarks)
o GlobalMemoryBandwidth (under cl/MicroBenchmarks)
o ImageBandwidth (under cl/MicroBenchmarks)
o LDSBandwidth (under cl/MicroBenchmarks)
o MemoryOptimizations
o PCIeBandwidth (under cl/MicroBenchmarks)
o SimpleDX10
o SimpleMultiDevice

* Package Update: ATI Stream Profiler 1.4.

* Various OpenCL compiler and runtime fixes and enhancements (see developer release notes for more details).

* Expanded OpenCL performance optimization guidelines in the ATI Stream SDK OpenCL Programming Guide, including:
o Global memory optimizations
o LDS optimizations
o Register and LDS impact on number of active wavefronts
o Load-balancing across multiple OpenCL devices
o Instruction bandwidths
o Key cache sizes and bandwidths for "Evergreen" GPUs

Für Coder von OpenCL-Programmen:
wenn immernoch langsamer als nvidia:
benutz halt mal calpp (cal++)
das gibt auf den 4000érn nen speedup von über +40% und auf den 5000ern über +90%
mit cal++ muss nixmehr von hand auf die ATIs optimiert werden

vander · 16. August 2010

CAL++

Ist das ne spezielle Metasprache um ATI GPUs zu programmieren?
Wieso sollte ein OpenCL Programmierer sowas nutzen, ist ja als würde man einem Java Programmierer empfehlen seine Programme mit speziellen Befehlen für Intel CPUs auszustatten

Sei lieber froh das der Quatsch mit CUDA nun endlich beendet werden kann und dann sowas

FreddyMercury · 31. August 2010

Ich moechet mal auf diese Seite hinweisen, falls jemand interesse hat mit Cuda videos zu konvertieren. http://www.mediacoderhq.com/cuda/ Natuerlich ist es eine freie, also Kostenlose Alternative.

vander · 31. August 2010

@FreddyMercury

https://www.computerbase.de/forum/t...it-der-gpu-rechnen.426771/page-3#post-6372744
Trotzdem danke für die Info, kann man gar nicht oft genug erwähnen

FreddyMercury · 1. September 2010

Hehe ja. Aber jetzt wurde eine extra CUDA suite veroeffentlicht. Ich habs mal probiert und 2 kleine videos gleichzeitig fuer mein N86 encoded.
Ein Video alleine ging mit knapp 170fps. Wenn ich 2 videos gleichzeitig encodiert habe, lief das doch mit knapp 130fps / video.

vander · 1. September 2010

Ich mache inzwischen fast alles mit MP4/AVC, dafür nehme ich aber nicht mehr CUDA sondern den x264. Die Quali ist besser, es läuft zuverlässiger(bei CUDA hab ich schon wiedermal die Meldung das er abgelaufen ist) und mit nem Mehrkerner hab ich(je nach setting) auch über 200FPS. Aber für Minivideos wo es nicht so draufankommt hatte ich CUDA auch immer gerne genommen. Leider hat sich da nichts weiterentwickelt.

Kasmopaya · 28. September 2010

Mal wieder ein sehr gut geschriebener Artikel von PCGH: http://www.pcgameshardware.de/aid,7...ie-Exaflop-Schallgrenze/Folding-at-home/News/

GTC 2010: Folding@home und die Exaflop-Schallgrenze

Zum Vergrößern anklicken....

GPUs besitzen sogar eine bessere spezifische Rechenleistung als Supercomputer, wie Vijay Pande erläutert: "Eine GPU der Nvidia-9xxx-Klasse besitzt über 200 Gigaflops bei einer Leistungsaufnahme von 500 Watt - das macht 400 Megaflops pro Watt. Blue Gene/P, der effizienteste Supercomputer, schafft 350 Megaflops pro Watt - ein Achtel weniger."

PS: Ja und wohin mit der ganzen geballten Rechenleistung? Wie wärs mit Robotersteuerung per Gedankenkraft @ GPU:
http://www.pcgameshardware.de/aid,7...steuerung-per-Gedankenkraft/Grafikkarte/News/

Ein Desktop-Rechner mit Tesla-Grafikkarte bewältigte die Analyse der Gehirndaten sechs Mal schneller als eine Core-i7-CPU mit 3,2 GHz Taktfrequenz. "Damit könnten wir über 2000 Signalkanäle in Echtzeit auswerten", begeistert sich Dr. J. Adam Wilson.

bernd n · 1. November 2010

G-Power schrieb:
Ja die DP Einheiten sind bei den GTX 4xx beschnitten NV macht das um eine gewisse Distanz zu den Tesla zu erreichen. Ist ja auch logisch welche FA. würde sich eine Tesla kaufen wenn eine 480 die gleiche Arbeit genau so schnell erledigt. Der GF104 ist ja enorm beschnitten in der Rechenleistung ich wüde nach gefühl schätzen so auf augenhöhe des G92 Chips bzw die unteren der 200er Serie. Was der unterschied zwischen der 200er und der GF100 Serie betrift ist eigentlich ziemlich einfach die 200er Serie kann keine Zwischenergebnisse verarbeiten das die GF100 Serie kann ( Cash). G80/92/200 Daten rein-> Berechnungen durchführen -> Ergebnis raus. GF100 Daten rein-> Berechnungen durchführen Zwischenergebnis ablegen und mit dem Zwischenergebnis weiterrechnen -> Ergebnis raus (ähnlich einer CPU). Bei Ati wird wie bei G80-200 verfahren.
MfG

Das ganze ist stark programmabhängig, wobei folding@home eine der wenigen NV-Domänen ist, was dann auch bis zum Exzess von NV-philen Seiten(PCGH o.ä.) breitgetreten wird, in vielen anderen verteilten Rechenprogrammen kommen die theoretischen TFLOPS auch praktisch an, die 480 ist schon extrem kastriert:

Performance table for Milkway@Home for others to see

Current GPU statistics ~ Time to Complete 1 WU: (Updated May 3, 2010):

1. 5870 1GB (stock) = 1m:30s (current leader)
2. 5850 1GB (stock) = 1m:49s
3. 4890 1GB (960mhz gpu) = 2m:26s
4. 4890 1GB = 2m:39s
5. 4870 512mb = 3m:11s
6. 4850 (700mhz gpu) = 3m:24s
7. 4850 = 3m:44 - 3m:46s
8. 4770 = 4m:16s
9: GTX480 = 5m:45s - 5m:59s
9. GTX295 = 6-7 min* extrapolated (i.e., 13-14 minutes to complete 2 WUs)

collatz@home sieht ähnlich, aber nicht ganz so extrem aus:
http://www.tomshardware.de/Radeon-HD-6870-6850,testberichte-240657-9.html
"Vorteil dieses Tests ist, dass wir aktuelle Grafikkarten beider Hersteller auf Ihre Leistungsfähigkeit testen können, da beide Schnittstellen relativ optimal implementiert sind."

Kasmopaya schrieb:
Mal wieder ein sehr gut geschriebener Artikel von PCGH: http://www.pcgameshardware.de/aid,7...ie-Exaflop-Schallgrenze/Folding-at-home/News/

Das übliche grüne Geschwafel halt in dem Artikel.....

the_pi_man · 23. November 2010

Wenn die Radeon's so viel Rechenleitstung habe wäre es da nicht das Aushängeschild wenn AMD da für die Rechenprojekte optimierte Programme liefern würde? Die haben mehr als doppelt so viel Rohleistung und machen nichts draus *schade*

vander · 23. November 2010

@bernd n
Wie sieht es den bei dem fürs GPGPU optimierten Tesla aus, wie stehen die in diesem Ranking da? Die normalen GTX sind ja eigentlich zum spielen entwickelt worden und da schlagen sie sich ganz gut. Das man sie auch für GPGPU einsetzen kann ist ein netter Nebeneffekt aber wegen der schleppenden Softwareentwicklung nur für Spezialfälle interessant.

vander · 10. Januar 2011

Der Mediacoder scheint sich in eine normale und eine CUDA Version aufgesplittet zu haben. Habe mich schon vor einiger zeit gewundert warum CUDA nicht mehr funktionieren wollte.

Neue Homepage

Kasmopaya · 9. Februar 2011

Wenn die Radeon's so viel Rechenleitstung habe wäre es da nicht das Aushängeschild wenn AMD da für die Rechenprojekte optimierte Programme liefern würde?

Ich sags ja schon immer. AMD hat überhaupt kein Intresse an GPGPU, das würde ihnen nur den (nicht vorhandenen) Server CPU Markt kaputt machen. Und die verdienen hier wesentlich mehr, als mit Grafikkarten.

Das ist natürlich bei NV anders. Für die ist die GPU wichtiger als alles andere und behindern deshalb auch den Fortschritt oder bzw. den Einsatz von GPUs nicht. Grade der Fakt macht mir die Firma sympathischer im Bezug auf GPUs. Die Stecken ihr komplettes Vermögen in die Verbesserung der GPU in allen Bereichen, Treiber, GPGPU, Bildqualität etc.

vander · 10. Februar 2011

Ich denke es kommt erschwerend hinzu das es schon einige Kartengenerationen von AMD gab die bei Belastung mit GPGPU Programmen überfordert werden und vor sich hin schmelzen(Furmark, AMD Treibertricks zur Leistungsbegrenzung um Überhitzung zu vermeiden).
Inwieweit das von AMD so beabsichtigt ist um eine ernsthafte Nutzung der vorhandenen Rechenleistung zu unterbinden oder ob hier einfach nur auf Teufel komm raus billig produziert und entwickelt wurde mag jeder selbst entscheiden. IMHO hat AMD auf dem Grafikmarkt zu Recht ein Image als Kinderzimmerhardwarehersteller, während nVidia auch für Wohnzimmer und Firmen entwickelt und produziert. Merkt man an den Produkten und dem technischen Support.

Programme, die mit der GPU rechnen

Captain

Banned

Lieutenant

G-Power

Gast

Lieutenant

Banned

G-Power

Gast

Lt. Junior Grade

Captain

Rear Admiral

Captain

Rear Admiral

Captain

Banned

Ensign

Lt. Junior Grade

Captain

Captain

Banned

Captain

Ähnliche Themen