News Neuer 300-TFLOP-Supercomputer mit 96 GPUs

philipp501 · 23. April 2008

Der GT200 hat doch ca. 200 Shader, das ist in etwa vergleichbar mit einer CPU mit 200 Cores. Wobei der Vergleich hinkt!
Des weiteren ist die GPU für FloatingPoint-Berechnungen optimiert.

Was ich mich aber frage, ist mit welcher Genauigkeit diese Werte gemeint sind. Also Double Precision, oder Single. Nvidia will im "Sommer" Gpus mit DP herausbringen, ob der GT200 damit gemeint sind?
Folding@Home rechnet soweit ich weiß mit SP, für die meisten wissenschaftlichen Berechnungen braucht man aber eher DP.

thenebu · 23. April 2008

Wenn GPUs soviel mehr Berechnen können, warum hat man sie noch nie in solchen Computern verwendet ????

Albert_Wesker · 23. April 2008

Naja, der neuer IBM Computer Cray Kratzt an der PetaFlop Grenze: http://derstandard.at/?url=/?id=3292829

Er wird er sich unter die stärksten Superrechner der Welt einreihen und 2009 eine Rechenleistung von fast einem Petaflop - das sind eine Billiarde Gleitkommaoperationen pro Sekunde - erreichen.

-

BIG_MAC · 23. April 2008

Sehr interessante News . Das zeigt mal wieder wie extrem die Rechenleistungen in den letzten Jahren gestiegen sind .

Der RV 770 soll doch schon 1,0 TFlops zusatande bringen . Wenn die Angaben von dem RV 770 und dem GT 200 stimmen SOLLTEN , würde das bedeuten das dadurch der GT200 ca. 10 % schneller sein sollte . Oder täusche ich mich da ???

Gepi87 · 23. April 2008

Wie kann man eigentlich feststellen wieviel FLOPs eine GPU und CPU schafft? Die Sandra Software kenn ich eh, aber ein kleineres Programm, was mir das genau in einer Zahl sagt, so wies hier auch angegeben ist, wäre schon toll

@24: Kann ich dir auch nicht sagen, aber 1,1 TFLOPs ist um 10 % schneller als 1 TFLOPs. Soviel kann ich die Bestätigen

DiGiTaL · 23. April 2008

Bei der eigentlichen Quelle steht aber, dass die GPUs die 192 TFLOPs erreichen und die CPUs die 103 TFLOPs !
Also schafft eine GT200 2 TFLOPs? Ich hoffe es

Siehe hier: http://www.google.com/translate?u=h...France-Tesla.htm&langpair=fr|en&hl=en&ie=UTF8

felixumesse · 23. April 2008

Folding@home hat ja auch schon letztes Jahr die Petaflop Grenze überschritten. Und das nur wegen der Integration der PS3. Ich kenn mich mit Konsolen nicht so wirklich aus, aber soweit mit bekannt, ist der Cell Prozessor in der PS3 für diese Leistung verantwortlich. Da zeigt sich auch, dass Prozessoren, die auf Grafik spezialisiert sind, durch ihre massive Parallelrechenleistung (Stichwort Shader) auch für numerische wissenschaftliche Berechung prädestiniert sind.

MEDIC-on-DUTY · 23. April 2008

Wenn man schon von der eigentlichen Quelle spricht, dann wohl von dieser hier: http://www.wcm.bull.com/internet/pr/rend.jsp?DocId=350329&lang=en und dort ist nicht offiziell von dem GT200 die Rede. Warten wir also ab, ob hier wirklich die Basis ein GT200 sein wird, oder ob es sich wie so oft nicht nur um zementierte Spekulation handelt.

Die sollte dem Beitrag als Referenz noch hinzugefügt werden.

Realsmasher · 23. April 2008

Die FLOPS kann man schon messen, zumindest mehr oder weniger, nur macht das keiner. Sie werden einfach anhand der berechnungseinheiten und dem Takt ausgerechnet.

Deswegen kommt auch eine GPU auf solche irrsinnigen Werte, die nicht der echten, sondern nur der Theoretischen maximalleistung entsprechen.

Da braucht nur die Vektorlänge der vorgesehenen Berechnung nicht 100% übereinzustimmen(und das ist sehr warscheinlich) und schon hat man soviel Overhead das locker zig % an FLOPS "verloren" gehen.

Dieses Problem(fixe Vektorlänge) ergibt sich bei den CPUs nicht, was wohl auch der Grund dafür ist das bisher keine GPUs verbaut wurden.

Fazit : viel Wind um Nichts. Man kann mit hoher FLOPS Zahl werben, erreicht diese aber eh nicht.

DJMadMax · 23. April 2008

Man kann sich ja eigentlich schon denken, dass die gesatme Stromaufnahme dieses Konstrukts weit unterhalb dessen liegen wird, was jeder andere bisherige Supercomputer benötigt, um auch nur annähernd an 300 TFLOP/s heranzukommen.

"Lediglich" etwas über 1000 CPUs und lediglich 96GPGPUs wären doch deutlich weniger, als jeder andere bisherige Supercomputer in seinem Cluster verwendet. Verglichen mit dem JuGene/P in Jülich, der wie bereits angesprochen, der zweitschnellste Supercomputer der Welt ist (und welcher um beinahe ein Drittel hinter der Rechenleistung des hier geplanten Großrechners zurückfällt), ist das ein Quantensprung. Der Jülich-Rechner verwendet satte 65536 CPUs. Selbst wenn hiermit dedizierte Kerne gemeint sind, so wären das immer noch minimum 16384 (Quadcore) CPUs -> was um den Faktor 16 höher ist, als die verwendeten 8Kerner Becktons. 96GPGPUs werden vom Stromverbrauch sicherlich auch nicht allzu sehr ins Gewicht fallen, kommen sie ja sogar (aktuelle Tesla´s) mit herkömmlicher Dualslot Lüfterkühlung aus.

Cya, Mäxl

JJJT · 23. April 2008

@ DJMadMax
aber der JuGene/p in Jülich hat eine GEMESSENE leistung von 167 Teraflops!
keine theoretische.

http://www.golem.de/0711/55945.html

KnoXel · 23. April 2008

jeder der seine Probleme mit Flops hat, sollte nochmal den Post #9 (1668mib) durchlesen. Warum haben GPUs so viel mehr FLOPs wie CPUs? Vielleicht hilft folgendes (rein gedankliches) Beispiel:
eine CPU mit 4 Kernen, die mit 64bit langen Befehlen arbeitet, kann 4 64bit Rechnungen parallel berechnen. Eine GPU mit 16 Kernen aber 16bit Befehlen kann 16 16bit Rechnungen parallel bearbeiten. Selbst wenn die CPU beispielsweise doppelt so schnell taktet, hat sie immer noch halb so viele Rechnungen in der gleichen Zeit. Wenn man jetzt 16bit Rechnungen rechnen will, sind die GPUs ganz toll. Will man aber 64bit Rechnungen rechnen, dann sehen die GPUs recht alt aus.

Oder anderes Beispiel: nur weil 2 Tonnen der Masse aus einem schwarzen Loch auf einen Teelöffel passen, kannst du nicht sagen, wie viel Platz dass 2 Tonnen Feldern brauchen. Du würdest wohl nichtmal ein halbes Kilo auf einen Teelöffel bekommen...

Das Ganze soll nur als Erklärung für die Einheit FLOPs gelten. Ich weiß, dass es nicht so ist und ihr braucht mich auch nicht in Stücke zu reißen. Einfach nochmal Post #9 lesen.

gruffi · 23. April 2008

1668mib schrieb:
Naja ich mag die FLOP/s-Angaben irgendwie nicht, die sind eigentlich so ziemlich nichtssagend...

Nichtssagend würde ich nicht sagen, aber zumindest recht theoretisch. nVidias Flops Leistung setzt sich zB momentan aus 1xADD und 2xMUL pro Takt zusammen. Wenn die Anforderungen der Berechnungen hingegen einem Verhältnis von 2 zu 1 (ADD zu MUL) entsprechen, kann diese theoretische Leistung in der Praxis schnell mal nur noch die Hälfte wert sein.

SC6 schrieb:
Ich kann die genannten Zahlen nicht nachvollziehen, geschweigen denn mir vorstellen.

8.544 Nehalem Kerne sollen 192 TFLOPs leisten, soweit so gut.
Aber im Verhältnis dazu sollen 96 GT200 103 TFLOPs Rechenleistung bringen?

Also entweder unterschätze ich die Leistung dieser GPUs massiv, oder aber die Zahlen stimmen nicht. Mal ganz ab gesehen von dem bereits oben angebrachten Einwand:

96 GT200 zu je 1,01 GFLOPs = 103 TFLOPs

so what? Bitte kann mir das jemand erklären?

Erstmal sollte man sagen, dass offiziell wohl gar keine konkrete Hardware genannt wurde. So findet man zumindest die Infos bei Bull (generalist computing nodes Intel, specialist 512-core GPU nodes). Nehalem und GT200 sind daher vermutlich reine Spekulation. Ansonsten sind die Zahlen schon nicht unrealistisch. Allerdings hat TG Daily hier etwas durcheinander gebracht, die 103 TFlops beziehen sich auf die CPUs, die 192 TFlops auf die GPUs. Das wäre recht viel für die GPUs, ziemlich genau 2 TFlops pro GPU. Der RV770 hat zB 1 TFlops bei der HD 4870. Die CPUs hingegen werfen einige Fragen auf. 103 TFlops bei 8544 Kernen (8x1068) ist nicht gerade viel. Das macht ~12 GFlops pro Kern. Ziemlich exakt die Leistung, die Intel beim QX9650 angibt (48 GFlops gesamt). Also entweder hat Nehalem nicht mehr Leistung oder es kommen deutlich niedriger getaktete Modelle zum Einsatz. Penryn kann es eigentlich nicht mehr sein, da hier maximal ein 6-Kerner geplant ist (Dunnington).

thenebu schrieb:
ABER warum hat der GT200 50mal(!) soviele FLOPs wie ein neuer Nehalem ????

Bitte um Klärung!

Wie gesagt, welche Hardware letztendlich eingesetzt wird, bleibt offen. Dass eine GPU aber deutlich leistungsfähiger ist, ist kein Wunder. GP CPU Kerne, in dem Fall x86, Itanium kann ich mir nicht wirklich vorstellen, haben idR ganz wenige FPU Einheiten. Der Core2 hat afaik jeweils eine 128 Bit ADD und MUL Einheit. Und die können maximal einen entsprechend grossen Vektor bearbeiten. SSE ist eine 128 Bit Pipeline, d.h. also zB 4 Single Precision (32 Bit) oder 2 Double Precision (64 Bit) Berechnungen. Im Gegensatz dazu schau dir mal GPUs an. Der RV770 hat insgesamt 480 (!) Streamprozessoren, welche pro Takt jeweils eine ADD und eine MUL Berechnung durchführen können. Bezogen auf einen 4-fach Vektor ein Unterschied von Faktor 120 gegenüber einem CPU Kern. Wenn man die 4 Kerne eines Quadcores und Taktraten von 3 GHz bei der CPU gegenüber 1 GHz bei den Streamprozessoren einbezieht, bleibt immer noch ein Faktor von 10 übrig.

Gepi87 schrieb:
Wie kann man eigentlich feststellen wieviel FLOPs eine GPU und CPU schafft?

Bei x86 CPUs ist das nicht so einfach beantwortbar. Da spielen Präzision oder die verwendete Pipeline (x87, 3dnow, SSE) eine Rolle. Bei aktuellen GPUs wird es wie folgt errechnet: Berechnungen pro Takt (ADD, MUL) * Streamprozessoren pro Shader * Anzahl Shader * Taktfrequenz der Shader (Hz) = Flops.

NoSyMe · 23. April 2008

Hmmm...hab nur 613 mFLOPs :/

Mein nächster Rig wird nen Superrig

Edit: Stellt euch mal vor die Übertakten die komplette Hardware dann stable um 10% o.O

Einhörnchen · 24. April 2008

Ich wurde mich auch. 1 TeraFlop ist ja nicht soooo viel mehr als bei anderen aktuellen Karten.

HPC Master · 24. April 2008

Richtig währe:

"Der neue Bull NovaScale Supercomputer besteht aus einem Cluster von 1.068 8-Core-Knoten (Intel-Prozessoren) für allgemeine Dienste mit einer Leistung von rund 103 Teraflops und 48 spezialisierten 512-Core-GPU-Knoten mit einer zusätzlichen theoretischen Leistung von bis zu 192 Teraflops."

1.068 / 8-Core CPU's = 103 Teraflops
48 / 512-Core GPU's = 192 Teraflops

Bitte den CB Beitrag richtig stellen.... http://www.bull.com/de/presse/2008/2008_9.html

Spekulation: TESLA (G80 GPU Architektur) neue TEGRA (next Gen GT200 GPU Architektur)

mfg HPC Master

captain carot · 24. April 2008

Das Problem bei GPU´s ist immer noch, dass sie sich nur für bestimmte Berechnungen vernünftig eignen. Selbst bei Folding@home übernehmen GPGPU´s nur bestimmte Berechnungen, während einige komplexere Vorgänge nur von Standard-CPU´s berechnet werden können.
Klar werden GPGPU´s immer flexibler einsetzbar, aber ob man damit irgendwann alles so berechnen kann wie mit einer CPU steht noch in den Sternen.
@TFLOPS als Leistungsindex:
Ist nunmal die gängige Praxis, die Leistung eines Supercomputers anzugeben. Korrekt ist das wirklich nicht immer, weil z.B. Vektorprozessoren sich für bestimmte Aufgaben viel besser eignen, die schnellsten noch installierten Vektorrechner in den TOP500 aber ziemlich weit hinten stehen.
@Quantencomputer:
Es gibt bis heute keinen funktionierenden Quantenrechner, außerdem eignet sich ein Quantencomputer wahrscheinlich nicht für jede Art von Berechnung. In einigen Bereichen wäre ein solcher Rechner aber vermutlich jeder anderen Art von Computer haushoch überlegen. Z.B. könnte damit vermutlich jede Art von Verschlüsselung in Sekunden geknackt werden.

HPC Master · 24. April 2008

Die CB News Meldung ist immer noch falsch - richtig währe:

"Damit hätte man insgesamt satte 8.544 Rechenkerne zur Verfügung und eine maximale Floating-Point-Leistung von 103 TFLOPs...

Die 96 GPUs setzen sich aus 48 Nodes zusammen, die von Nvidia geliefert werden. Dabei handelt es sich um Tesla-S900-GPGPU-Systeme, die auf der noch unbekannten GT200-GPU basieren werden. Die zusätzliche Leistung der GPUs soll bei 192 TFLOPs liegen."

Um die enorme Rechenleistung der GPU's abzurufen, gibt's die CUDA™ SDK Toolkit Software, die auch ständig weiterentwickelt und verbessert wird.

http://www.nvidia.de/object/cuda_learn_de.html

Das CUDA™ Toolkit wird kostenlos zur Verfügung gestellt und ist eine C- / C++- Entwicklungsumgebung für CUDA-fähige Grafikprozessoren.
Sie kann im akademischen, kommerziellen oder privaten Rahmen weiter verarbeitet und genutzt werden.

the_pi_man · 25. April 2008

@KnoXel (post 32)
Auch wenn das nach klugscheissen aussieht. Dein tolles Beispiel mit dem Teelöffel und dem schwarzen Loch hinkt ein "klein" wenig. Als schwarzes Loch würde die Komplette Erde auf deinen Teelöffel passen. Also etwas mehr als deine 2 Tonnen. ;-)

Aber davon ab: Wichtig wäre wenn die GPU's endlich 'Doppelte Genauigkeit' unterstützen würden. Dann wären sie nämlich endlich auch auch für andere Projekte als nur F@H nutzbar.

Keyser Soze · 25. April 2008

OFF Topic:
"Der Quantensprung: die zweifelhafte Karriere eines Fachausdrucks"
http://www.zeit.de/1996/19/quanten.txt.19960503.xml
Oh man, ich weiss warum Politiker gerne das Wort "Quantensprung" nutzen, um den Leuten vor zu machen es hatte sich viel getan. Wobei es das nicht bedeutet.

"Typisch für den Quantensprung ist, daß er winzig ist und in sehr kurzer Zeit abläuft."

So jetzt zum Thema:
Teraflop hin oder her
Die Frage ist ja was man damit anfangen will, welche Umsetzung wird benötigt.
Mit nem 500PS Truck kommt man auch nicht so schnell von a nach b wie mit nem 300PS Porsche.

Im übrigen weiss dann auch jetzt jeder warum ne GPU dementsprechend mehr Strom benötigt.

News Neuer 300-TFLOP-Supercomputer mit 96 GPUs

Lt. Junior Grade

Lt. Junior Grade

Lt. Commander

Lieutenant

Lt. Commander

Lt. Junior Grade

Ensign

MEDIC-on-DUTY

Gast

Captain

Fleet Admiral

Lt. Commander

Lieutenant

Banned

Lt. Commander

Rear Admiral

Banned

Anhänge

captain carot

Gast

Banned

Lt. Junior Grade

Lt. Commander

Ähnliche Themen

Passend zum Thema