News Neuer 300-TFLOP-Supercomputer mit 96 GPUs

Der GT200 hat doch ca. 200 Shader, das ist in etwa vergleichbar mit einer CPU mit 200 Cores. Wobei der Vergleich hinkt!
Des weiteren ist die GPU für FloatingPoint-Berechnungen optimiert.

Was ich mich aber frage, ist mit welcher Genauigkeit diese Werte gemeint sind. Also Double Precision, oder Single. Nvidia will im "Sommer" Gpus mit DP herausbringen, ob der GT200 damit gemeint sind?
Folding@Home rechnet soweit ich weiß mit SP, für die meisten wissenschaftlichen Berechnungen braucht man aber eher DP.
 
Wenn GPUs soviel mehr Berechnen können, warum hat man sie noch nie in solchen Computern verwendet ????
 
Sehr interessante News . Das zeigt mal wieder wie extrem die Rechenleistungen in den letzten Jahren gestiegen sind .


Der RV 770 soll doch schon 1,0 TFlops zusatande bringen . Wenn die Angaben von dem RV 770 und dem GT 200 stimmen SOLLTEN , würde das bedeuten das dadurch der GT200 ca. 10 % schneller sein sollte . Oder täusche ich mich da ???
 
Wie kann man eigentlich feststellen wieviel FLOPs eine GPU und CPU schafft? Die Sandra Software kenn ich eh, aber ein kleineres Programm, was mir das genau in einer Zahl sagt, so wies hier auch angegeben ist, wäre schon toll ;)

@24: Kann ich dir auch nicht sagen, aber 1,1 TFLOPs ist um 10 % schneller als 1 TFLOPs. Soviel kann ich die Bestätigen ;)
 
Folding@home hat ja auch schon letztes Jahr die Petaflop Grenze überschritten. Und das nur wegen der Integration der PS3. Ich kenn mich mit Konsolen nicht so wirklich aus, aber soweit mit bekannt, ist der Cell Prozessor in der PS3 für diese Leistung verantwortlich. Da zeigt sich auch, dass Prozessoren, die auf Grafik spezialisiert sind, durch ihre massive Parallelrechenleistung (Stichwort Shader) auch für numerische wissenschaftliche Berechung prädestiniert sind.
 
Wenn man schon von der eigentlichen Quelle spricht, dann wohl von dieser hier: http://www.wcm.bull.com/internet/pr/rend.jsp?DocId=350329&lang=en und dort ist nicht offiziell von dem GT200 die Rede. Warten wir also ab, ob hier wirklich die Basis ein GT200 sein wird, oder ob es sich wie so oft nicht nur um zementierte Spekulation handelt.

Die sollte dem Beitrag als Referenz noch hinzugefügt werden.
 
Zuletzt bearbeitet von einem Moderator:
Die FLOPS kann man schon messen, zumindest mehr oder weniger, nur macht das keiner. Sie werden einfach anhand der berechnungseinheiten und dem Takt ausgerechnet.

Deswegen kommt auch eine GPU auf solche irrsinnigen Werte, die nicht der echten, sondern nur der Theoretischen maximalleistung entsprechen.

Da braucht nur die Vektorlänge der vorgesehenen Berechnung nicht 100% übereinzustimmen(und das ist sehr warscheinlich) und schon hat man soviel Overhead das locker zig % an FLOPS "verloren" gehen.

Dieses Problem(fixe Vektorlänge) ergibt sich bei den CPUs nicht, was wohl auch der Grund dafür ist das bisher keine GPUs verbaut wurden.


Fazit : viel Wind um Nichts. Man kann mit hoher FLOPS Zahl werben, erreicht diese aber eh nicht.
 
Man kann sich ja eigentlich schon denken, dass die gesatme Stromaufnahme dieses Konstrukts weit unterhalb dessen liegen wird, was jeder andere bisherige Supercomputer benötigt, um auch nur annähernd an 300 TFLOP/s heranzukommen.

"Lediglich" etwas über 1000 CPUs und lediglich 96GPGPUs wären doch deutlich weniger, als jeder andere bisherige Supercomputer in seinem Cluster verwendet. Verglichen mit dem JuGene/P in Jülich, der wie bereits angesprochen, der zweitschnellste Supercomputer der Welt ist (und welcher um beinahe ein Drittel hinter der Rechenleistung des hier geplanten Großrechners zurückfällt), ist das ein Quantensprung. Der Jülich-Rechner verwendet satte 65536 CPUs. Selbst wenn hiermit dedizierte Kerne gemeint sind, so wären das immer noch minimum 16384 (Quadcore) CPUs -> was um den Faktor 16 höher ist, als die verwendeten 8Kerner Becktons. 96GPGPUs werden vom Stromverbrauch sicherlich auch nicht allzu sehr ins Gewicht fallen, kommen sie ja sogar (aktuelle Tesla´s) mit herkömmlicher Dualslot Lüfterkühlung aus.

Cya, Mäxl
 
jeder der seine Probleme mit Flops hat, sollte nochmal den Post #9 (1668mib) durchlesen. Warum haben GPUs so viel mehr FLOPs wie CPUs? Vielleicht hilft folgendes (rein gedankliches) Beispiel:
eine CPU mit 4 Kernen, die mit 64bit langen Befehlen arbeitet, kann 4 64bit Rechnungen parallel berechnen. Eine GPU mit 16 Kernen aber 16bit Befehlen kann 16 16bit Rechnungen parallel bearbeiten. Selbst wenn die CPU beispielsweise doppelt so schnell taktet, hat sie immer noch halb so viele Rechnungen in der gleichen Zeit. Wenn man jetzt 16bit Rechnungen rechnen will, sind die GPUs ganz toll. Will man aber 64bit Rechnungen rechnen, dann sehen die GPUs recht alt aus.

Oder anderes Beispiel: nur weil 2 Tonnen der Masse aus einem schwarzen Loch auf einen Teelöffel passen, kannst du nicht sagen, wie viel Platz dass 2 Tonnen Feldern brauchen. Du würdest wohl nichtmal ein halbes Kilo auf einen Teelöffel bekommen...

Das Ganze soll nur als Erklärung für die Einheit FLOPs gelten. Ich weiß, dass es nicht so ist und ihr braucht mich auch nicht in Stücke zu reißen. Einfach nochmal Post #9 lesen.
 
1668mib schrieb:
Naja ich mag die FLOP/s-Angaben irgendwie nicht, die sind eigentlich so ziemlich nichtssagend...
Nichtssagend würde ich nicht sagen, aber zumindest recht theoretisch. nVidias Flops Leistung setzt sich zB momentan aus 1xADD und 2xMUL pro Takt zusammen. Wenn die Anforderungen der Berechnungen hingegen einem Verhältnis von 2 zu 1 (ADD zu MUL) entsprechen, kann diese theoretische Leistung in der Praxis schnell mal nur noch die Hälfte wert sein.

SC6 schrieb:
Ich kann die genannten Zahlen nicht nachvollziehen, geschweigen denn mir vorstellen.

8.544 Nehalem Kerne sollen 192 TFLOPs leisten, soweit so gut.
Aber im Verhältnis dazu sollen 96 GT200 103 TFLOPs Rechenleistung bringen?

Also entweder unterschätze ich die Leistung dieser GPUs massiv, oder aber die Zahlen stimmen nicht. Mal ganz ab gesehen von dem bereits oben angebrachten Einwand:

96 GT200 zu je 1,01 GFLOPs = 103 TFLOPs

so what? Bitte kann mir das jemand erklären?
Erstmal sollte man sagen, dass offiziell wohl gar keine konkrete Hardware genannt wurde. So findet man zumindest die Infos bei Bull (generalist computing nodes Intel, specialist 512-core GPU nodes). Nehalem und GT200 sind daher vermutlich reine Spekulation. Ansonsten sind die Zahlen schon nicht unrealistisch. Allerdings hat TG Daily hier etwas durcheinander gebracht, die 103 TFlops beziehen sich auf die CPUs, die 192 TFlops auf die GPUs. Das wäre recht viel für die GPUs, ziemlich genau 2 TFlops pro GPU. Der RV770 hat zB 1 TFlops bei der HD 4870. Die CPUs hingegen werfen einige Fragen auf. 103 TFlops bei 8544 Kernen (8x1068) ist nicht gerade viel. Das macht ~12 GFlops pro Kern. Ziemlich exakt die Leistung, die Intel beim QX9650 angibt (48 GFlops gesamt). Also entweder hat Nehalem nicht mehr Leistung oder es kommen deutlich niedriger getaktete Modelle zum Einsatz. Penryn kann es eigentlich nicht mehr sein, da hier maximal ein 6-Kerner geplant ist (Dunnington).

thenebu schrieb:
ABER warum hat der GT200 50mal(!) soviele FLOPs wie ein neuer Nehalem ????

Bitte um Klärung!
Wie gesagt, welche Hardware letztendlich eingesetzt wird, bleibt offen. Dass eine GPU aber deutlich leistungsfähiger ist, ist kein Wunder. GP CPU Kerne, in dem Fall x86, Itanium kann ich mir nicht wirklich vorstellen, haben idR ganz wenige FPU Einheiten. Der Core2 hat afaik jeweils eine 128 Bit ADD und MUL Einheit. Und die können maximal einen entsprechend grossen Vektor bearbeiten. SSE ist eine 128 Bit Pipeline, d.h. also zB 4 Single Precision (32 Bit) oder 2 Double Precision (64 Bit) Berechnungen. Im Gegensatz dazu schau dir mal GPUs an. Der RV770 hat insgesamt 480 (!) Streamprozessoren, welche pro Takt jeweils eine ADD und eine MUL Berechnung durchführen können. Bezogen auf einen 4-fach Vektor ein Unterschied von Faktor 120 gegenüber einem CPU Kern. Wenn man die 4 Kerne eines Quadcores und Taktraten von 3 GHz bei der CPU gegenüber 1 GHz bei den Streamprozessoren einbezieht, bleibt immer noch ein Faktor von 10 übrig.

Gepi87 schrieb:
Wie kann man eigentlich feststellen wieviel FLOPs eine GPU und CPU schafft?
Bei x86 CPUs ist das nicht so einfach beantwortbar. Da spielen Präzision oder die verwendete Pipeline (x87, 3dnow, SSE) eine Rolle. Bei aktuellen GPUs wird es wie folgt errechnet: Berechnungen pro Takt (ADD, MUL) * Streamprozessoren pro Shader * Anzahl Shader * Taktfrequenz der Shader (Hz) = Flops.
 
Hmmm...hab nur 613 mFLOPs :/

Mein nächster Rig wird nen Superrig :D:D


Edit: Stellt euch mal vor die Übertakten die komplette Hardware dann stable um 10% o.O
 
Ich wurde mich auch. 1 TeraFlop ist ja nicht soooo viel mehr als bei anderen aktuellen Karten.
 
Richtig währe:

"Der neue Bull NovaScale Supercomputer besteht aus einem Cluster von 1.068 8-Core-Knoten (Intel-Prozessoren) für allgemeine Dienste mit einer Leistung von rund 103 Teraflops und 48 spezialisierten 512-Core-GPU-Knoten mit einer zusätzlichen theoretischen Leistung von bis zu 192 Teraflops."

1.068 / 8-Core CPU's = 103 Teraflops
48 / 512-Core GPU's = 192 Teraflops

Bitte den CB Beitrag richtig stellen.... http://www.bull.com/de/presse/2008/2008_9.html

Spekulation: TESLA (G80 GPU Architektur) neue TEGRA (next Gen GT200 GPU Architektur)

mfg HPC Master
 

Anhänge

  • bull-hpc.JPG
    bull-hpc.JPG
    53,2 KB · Aufrufe: 462
  • deskside-tesla-hpc.JPG
    deskside-tesla-hpc.JPG
    102,2 KB · Aufrufe: 451
  • nvidia-tesla-hpc.JPG
    nvidia-tesla-hpc.JPG
    139,1 KB · Aufrufe: 478
Zuletzt bearbeitet:
Das Problem bei GPU´s ist immer noch, dass sie sich nur für bestimmte Berechnungen vernünftig eignen. Selbst bei Folding@home übernehmen GPGPU´s nur bestimmte Berechnungen, während einige komplexere Vorgänge nur von Standard-CPU´s berechnet werden können.
Klar werden GPGPU´s immer flexibler einsetzbar, aber ob man damit irgendwann alles so berechnen kann wie mit einer CPU steht noch in den Sternen.
@TFLOPS als Leistungsindex:
Ist nunmal die gängige Praxis, die Leistung eines Supercomputers anzugeben. Korrekt ist das wirklich nicht immer, weil z.B. Vektorprozessoren sich für bestimmte Aufgaben viel besser eignen, die schnellsten noch installierten Vektorrechner in den TOP500 aber ziemlich weit hinten stehen.
@Quantencomputer:
Es gibt bis heute keinen funktionierenden Quantenrechner, außerdem eignet sich ein Quantencomputer wahrscheinlich nicht für jede Art von Berechnung. In einigen Bereichen wäre ein solcher Rechner aber vermutlich jeder anderen Art von Computer haushoch überlegen. Z.B. könnte damit vermutlich jede Art von Verschlüsselung in Sekunden geknackt werden.
 
Die CB News Meldung ist immer noch falsch - richtig währe:

"Damit hätte man insgesamt satte 8.544 Rechenkerne zur Verfügung und eine maximale Floating-Point-Leistung von 103 TFLOPs...

Die 96 GPUs setzen sich aus 48 Nodes zusammen, die von Nvidia geliefert werden. Dabei handelt es sich um Tesla-S900-GPGPU-Systeme, die auf der noch unbekannten GT200-GPU basieren werden. Die zusätzliche Leistung der GPUs soll bei 192 TFLOPs liegen."


Um die enorme Rechenleistung der GPU's abzurufen, gibt's die CUDA™ SDK Toolkit Software, die auch ständig weiterentwickelt und verbessert wird.

http://www.nvidia.de/object/cuda_learn_de.html

Das CUDA™ Toolkit wird kostenlos zur Verfügung gestellt und ist eine C- / C++- Entwicklungsumgebung für CUDA-fähige Grafikprozessoren.
Sie kann im akademischen, kommerziellen oder privaten Rahmen weiter verarbeitet und genutzt werden.
 
Zuletzt bearbeitet:
@KnoXel (post 32)
Auch wenn das nach klugscheissen aussieht. Dein tolles Beispiel mit dem Teelöffel und dem schwarzen Loch hinkt ein "klein" wenig. Als schwarzes Loch würde die Komplette Erde auf deinen Teelöffel passen. Also etwas mehr als deine 2 Tonnen. ;-)

Aber davon ab: Wichtig wäre wenn die GPU's endlich 'Doppelte Genauigkeit' unterstützen würden. Dann wären sie nämlich endlich auch auch für andere Projekte als nur F@H nutzbar.
 
Zuletzt bearbeitet:
OFF Topic:
"Der Quantensprung: die zweifelhafte Karriere eines Fachausdrucks"
http://www.zeit.de/1996/19/quanten.txt.19960503.xml
Oh man, ich weiss warum Politiker gerne das Wort "Quantensprung" nutzen, um den Leuten vor zu machen es hatte sich viel getan. Wobei es das nicht bedeutet.

"Typisch für den Quantensprung ist, daß er winzig ist und in sehr kurzer Zeit abläuft."

So jetzt zum Thema:
Teraflop hin oder her
Die Frage ist ja was man damit anfangen will, welche Umsetzung wird benötigt.
Mit nem 500PS Truck kommt man auch nicht so schnell von a nach b wie mit nem 300PS Porsche.

Im übrigen weiss dann auch jetzt jeder warum ne GPU dementsprechend mehr Strom benötigt.
 
Zurück
Oben