News Nvidia Tesla P100: GP100 als großer Pascal soll „All In“ für HPC-Markt gehen

Erstaunlich ist der schier riesige Chip, der 610 mm² groß ist
Das ist der halbe Flächeninhalt eines 5,5" Smartphones. Mein Note 2 hat 1200mm^2 - krass.

Die TDP ist mit 300 Watt angegeben.
Da wirds aber schon knapp mit 2x8 Pin. Rechnerisch gehts, klar, aber in der Praxis?
Und wie kühlt man etwas effizient, das 4x so groß und 3x so heiß ist wie ein i7?
Doch wohl kaum mit ner 2-Slot Luftkühlung bei 80db, oder?
 
Ich bezweifle dass ein Interposer auch nur einen einzigen Transistor hat. Bzgl. HBM finde ich auf die schnelle keinen Transistorcount, aber wird wohl schon hinkommen.
Könnte wirklich in etwa hinkommen. Bei DRAM benötigt man ja immer circa 1 Transistor pro Bit, ergo kann man mit 150 MRD Transistoren maximal circa 17.5 GiByte Speichern.
 
Falls es niemandem aufgefallen sein sollte:
in den GPC sind die SM(2x32 CUDA-Cores FP32) jetzt zu zweit in TPC (2xSM(64) = 128 Cores gruppiert.

5x TPC(128Cores) je GPC (640 FP32CUDACores)

Eine Gruppierung zu TPC gab es zuletzt bei der GTX280 GT200 da aber noch ohne GPC(die waren noch nicht erfunden)
Die GTX480 nutzt ausschließlich GPC mit SM --> Maxwell TitanX auch
 
Bin mal gespannt mit wie viel Speicher die 980 und Ti Nachfolger an den Start gehen werden.

Und ob die Ti auch kein HBM2 kriegt ? Evtl. nur die Titan Anfang 17 ?


Nun, wir werden es bald erleben.


Evtl. geb' ich mich ja dann doch mit ner 1080 zufrieden, je nachdem wie das da mit dem Speicher aussieht. Da bin ich mal auf die Tests gespannt, wenn die rauskommen.

Hoffe auch auf schöne, passende Monitore dafür.
Wenn's da nix dolles gibt, bis Ende des Jahres, mit DP 1.3 usw., kann ich auch noch bis zur Titan warten und hoffen dass die Gamer Variante dann auch mit 16GB HBM2 kommt.

Naja, abwarten und Kaffee trinken.
 
Also ein Fehler ist aber in eurem Bericht drin, wenn er auch sonst ganz nett ist.

Fermi GF1x0 konnte auch 1:2 DP:SP
 
dann zihste 15 mrd für die gpu ab

dürfte zimlich genau 16 gb ram rauskommen.

also ja wtf ist das ein monster.

wense mir den als geforce verkaufen zahl ich gerne 1000 euro :evillol:

wird aber woll nur einen beschnittenen halb kastrierten chip für die ti karten geben wie jetzt die 980ti.

einen echten vollausbau wie die 780 ti monster werden wir nicht mehr so schnell sehen.

ausser amd ist nochmal stark genug damit der teildeaktivierte chip nicht reicht.
 
borizb schrieb:
Das ist der halbe Flächeninhalt eines 5,5" Smartphones. Mein Note 2 hat 1200mm^2

Nein hat es nicht, du hast eine 0 vergessen: 151x80=12080

Der Chip hat in etwa denselben Flächeninhalt wie eine 5DM Münze.
 
Zuletzt bearbeitet:
Es erscheint nicht unwahrscheinlich, dass dies erst Anfang nächsten Jahres der Fall sein wird. Der kleinere GP104 als Nachfolger des GM204 und Ablöse der GeForce GTX 980 sowie GeForce GTX 980 Ti wird gegen Mitte des Jahres erwartet.
Klar warum sollte man auch sofort die schnellste Variante raushauen, wenn die Leute sich erst mal alle auf die kleinere Variante stürzen werden/sollen um dann später mit dem Vollausbau noch mal bei den gleichen Enthusiasten zu kassieren. Und solange man damit AMD in Schach halten kann, geht die Rechnung auch auf.
 
Keine Ahnung wo hier ein ach so toll das könne sich am Consumermarkt, sein soll......

eine Fury/980ti haben auch schon 7,2 TFLOP SP
 
600 mm ² ist schon eine Menge Silicium , 300 W TDP , trotz 16 nm FF Fertigung, beeindruckt mich nicht so.
Ich könnte mir vorstellen das ARM auch im Server Markt in Zukunft eine größere Rolle spielt.
Haben ja Eigentlich alles nötige im Regal. Wenn man sich z.B. die Leistung der neuesten Mali GPU anschaut,
etwas anpassen auf spezielle Algorithmen und schon könnten die gut mitmischen.
Die neuen Xenon Phi Prozessoren gehen ja einen ähnlichen Weg und sind gut am Markt angekommen .
Bin mal gespannt ob Polaris da auch wieder mitspielen darf in dem Markt ,
kann noch interessant werden dieses Jahr.
 
w0mbat schrieb:
...Nein, das stimmt so schon. GP100 hat insg. ca. 150 Milliarden Transistoren. Davon fallen ca. 15 Mrd. auf die GPU selber, deutlich mehr auf Interposer & HBM2.

Seit wann wird denn der Speicher (sowie der Interposer) mitgezählt? Das ist mehr als ungewöhnlich und in Zukunft erst recht nicht hilfreich, wenn dann Chips mit unterschiedlich viel verbauten/aktivierten HBM V-RAM veröffentlicht werden.

Die GPU ist doch die statische Größe bei der ganzen Sache, da ändert sich nix mehr und die Transistoranzahl bleibt gleich - wenn werden nur Teile deaktiviert aber nicht entfernt.
HBM-Speicher kann dagegen allerdings, wie auf verschiedenen Präsentationen gesehen, in variablen Größen verbaut sein - da ergibt dann eine Angabe der variierenden Gesamtsumme an Transistoren keinen Sinn.
 
borizb schrieb:
...
Da wirds aber schon knapp mit 2x8 Pin. Rechnerisch gehts, klar, aber in der Praxis?
Und wie kühlt man etwas effizient, das 4x so groß und 3x so heiß ist wie ein i7?
Doch wohl kaum mit ner 2-Slot Luftkühlung bei 80db, oder?

Wo wird da was knapp? 2x8Pin sind für 2x 150W spezifiziert + max 75W über den PCIe-Slot = max. 375W
Und dann hatten wir auch mal ne 295X2 die @Peak bis 550W in dieser Konfiguration gezogen hat. Ja, jenseits der Spezifikation, nur hat man nicht von hunderten geschmolzener Rechner gehört. Warum wohl?

4x so groß, aber nur 3x so heiß? Perfekt, hat man damit doch proportional mehr Fläche pro abzugebener Leistung verfügbar.
Stell dir vor, wir müssten die 300W von nur 100mm² abführen... das wäre knapp an der Kernschmelze vorbei.
[und da machen sich Leute Gedanken, ob und wie man 140W TDP von einer 460mm² CPU abführen kann]

HPC-Server, da hat es keine Anschlüsse an der Slotblende, 2-Slot-Lamellenkühlkörper über die volle Fläche, Länge und Breite, davor maximale Anzahl von Lüftern. Und die Lautstärke ist mal eines der nebensächlichsten Kriterien im Serverschrank.
Btw was denkst wie werden die bisherigen HPC-Beschleunigerkarten gekühlt? Per Trockeneisbetupfung?
 
Zuletzt bearbeitet:
Flinxflux schrieb:
Ich könnte mir vorstellen das ARM auch im Server Markt in Zukunft eine größere Rolle spielt.
Haben ja Eigentlich alles nötige im Regal. Wenn man sich z.B. die Leistung der neuesten Mali GPU anschaut,
etwas anpassen auf spezielle Algorithmen und schon könnten die gut mitmischen.
Nur ist der Weg von einer Mini-Mobile-GPU zu einem HPC-fähigen Monster ein sehr sehr weiter. Einfach nur Shader-Units aneinanderklatschen wird nicht viel helfen. Da kommen auch Interconnects (intern, extern), Speichermanagement und andere "Kleinigkeiten" ins Spiel.

Davon abgesehen, zählt hier das Software-Framework mind. genauso viel wie die reine Hardware. Und da hat Nvidia mit CUDA in den letzten Jahren schon mal ganz gut vorgelegt Intel folgt jetzt mit ihren Tools.

Eher, als das wir im großen Stil ARM-basierte Maschinen im HPC-Bereich sehen, gibt es diverse Systeme mit FPGA/DSP-Beschleunigern.
 
Was manche hier für Kommentare ablassen ist echt zum schießen.
Das Teil ist ein richtiges Monster. Und dann auch noch diese recht hohen Taktraten. Wer da noch 200W erwartet glaubt auch noch an den Weihnachtsmann.
Bin mal gespannt ob sich Nvidida da nicht etwas verhoben hat. Wird auf jeden Fall Sackenteuer in der Herstellung das Teil.
Aber jetzt macht auch der GP102 Sinn. Für die Gamer macht das Teil nicht so viel Sinn. Da kann man dann doch nen Chip bringen der im Gamingbereich schneller ist und dabei noch erheblich kleiner.
 
Hmm, kein Wort zu Async Shaders??

Asynchronous Shader ist ein Marketing-Begriff von AMD. Daher wird es bei Nvidia auch nie erwähnt werden. Bei NV sind die Shaderprozessoren in Warps gegliedert und die haben ihren eigenen Sheduler und können unabhängige Threads ausführen und demnach auch verschiedenen Ausführungspfaden folgen und das ist seit der 8800 GTX so. Daher sollte es einen auch nicht wundern, das Nvidia nicht wirklich auf die AMD "Neuerung" reagiert.

Hier kurz der Auszug zu Kepler (Seite 9):
http://www.nvidia.de/content/PDF/kepler/NVIDIA-Kepler-GK110-Architecture-Whitepaper.pdf

Halb OT:
Ich konnte 2009 mit meiner Diplomarbeit den Unterschied selbst erleben und er war gewaltig, die AMD-Karten hatten beim Raycasting keine Chance weil die Sheduler die Last nicht sinnvoll verteilt haben die Karten haben wohl immer die komplette Suchtiefe für jeden Strahl benötigt, vorzeitiges Abbrechen brachte keinen Performancegewinn wenn einige Strahlen übrigblieben, bei denen das nicht ging. Bei NV hat jedes neue Abbruchkriterium immer Wirkung gezeigt.
 
10,6 TFLOPs SP-Leistung ist wirklich verdammt mau und kaum besser als Fiji XT oder Big Maxwell..... Ein SP/DP-Verhältnis von 2:1 ist jedoch eine Überraschung.

Jedenfalls bin ich überrascht, dass Big Pascal jetzt schon vorgestellt wurde. AMD hat wohl wieder ein heißes Eisen im Feuer.
 
wer glaubt denn noch an sowas was die markedingabteilung schreibt...

sorry Nvidea..bringt erstmal stabile Treiber raus für die alten Karten....auf euer Gewäsch fällt eh keiner mehr rein...

langsam hab ihrs bei mir richtig versaut..........kaum kauft man sich ne Karte...gibts nur noch scheiss treiber von euch..aber hauptsache ihr habt kohle gemacht....
Ergänzung ()

der_henk schrieb:
Nein hat es nicht, du hast eine 0 vergessen: 151x80=12080

Der Chip hat in etwa denselben Flächeninhalt wie eine 5DM Münze.

mit 5 Mark..sind sie dabei..
 
Zurück
Oben