News Nvidia: Quadro GV100 mit Volta, 5.120 ALUs und 32 GB HBM2

ascer · 27. März 2018

Salvation schrieb:
Die Quadro sowie Tesla verrechnen sich nicht weil sie ECC-Speicher haben!!!

Zum Einen wurde hier ja schon richtig erzählt, dass ECC lediglich Fehler im Speicher korrigieren oder zumindest identifizieren kann. Mit der eigentlichen Berechnung der Daten hat der Speicher aber nichts am Hut. Sollte es sich bewahrheiten, dass für bestimmte Szenarien bestimmte Ops im V100 zu falschen Ergebnissen führen, dann könnte auch ECC-RAM daran gar nichts ändern, weil bereits falsche Ergebnisse im dann im VRAM abgelegt werden.

Salvation schrieb:
Alle GeForce-Karten haben dagegen keinen ECC und daher für Wissenschaftliche Anwendungen nicht brauchbar!

Das ist definitiv inkorrekt. Es gibt viele wissenschaftliche Anwendungsgebiete, in denen das gar kein Problem darstellt.

Deep Learning z.B., als einer der wichtigsten und größten Wachstumsdisziplinen etwa. Dort spielt das gar keine Rolle, wenn ein paar Bits mal kippen. Man sollte im Übrigen nicht vergessen, dass "normaler" VRAM jetzt auch nicht jede Sekunde zig Bits kippen lässt...

ampre · 27. März 2018

Lohnt sich die GV100 überhaupt? Wenn man einen Cluster baut steckt man einfach 2xW9100 Pro rein und hat noch nicht mal den halben Preis der GV100 bezahlt und hat noch mehr Rechenleistung?

ascer · 27. März 2018

Einerseits haben alte Architekturen es an sich, deutlich weniger Speicherbandbreite darzubieten - eine W9100 liegt ja bei 320GB/s, wohingegen eine V100 <= 900 GB/s mitmacht. Andererseits lässt sich nicht jeder Workload immer optimal parallelisieren, gerade bei älteren GPUs: deshalb bietet NVIDIA ja z.B. ihr NVLINK Zeug an, weil (besonders ältere) PCI-E Schnittstellen einfach viel zu langsam sind. Um das zu spezifizieren: der Workload selbst lässt sich natürlich in den allermeisten wissenschaftlichen Szenarien recht gut parallelisieren, aber man muss die Daten dafür halt auch schnell genug auf jede GPU bekommen. Und natürlich auch Ergebnisse untereinander verteilen.

Dann kommt noch dazu, dass die größte Wachstumsdisziplin Deep Learning ist. Ohne TensorCores ist eine W9100 für sehr moderne Anwendungsgebiete also auch weniger geeignet als aktuelle GPUs (wie so häufig).

Und schlussendlich ist CUDA natürlich auch ein großes Problem für AMD. Grundsätzlich hast du ja nämlich Recht: AMD bietet fast immer mehr Rohleistung und das i.d.R. auch noch zu einem niedrigeren Preis. NVIDIA steckt aber enorm viel Entwicklungsressourcen in ordentliche CUDA libraries. Bis vor kurzem fehlten für die meisten Bereiche noch OpenCL-Pendanten von/für AMD. Außerdem laufen die meisten OpenCL-libraries ineffizienter als die CUDA-Äquivalente (liegt (1) daran das an CUDA schon viel länger entwickelt wird und (2) daran, dass NVIDIA eben mehr Entwicklerressourcen aufwenden kann).

Das heißt schlicht und einfach: es ist schwieriger die Rohleistung einer AMD-Karte zu nutzen und die Entwicklungszeit für Experimente ist zum Teil auch höher, wenn man eben mehr per Hand machen muss oder entsprechende libraries schlicht nicht so einfach und schnell zum effizienten Arbeiten zu bewegen sind wie unter CUDA.

HerrRossi · 27. März 2018

addicTix schrieb:
Wollte im Dezember schon auf die 1080 Ti upgraden, als sie noch ~700-800€ gekostet hatte, aber dann dachte ich mir "ne lohnt sich wohl eh nicht, dann lieber noch ein paar Monate gedulden und was von der neuen Generation kaufen"... Ja.

So geht es mir auch. Den Profianwendern mag bei dem ganzen neuen Zeug ja einer abgehen, mich tangiert das alles nicht.

ampre · 27. März 2018

Ich glaube das mit den 900 GB/s ist auch wieder irgend ein Rechentrick von Nividia.

https://www.nvidia.com/en-us/data-center/nvlink/

Hier ist nur noch die Rede von 300 GB/S

SlaterTh90 · 27. März 2018

In dem Link geht es um NV-Link, nicht um die Speicheranbindung der GPU selbst.

ampre · 27. März 2018

Ich hab mich vertan ich meinte die WX9100 Pro und die hat 484 GB/S nicht vergessen man hat dann 2 Karten und die haben dann auch 1000 GB/s .

ascer · 27. März 2018

Bitte informier dich erst. VRAM Bandbreite (GPU<->VRAM) ist was ganz anderes als PCI-E / NVLINK Bandbreite (CPU<->GPU bzw. Inter-GPU).

ampre · 27. März 2018

Ja und ich hab mich schon oben drüber korrigiert. Wie gesagt wenn du 2x 9100 Pro im Server hast, hast du 1000 GB/S das ist in etwa das selbe wie eine GV100.

Der Interconnect bei Nvidia ist NVLink mit 300 GB/S AMD hat hier leider nur PCI 3.0 und da nur 32 GB/s. Wobei man nicht weiß was Infinity Fabric noch im Hintergrund betreibt.

SlaterTh90 · 27. März 2018

Der Software-Support ist definitiv der Hauptpunkt warum AMD nicht viel verwendet wird. Ich meine alle relevanten AI-Frameworks sind entweder Google-Tensor oder Nvidia-Cuda compatibel - nicht aber OpenCL.....

Nvidia macht wirtschaftlich alles perfekt, ob das dem Konsumer jetzt immer passt ist noch ne andere Sache. Ich persönlich kaufe genau aus dem Grund der Softwarepolitik AMD.

jotecklen · 27. März 2018

Mich wundert die Kühllösung. Zum spielen wärs ja ok, aber zum arbeiten nicht etwas laut?
Oder steht so eine Kiste dann im Nebenraum mit meterlangen Kabeln dran? 😋

ampre · 27. März 2018

Das ist ein Server. Der steht im Keller und du greifst per Netzwer darauf zu entweder per Spezialsoftware auf deinem PC oder per Remote Server.

ascer · 28. März 2018

ampre schrieb:
Ja und ich hab mich schon oben drüber korrigiert. Wie gesagt wenn du 2x 9100 Pro im Server hast, hast du 1000 GB/S das ist in etwa das selbe wie eine GV100.

Der Interconnect bei Nvidia ist NVLink mit 300 GB/S AMD hat hier leider nur PCI 3.0 und da nur 32 GB/s. Wobei man nicht weiß was Infinity Fabric noch im Hintergrund betreibt.

Nichts ja und - du hast die Problematik eben noch nicht verstanden.

Wenn du 2 GPUs mit 5 TFlops fp32 betreibst, dann ergibt das nur dann in der Realität <= 10 TFlops für deine Simulationen, wenn sich die Arbeitslast gleichmäßig auf beide GPUs verteilen lässt und du alle notwendigen Daten ausreichend verteilen und wieder einsammeln kannst.

Benötigen bestimmte Operationen schon vor dem Endergebnis Informationen aus dem ganzen Datensatz der aktuell bearbeitet wird, dann muss auch vor dem Endergebnis schon untereinander kommuniziert werden. D.h. VRAM1 <-> GPU1 <-> PCI-E <-> CPU/RAM <-> PCI-E <-> GPU2 <-> VRAM2.
Das wird natürlich umso schlimmer, wenn man mehr als nur 2 GPUs einsetzt. Das ist ja auch der ganze Punkt von NVLINK: da basteln die in einem DGX einen Interlink, wo jede GPU mit jeder GPU kommunizieren kann, ohne PCI-E / CPU / RAM Bottleneck.

Das typische Szenario ist ein map-reduce, wo man Datensatz D optimalerweise in D/2 aufteilt, dann das jeweils auf einer GPU berechnet und am Ende auf der CPU per reduce wieder zu einem Gesamtergebnis zusammenführt.
Wenn bei den Operationen nun viel mit dem VRAM kommuniziert werden muss, limitiert der stark, weil jede GPU ja nur 500 GB/s in deinem Beispiel hat, nicht fast das doppelte, wie die V100.

Das sind gänzlich unterschiedliche Probleme. NVLINK beseitigt das Problem, Daten schnell untereinander auszutauschen, besonders für Zwischenergebnisse. Schneller VRAM beseitigt das Bottleneck, dass Daten nicht schnell genug der GPU zur Verfügung gestellt werden können.

pgene · 28. März 2018

Salvation schrieb:
Die Quadro sowie Tesla verrechnen sich nicht weil sie ECC-Speicher haben!!!
Alle GeForce-Karten haben dagegen keinen ECC und daher für Wissenschaftliche Anwendungen nicht brauchbar!

Boinc und Co beweisen daß das nicht stimmt, du musst die Ergebnisse nur validieren lassen. Das musst du aber eigentlich so gut wie immer wenn du auch nur halbwegs seriös arbeitest, egal auf welcher HW.

JiJiB! · 28. März 2018

Schon traurig, dass AMD den Speicher entwickelt und erst Nvidia ihn richtig zu verbauen weiß...

Hannibal Smith · 28. März 2018

JiJiB! schrieb:
Schon traurig, dass AMD den Speicher entwickelt und erst Nvidia ihn richtig zu verbauen weiß...

Halt ich für nen voreiligen Schluss ... Wo hat AMD bis jetzt nicht gewusst, wie man den Speicher verwendet ? Auch AMD hat Profikarten mit HBM2 ...

-Ps-Y-cO- · 28. März 2018

Ja nur Nimmt Nvidia wohl direkt 4x8GB Stacks und das ganze mal 10.000x
Wobei AMD nur 1 bzw. 2 8GB Stacks nimmt und das ganze vielleicht ebenso 10.000x

Ganz unrecht hat er nicht. Das war mir persönlich aber von Anfang an klar.
AMD und Hynix entwickeln den Speicher, Nvidia erntet dafür die Lorbeeren.

Wartet mal bis Google auf die Idee kommt Ihre TPU (Tensore-Cores) mit HBM zu "Beflügeln"

von DDR3 auf GDDR5 ergibt eine Steigerung von 70% mehr Leistung.
mit HBM könnten da Locker 200% mehr Leistung raus kommen.
Das ist wie gemacht für AI und Künstliche Intelligenz.

Und dort setzt auch NV an.
Wie gesagt... AMD ist nichtmehr der Größte "Feind" wenn es um Performance/Watt geht im Computing/AI

Da ist nun Google an Platz 1 noch vor Intel, IBM, Nvidia, AMD.
Und das nur durch TPU's...

Und lasst mich Raten... Die Ominöse CPU von Intel die im Nvidia DGX-2 drin steckt welche UNBEKANNT ist... hat ZUFÄLLIG FPGA und TPU on-Die

Shoryuken94 · 28. März 2018

Salvation schrieb:
Die Quadro sowie Tesla verrechnen sich nicht weil sie ECC-Speicher haben!!!
Alle GeForce-Karten haben dagegen keinen ECC und daher für Wissenschaftliche Anwendungen nicht brauchbar!

Das ist Schwachsinn. ECC Speicher hat nichts mit der Berechnung zu tun. Du kannst damit nur einen Speicherfehler korrigieren. Auf die errechneten Ergebnisse hat das keinen Einfluss!

Und man verwendet natürlich auch normale Grafikkarten ohne ECC für wissenschaftliche Berechnungen! Warum auch nicht, sie liefern genau wie Tesla Karten die gleichen Ergebnisse. Ergebnisse werden sowieso mehrfach Validiert und nachgeprüft.

Halt ich für nen voreiligen Schluss ... Wo hat AMD bis jetzt nicht gewusst, wie man den Speicher verwendet ? Auch AMD hat Profikarten mit HBM2 ...

AMD hat HBM bisher leider wenig sinnvoll genutzt! Bei Fiji war die Speichergröße ein zu großes limit. Wahrscheinlich hatte sich die Entwicklung verzögert und man hatte einen früheren Release angepeilt.

Bei Vega setzt AMD aus Kostengründen nur auf 2 Stacks. Dadurch ist die Bandbreite nicht schneller als bei GDDR5(x) und man ist wieder im Speicherausbau limitiert. AMD nutzt das Potential nicht aus. AMD macht mit HBM nichts, was man nicht auch mit GDDR5(x) hätte lösen können.

Hannibal Smith · 28. März 2018

Shoryuken94 schrieb:
AMD hat HBM bisher leider wenig sinnvoll genutzt! Bei Fiji war die Speichergröße ein zu großes limit.

Weil technisch nicht mehr ging bei HBM1

Shoryuken94 schrieb:
Bei Vega setzt AMD aus Kostengründen nur auf 2 Stacks.

Was bei einer Gaming Karte durchaus sinn macht.

Klar bei den Prof Karten könnte man 4 Stacks verwenden um die volle Bandbreite verwenden

Die AMD Pro WX-Serie ist die Konkurrenz zu Quadro und die Instincts gegen Tesla oder ?

Hat jemand ne Ahnung was mit der passiert ist ? Da hört man ja auch nix mehr - und wie die sich gegen volta schlägt

SlaterTh90 · 28. März 2018

AMD hat eine Karte mit 4 Stacks und 32gb in Planung als Konkurrenz für die Volta.

News Nvidia: Quadro GV100 mit Volta, 5.120 ALUs und 32 GB HBM2

Captain

Lt. Commander

Captain

Fleet Admiral

Lt. Commander

Lt. Commander

Lt. Commander

Captain

Lt. Commander

Lt. Commander

Lt. Junior Grade

Lt. Commander

Captain

Lieutenant

Commander

Jumbo Frame

Vice Admiral

Admiral

Jumbo Frame

Lt. Commander

Ähnliche Themen