Workstation für Deep Learning

Medione

Lieutenant
Registriert
Feb. 2008
Beiträge
529
Hi Leute,

ich hatte schon einmal einen Thread erstellt, hatte dann aber noch auf den Release der Threadripper Platform gewartet.

Ich möchte ein Multi-GPU System für Deep Learning aufbauen. Dazu sollen mehrere Grafikkarten von Nvidia zum Einsatz kommen.

Ganz grob soll folgendes verbaut werden:
Threadripper 1950x
TR4 Mainboard mit ECC Support
128 GB DDR4 ECC Speicher
4x Nvidia 1080 ti (oder Titan X)
Wasserkühlung?
Netzteil?
Gehäuse?

Festspeicher ist schon vorhanden in Form einer Samsung 850 Pro.

Dazu habe ich folgende Fragen:
CPU: Ich würde gerne AMD anstatt Intel nehmen, obwohl es da recht wenig Erfahrung in diesem Bereich für AMD CPUs gibt. Denkt ihr, dass da Überraschungen zu erwarten sind? Die CPU Leistung ist gar nicht so wichtig; bei den Projekten wurde allerdings immer eine 6950x CPU empfohlen. Die AMD Platform erscheint aufgrund der hohen Anzahl der PCIe Lanes sehr attraktiv..

Grafikkarte: Wird demnächst etwas Neues von Nvidia released werden und lohnt sich eventuell das Warten? Für Deep Learning ist die Bandbreite des RAMs entscheidend. Wenn man ein Custom Design nimmt und den Speicher leicht übertakten möchte, welches Modell sollte man dann nehmen?

MB: Ich denke, hier ist vor allem der ECC Support wichtig. Welche anderen Punkte müsste man noch bedenken?

RAM: Limitiere ich mich durch ECC stark? Ich habe nur DDR4 2400 MHz Speicher gefunden, wobei man bei Vollbestückung vermutlich eh nicht besonders hoch gehen kann. Es ist kein unbedingtes Muss, allerdings hätte ich ECC schon gerne, da lange Berechnungen durchgeführt werden. Welchen Speicher würdet ihr empfehlen?

Netzteil: Wie viel Watt braucht man für diese Konfiguration?
Wasserkühlung: Damit kenne ich mich überhaupt nicht aus. Wie schwierig ist die Installation und gibt es ein System, mit dem sich alle Komponenten vernünftig kühlen lassen würden?

Gehäuse: recht unwichtig, aber vielleicht habt ihr da auch einen Tipp.

Hier mal der Link zu einem Blog, der sich mit Hardware für DL auseinandersetzt:
http://timdettmers.com/2014/09/21/how-to-build-and-use-a-multi-gpu-system-for-deep-learning/

Könntet Ihr mir eine Empfehlung aussprechen? Gibt es im Raum Berlin/Potsdam jemanden, der das Wissen hat und bereit wäre, das System mit mir zusammenzubauen?

Danke
Alexander
 
Zuletzt bearbeitet:
Bezüglich der Grafikkarten würde ich dringend die geplante Software näher betrachten. Es kann gut sein, dass drei Quadro P4000 deutlich schneller sind als 4x 1080 Ti.

Rein von der Rohleistung natürlich niemals, aber bei den Treibern im Computing Bereich weiß man bei Nvidia nie. Und Anfang 2018 soll Nvida Volta für Computing kommen. hier wurden massive Fortschritte versprochen.
 
Zuletzt bearbeitet:
TR gibt es derzeit nur als Gamingplattform.

Schau mal in Richtung EPYC. Gibt es auch in DP-Konfiguration, wenn es sein muß.
 
Soll das Gerät gewerblich genutzt werden? Dann geh zu einem Systemhaus mit einem Wartungsservice vor Ort und schneller Reaktionszeit. Das kostet zwar, ist aber günstiger als ein evtl. mehrtägiger Ausfall des Systems, weil du selber den Fehler suchen, finden und Ersatzteile beschaffen musst.
 
Also, auch, wenn man bei der Konfiguration denken könnte, dass Geld keine Rolle spielt, so ist dies nicht der Fall... ich werde jeden Euro ausgeben, der sinnvoll ist, aber nur so wenig wie nötig, da das Geld ansonsten an anderer Stelle fehlt.

Deswegen soll der Rechner selbst konfiguriert und zusammengebaut werden.

Epyc ist definitiv zu teuer und bietet für mich keine sichtbaren Vorteile. Wir brauchen vor allem die vielen PCIe Lanes. Dass Threadripper nur eine Highend Gaming Plattform ist, würde ich nicht so sehen. Ich halte es eher für Hardware in einer Highend Workstation. Und im Gegensatz zum 6950x wird sogar ECC unterstützt.

Nvidia 1080 TIs/Titan X sind für die verwendete Software die schnellsten Grafikkarten, da nur die SP Performance entscheidend ist.
 
Bin ich mir jetzt nicht so sicher, daß EPYC 'zu teuer' ist. Ja, TR hat die Singlethreadperformance. Aber EPYC hat den Cache und die Lanes. ... Ach was sag ich, klick einfach und schau selber. :)

Ansonsten stimm ich re: CPU zwar zu, daß die TR-CPU(s) für Workstations geeignet sein "sollte" und es, in diesem Sinne, tatsächlich auch ist.

Aber es gibt bisher nur Gamerboards dafür.

Ich sag auch nicht, daß Du EPYC nehmen *sollst*, sondern nur, daß Du nicht vergessen sollst, daß es die auch noch gibt und daß es *womöglich* die bessere Wahl ist, insbesondere unter den Umständen.

Aber am Ende ist es logischerweise Deine Kiste, die Du selber zusammenstellst.
 
hier mal kurz ein Paar Gedanken zu

zum System: laufen die Berechnungen nur in den gpus ab oder auch auf den cpus?
TR bietet zwar viele Lanes, aber brauchst du überhaupt den Durchsatz hin zu den GPUs so hoch?

ECC: mir persönlich ist er immer wichtig, anderen nicht...

AMD/Intel: (bin zwar selber stark amd zugeneigt) denek das macht für dich keinen nennenswerten unterschied, wobei zumindest im Vergleich i9 vs. TR mir der TR angenehmer im Ganzen erscheint, (auch einfacher kühlbar)

GPU: hier würde ich so wenige wie möglich nehmen, dafür aber die stärksten: Ti oder Vega
Nvidia will anfang 2018 den großen Volta bringen für AI/DL aber der wird bestimmt richtig teuer etc
hier würde ich empfehlen dass du mal schaust inwiefern deine Software (nachdem sie wohl auf der Ti am besten läuft?) mit einer vega klar kommt, die scheint hier ja auch was reisen zu können, sofern es ihr liegt oder du wirfst mal einen Blick auf Volta, je nachdem wann du das system brauchst fällt volta raus

bezüglich Wakü: ich hab kürzlich die AiO raus geworfen und bin auf custom gegangen, beste entscheidung ever!
im Anhang sind mal 3 Bilder welche ich grade noch fand, der kühler packt um die 300W passiv (komponenten ca 60°C), mit 2 lüftern dran gut über 1kw sehr leise und wenns hörbar sein darf geht der bestimmt auch bis 1,5kw
hab vorher noch nie eine installiert, ging voll easy und schneller als gedacht, gute Luftkühlung macht auch aufwand

der kühler ist bei ebay für ~85€ erhältlich; teuer werden halt die gpu kühler bestimmt

ich würde aufgrund der hohen Leistungsdichte wakü mindestens für die GPU empfehlen, kann mir nicht vorstellen 4 * 200-250W mit Luft gut zu kühlen, das wird laut und warm, zumal die dann ja keinen slot zwischen frei hätten etc, mit 180W TDP kann ein TR auch gut wärme erzeugen, den würde ich wohl auch dann mit in den Kreislauf bringen

Netzteil: hab ein gebrauchtes aber neues Enermax Platinum 1500 für 150€ ergattert, denke gerade in der Leistungsklasse ist effizienz lohnend, top Netzteil
4*250W gpu + 200W cpu + 50W Ram = 1250W nur für die Leistungskomponenten, würde da mindestens 1500W nehmen

edit: in dem verlinkten Blog kommt es auf eines an: PCIe Lanes und Bandbreite ohne Ende
daher wäre TR mit 64 Lanes gerade so ausreichend, sofern die auch in Form von 4*16 an die GPU kommen und nicht Teile auf dem MB Lanes belegen, so wie es im Blog scheint, dürfte selbst eine 16+16+16+8 Kombination performance kosten oder gar negativ eingehen wenn eine zu wenige Lanes hat
-> dann lohnt der Blick auf Epyc richtig bei 128 Lanes, wobei ich hier keine Boards sehe welche auch viele x16 Ports haben -_-


wakü1.jpg
wakü2.jpg
wakü3.jpg
 
Zuletzt bearbeitet:
Zurück
Oben