Server einrichten

Kress · 18. Juni 2022

Guten Tag Zusammen!

Ich stehe aktuell vor der Entscheidung, mir einen eigenen Server einzurichten. Was sich schon nicht ganz trivial gestaltet, hat einen kleinen Knackpunkt, es sollen möglichst viele Grafikkarten für KI-Learning-Anwendungen verbaut werden.

Das Projekt wollte ich schon seit längeren umsetzten, jedoch fand ich die Preise für Hardware alles andere als angenehm.

Mal kurz zu unserm Unternehmen. Wir sind mit der Konstruktion von Maschinenbauteilen beschäftigt und wollen uns für Simulationsaufgaben und KI-Anwendungen einen separaten Server beschaffen. Wir arbeiten mit Software vor Autodesk und selbstverständlich mit dem Simulations-Standart Ansys.

Ansys bietet schon von Haus aus die Möglichkeit, Jobs zu verschicken und separat rechnen zu lassen, wobei zu beachten ist, dass die numerischen Prozesse überwiegend CPU gerechnet ablaufen. Daher benötigt es entweder einen separaten Server oder einen gut integrierte CPU.

Solche Server lassen sich auf diversen Seiten erwerben, jedoch habe ich kein Angebot gefunden, welches nur ansatzweise unsere Bedürfnisse erfüllt. Als Beispiel haben DELL und Intel solche Systeme im Sortiment.

Folgende Komponenten würde ich gerne verbauen

10-16x Nvidia GTX 3080

256 GB RAM

1 Core i9-10980XE oder ähnlich

10 TB SSD (2 TB, 2x 4 TB)

Intel hat für GPU Anwendungen spezielle Tesla Grafikkarten, allerdings sind mir diese zu teuer.

Ich suche einen passenden Schrank und würde mich sehr über ein paar Informationen bezüglich der Ansteuerung (Mainboard, virtuelle Maschine, etc.) freuen. Sehr gerne würde ich die Berechnungen aufteilen (wir haben Strömungsberechnungen und KI (GPU) und FEM (CPU)), alles soll in einem einzigen Schrank stattfinden.

Der Server soll in einem separaten Raum mit Kühlung stehen, alles andere wäre wegen der Wärme- und Geräuschemission auch nicht zumutbar.

Habt ihr Anregungen und Hinweise, dann immer her damit.

Schönes Wochenende!

H3llF15H · 18. Juni 2022

Schon alleine weil das Wort „Unternehmen“ gefallen ist, muss hier zwingend ein Systemhaus konsultiert werden. Wir reden hier halt nicht über 500€.

Kress · 18. Juni 2022

H3llF15H schrieb:
entfernt

Ich will mir hier vorab Infos holen und werde selbstverständlich einen Techniker beauftragen, der mir Gewährleistung und Garantie geben kann.

H3llF15H · 18. Juni 2022

Kam so nicht rüber

Consumer-Karten halte ich schlichtweg für die falsche GPU im Produktivbereich.
Der von dir angegebene Intel-Prozessor ist ebenfalls eine schlechte Wahl, für den Produktivbereich.

Kress · 18. Juni 2022

H3llF15H schrieb:
entfernt

Gerne mehr Infos dazu, gerade was die CPU betrifft.

H3llF15H · 18. Juni 2022

Stichwort „Epyc“ (ggf. „Threadripper“) oder „Xeon“ Prozessoren.

Als GPU würde ich mich auf Quadro-Karten einschießen und prüfen was für oder dagegen spricht. AMD Fire Pro Karten sind raus, die sind nur noch Marktbegleiter.

Sicher, dass 10TB an Speicher reichen? Wir haben dafür eigens ein NAS angeschafft, um die Simulationen auszulagern.

madmax2010 · 18. Juni 2022

Kress schrieb:
Intel hat für GPU Anwendungen spezielle Tesla Grafikkarten, allerdings sind mir diese zu teuer.

nvidia hat tesla

Kress schrieb:
KI-Learning-Anwendungen

Habt ihr wen im unternehmen,der sich mit machinellem Lernen oder KI oder vielleicht sogar beidem auskennt?

Kress schrieb:
Mal kurz zu unserm Unternehmen. Wir sind mit der Konstruktion von Maschinenbauteilen beschäftigt und wollen uns für Simulationsaufgaben und KI-Anwendungen einen separaten Server beschaffen. Wir arbeiten mit Software vor Autodesk und selbstverständlich mit dem Simulations-Standart Ansys.

Guten tag, Darf ich mit Ihnen über Genetische Algorithmen und evolutionäre Strategien sprechen?
Sollte bei euch sinnvoll sein. Neuronale Netze vmtl. eher weniger

Kress schrieb:
Das Projekt wollte ich schon seit längeren umsetzten, jedoch fand ich die Preise für Hardware alles andere als angenehm.

Die preise der fuer dich relevanten Hardware sind seit release nur gefallen. Listenpreise sind VHB

Kress schrieb:
10-16x Nvidia GTX 3080

Die 3080 hat schon vergleichsweise extrem wenig VRAM. Gerade im Training sind diie 10GB, je nachdem was ihr macht, wirklich mickrig. Je nachdem was ihr plant, sind da 40-80 GB schon das minimum.. Nein, NVlink ist keine echte Hilfe.
Das alles davon ausgehend, dass GPUs euch wirklich was bringen

Was ich sagen will: Was fuer machine Leraning / KI? Ob ne V100 mit 80Gb VRAM, 256 CPU Kerne oder 4TB RAM oder eine Mischung daraus sinnvoll ist, steht mit dem geplanten workload. Oder faellt.

Wie Autodesk sich in der Evaluation verhaellt hast du ja auf dem Schirm. Aber viele Architekturen Neuronaler netze verhalten sich unterschiedlich. Reinforcment learning lastet je nach Szenario Komponenten anders aus. Usw..

PHuV · 18. Juni 2022

Du solltest erst mal feststellen, mit welchem Workload Ihr rechnen müßt. 10 GB VRAM ist ganz schnell zu wenig, unter einer 3090 braucht Ihr gar nicht anfangen. Und in einem üblichen Server bekommst Du maximal 4 GPUs zum Laufen.

Wie stark und häufig braucht Ihr das? Wäre eine Cloud-Lösung nicht auch eine Option?

Ansonsten solltest Du Dich wirklich an ein gut spezialisiertes Systemhaus wenden:
https://www.cadnetwork.de/de/produkte/deep-learning
https://www.aime.info/de/
https://www.exxactcorp.com/category/Deep-Learning-HPC-Clusters

Am besten mal in der AWS, Azure oder Google Cloud Plattform mal einen ML/DL Instanz erstellen und eine POC (Proof of Concept, Machbarkeitsstudie) durchführen. Dann hab Ihr schon mal gute Kennzahlen für das, was Ihr anschaffen müßtet.

Update: Ich lese mich gerade mal ein, was Ansys so macht. Wenn ich das richtig sehe, ist das Ding gut für Multi-CPU-Betrieb im Cluster ausgelegt.
https://www.ansys.com/de-de/blog/more-fast-processor-options
Von GPU Unterstützung lese ich gar nichts.

Fusionator · 18. Juni 2022

Mal ganz blöd gefragt: Wäre eine RTX8000 auch dazu geeignet?
Und wie kriegt man 16 GPUs in einen Server rein?
Nachdem das nicht geht bräuchte man demnach 4 Systeme mit etwas in der Richtung mit entsprechender CPU. Eventuell tut es auch ein kleinerer Xeon. Trotzdem nicht wesentlich billiger.
Dazu noch Speicher, Gehäuse usw. Und dann 4x Tesla oder RTX…
Als ich den Preis für eine A100 gesehen habe, bin ich fast vom Stuhl gefallen. Ok, andere Welt. Wer sowas braucht, hat seine Gründe dafür und verdient hoffentlich auch Geld damit.
Der Stromverbrauch pro Gerät wird auch exorbitant sein.
Das wird aber bei der Stromverteilung bestimmt berücksichtigt

Kress schrieb:
fand ich die Preise für Hardware alles andere als angenehm.

In den Bereichen sind die Preise immer noch alles andere als angenehm und das wird sich auch nie ändern.
Bestenfalls kommt der Gebrauchtmarkt in Frage, wenn sich da etwas Passendes finden würde.

Kress · 18. Juni 2022

Vielen Dank für die zahlreichen konstruktiven Beiträge!

Ich werde mal der Reihe nach gehen:

Wir werden bei uns jemanden einstellen, der sich darum kümmert. Ich kann nicht voraussetzten, dass die Person sich mit Hardware auskennt. Ferner soll deswegen alles bereitstehen. Vermutlich wird es auf ein Master-Projekt eines IT-Studenten hinauslaufen (wir haben ein paar Ansprechpartner an der Hochschule). Ob Student oder nicht, die Person wird selbstverständlich adäquat entlohnt.

Die Grafikkarten sollten für die Anwendung an sich o.K. gehen, wobei Tesla natürlich wesentlich geeigneter sind. Jedoch ist das preislich beim besten Willen nicht drin.

Ich hatte gehofft, die Workload entsprechend aufzuteilen. (geht das so einfach, wie ich mir das vorstelle? Falls sich jemand damit auskennt, gerne ein paar Infos dazu)

Ich will einen Server mit 4 Systemen, wobei jedes System durch eine VM angesteuert werden sollte (die Problematik mit den 4 GPU ist bekannt). Dann kann die zuständige Person sich die VM aussuchen, auf der gerechnet werden soll. Am liebsten wären mir zwei, eine für GPU und eine für CPU (FEM Berechnungen).

Ansys arbeite überwiegend numerisch und bietet nur wenig GPU-Anwendungen. Wir haben jedoch auch Strömungsberechnungen, die überwiegend über die GPU gehen.

Der große Punkt bei Ansys ist, dass jeder Rechenkern aufpreispflichtig ist (nur als Info).

Wir brauchen ca. 3-4 Netzteile, das ist bekannt.

Die "Fertigserver" sind zwar abgestimmt, aber ich muss zu viele Kompromisse eingehen. Hinzukommt, dass die Komponenten weit über dem Marktpreis liegen (im Falle der 3080 50 %) https://www.cadnetwork.de/de/produk...8gpu/konfigurator-deep-learning-box-rack-8gpu

Nochmal vielen Dank für die Beiträge!

snaxilian · 18. Juni 2022

Fusionator schrieb:
Bestenfalls kommt der Gebrauchtmarkt in Frage

Das beißt sich aber mit Systemhaus, Garantie, etc.

Kress schrieb:
wir haben Strömungsberechnungen und KI (GPU) und FEM (CPU)

Defacto müsstet ihr entweder zwei Systeme anschaffen, einmal CPU optimiert und einmal GPU optimiert oder ihr müsstet euch einen Hybriden zusammen stellen lassen.
Bei einem Dell wäre dies beispielsweise ein PowerEdge XE8545, Preis wie immer auf Anfrage aber ehrlich gesagt würde ich parallel auch mal den Use Case "Cloud" durch spielen. Da ihr auch einen Schrank sucht sind das weitere Investitionen und ob der vorhandene Strom und die Kühlung ausreicht ist nicht ersichtlich aus deinem Text.
Alle größeren Hyperscaler bieten passende Ressourcen dafür an oder wenn ihr nicht nur IaaS sondern auch Service/Support bei der Einrichtung braucht dann z.B. lokale Anbieter wie z.B. https://nws.netways.de/de/cloud/ wobei es da afaik höchstens A10 GPUs gibt und nicht die großen A100.

konkretor · 18. Juni 2022

Gerade wenn du mit Ansys unterwegs bist bringen grakas nur bei gewissen workloads etwas. Der Rest wird auf der CPU gerechnet.

Es müssen nicht immer die hyperscaler sein. Diverse Firmen rechnen für nen günstigen Preis am hlrs in Stuttgart. Aktuell ist er etwas abgerutscht in den Top500

https://www.sicos-bw.de/

Hier gibt es auch Fortbildungen in dem Bereich

Kress · 18. Juni 2022

snaxilian schrieb:
entfernt

Gebraucht kommt für uns nicht infrage, das liegt nur an der Garantie.

Der Severraum ist mit Kühlung und Stromkreisen bereits vorhanden, daher würde ich gerne davon Gebrauch machen. Es kann gut sein, dass allein der Betrieb kostspieliger ist, aber ich möchte nicht abhängig machen. Der PowerEdge XE8545 wäre natürlich Wahnsinn, bzw. ist er mit ca. 60.000 € auch

das übersteigt mein Budget.

Ergänzung (18. Juni 2022)

konkretor schrieb:
Gerade wenn du mit Ansys unterwegs bist bringen grakas nur bei gewissen workloads etwas. Der Rest wird auf der CPU gerechnet.

Ansys bietet doch die Möglichkeit "zwischenzuspeichern" und die Ergebnisse auszulagern. Warum spielt der VRam dann so eine große Rolle?

Pete11 · 18. Juni 2022

@Kress,
habt Ihr schon mal über eine Zusammenarbeit mit einer Hochschule/Universität nachgedacht?

Kress · 18. Juni 2022

Ich stehe mit einigen Professoren im Kontakt, werde aber nicht weiter Kontakt suchen. Der Grund ist, dass den Professoren nicht selten die betriebswirtschaftliche Komponente bei solchen Projekten fehlt

das ist nicht schlimm, die Personen sind halt daran gewohnt, mit weniger Leistungsdruck zu arbeiten.

xxhagixx · 18. Juni 2022

Kress schrieb:
ch kann nicht voraussetzten, dass die Person sich mit Hardware auskennt. Ferner soll deswegen alles bereitstehen. Vermutlich wird es auf ein Master-Projekt eines IT-Studenten hinauslaufen (wir haben ein paar Ansprechpartner an der Hochschule). Ob Student oder nicht, die Person wird selbstverständlich adäquat entlohnt.

Masterarbeit? Bitte? Ich hoffe, dass ist nicht ernst gemeint. Gibts da wirklich einen Prof der das mitmacht?
Ich mein Simualtion/ML Pipelines in einer Firma ist nun wirklich kein Thema einer Masterarbeit. Abgesehen davon dass es
a) keine wissenschaftliche Komponente enthält,
b) wird es eine Frickelbude und
c) Sollte ein Masterand nicht für Unzulänglichkeiten der Firma hinhalten (aka wenn nichts läuft, ist es auch egal)
d) nach Beendigung der Masterarbeit, bei Problemen (die definitv auftauchen werden) alles still stehen wird.
e) Man sollte sich zumindest ein bisschen mit der Hardware auskennen um den Anwendungsfall, die geeignete Hardware zusammen stellen kann.

Bitte sucht euch einen DevOps Engineer der sich mit der benötigten Wissen der euch auf einer geeigneteten Hardware/Cloud(!) die Plattformen mit den benötigten Pipelines erstellt und bei Problemen diese zeitnah lösen kann.

Kress schrieb:
Die Grafikkarten sollten für die Anwendung an sich o.K. gehen, wobei Tesla natürlich wesentlich geeigneter sind. Jedoch ist das preislich beim besten Willen nicht drin.

Lieber eine Tesla A100 als 10-16 RTX 3080, da es viel einfacher ist nur für eine GPU zu Programmieren und der VRAM bei größeren ML Modellen echt immer ein Knackpunkt ist und da die 40/80Gb es auch einiger einfacher machen.

Kress schrieb:
Die "Fertigserver" sind zwar abgestimmt, aber ich muss zu viele Kompromisse eingehen. Hinzukommt, dass die Komponenten weit über dem Marktpreis liegen (im Falle der 3080 50 %) https://www.cadnetwork.de/de/produk...8gpu/konfigurator-deep-learning-box-rack-8gpu

Die haben halt nicht den Tagesaktuellen Preis. Die RTX 3080 hat erst vor ca 2 Monaten die 1000€ Grenze geknackt und für ein Business Workstation/Server Anbieter spielt der Preis eher auch eine niedriegere Rolle und die Funktionalität und die Ausfallrate eine Höhere.

Zu guter letzt, warum ist dieser Thread im " Gehäuse und Modding" Bereich?

tradedown · 18. Juni 2022

Der Server soll in einem separaten Raum mit Kühlung stehen!

Kress · 19. Juni 2022

xxhagixx schrieb:
Masterarbeit? Bitte? Ich hoffe, dass ist nicht ernst gemeint. Gibts da wirklich einen Prof der das mitmacht?
Ich mein Simualtion/ML Pipelines in einer Firma ist nun wirklich kein Thema einer Masterarbeit. Abgesehen davon dass es
a) keine wissenschaftliche Komponente enthält,
b) wird es eine Frickelbude und
c) Sollte ein Masterand nicht für Unzulänglichkeiten der Firma hinhalten (aka wenn nichts läuft, ist es auch egal)
d) nach Beendigung der Masterarbeit, bei Problemen (die definitv auftauchen werden) alles still stehen wird.
e) Man sollte sich zumindest ein bisschen mit der Hardware auskennen um den Anwendungsfall, die geeignete Hardware zusammen stellen kann.

? das kann ich nicht ganz nachvollziehen. Es geht um die Konstruktion von Bauteilen mit KI (Konstruktion ist mein Kerngeschäft). Der Inhalt soll gerade NICHT der Zusammenbau von irgendwelcher Hardware sein. Deswegen soll ja schon alles bereitstehen.

xxhagixx schrieb:
Bitte sucht euch einen DevOps Engineer der sich mit der benötigten Wissen der euch auf einer geeigneteten Hardware/Cloud(!) die Plattformen mit den benötigten Pipelines erstellt und bei Problemen diese zeitnah lösen kann.

Halte ich nicht für notwendig. Selbstverständlich wird es Probleme geben, jedoch bin ich da zuversichtlich. Ob dann die beste Lösung dabei herauskommt (alles GPU werden gleichmäßig genutzt) ist dann noch eine andere Sache.

xxhagixx schrieb:
Lieber eine Tesla A100 als 10-16 RTX 3080, da es viel einfacher ist nur für eine GPU zu Programmieren und der VRAM bei größeren ML Modellen echt immer ein Knackpunkt ist und da die 40/80Gb es auch einiger einfacher machen.

Es ist doch Standard, dass diverse Applikationen auf mehreren GPU laufen, gerade im Bereich KI. Für die meisten Cloud-Sever ist der Stromverbrauch die wichtigste Komponente und hier schneidet eine Tesla grandios ab. Ich kann darauf verzichten.

xxhagixx schrieb:
Die haben halt nicht den Tagesaktuellen Preis. Die RTX 3080 hat erst vor ca 2 Monaten die 1000€ Grenze geknackt und für ein Business Workstation/Server Anbieter spielt der Preis eher auch eine niedriegere Rolle und die Funktionalität und die Ausfallrate eine Höhere.

Ich denke, wenn ich eine Anfrage schicke wird das auch deutlich, aber ich habe leider noch kein Angebot gefunden, dass meine Spezifikationen abdeckt.

xxhagixx schrieb:
Zu guter letzt, warum ist dieser Thread im " Gehäuse und Modding" Bereich?

Welcher wäre besser geeignet?

Viele Grüße, ich hoffe, ich konnte ein paar Unklarheiten ausräumen.

xxhagixx · 20. Juni 2022

Kress schrieb:
? das kann ich nicht ganz nachvollziehen. Es geht um die Konstruktion von Bauteilen mit KI (Konstruktion ist mein Kerngeschäft). Der Inhalt soll gerade NICHT der Zusammenbau von irgendwelcher Hardware sein. Deswegen soll ja schon alles bereitstehen.

Von 5 Punkten, gehst du auf den unwichtigsten Punkt ein? Wenn ein Zusammengestellter Server zu Teuer ist, wer baut das Ding dann zusammen und macht die Inbetriebnahme? Und da diese Person ungleich des zukünftigen "Was euch auch immer da vorschwebt" Person ist, wäre es dann nicht sinnvoller zu warten bis ihr diese Person habt und dann absprecht was da Sinnvoll ist. Immerhin muss da ja irgendwie Software installiert & betrieben werden, die parallel/nacheinander verschiedenen Artige Simulations/Ml Jobs abarbeitet.

Kress schrieb:
Halte ich nicht für notwendig. Selbstverständlich wird es Probleme geben, jedoch bin ich da zuversichtlich.

Wer sorgt den aktuell dafür in eurer Firma, welche Infrastruktur/Software benutzt wird und hält diese am laufen und hält diese auf dem neuesten Stand? Kann diese Person den DevOps Part dann nicht mitmachen? Ansonsten einen Freelancer zu organisieren gäbe es auch noch als Möglichkeit. Denn das alles auf aufzusetzen ist das eine aber den Betrieb zu gewährleisten ist was anderes!
Der Server muss gewartet& werden. Es müssen Updates & Patches installiert werden (insbesondere bei Breaking Changes kann das echt unangenehm werden). Bei nicht geplanten Vorkommnissen wie z.B. Stromausfällen muss das ganze geprüft und wieder zum laufen gebracht werden. Was ist wenn, wegen einem Defekt, das Ding mehrere Tage ausfällt?

Kress schrieb:
Es ist doch Standard, dass diverse Applikationen auf mehreren GPU laufen, gerade im Bereich KI.

Aber dadurch laufen die Jobs nicht schneller. Insbesondere wenn der VRAM ausgeht, auch im Serverbereich gilt 1 Dicke Gpu > Viele kleine GPUs. Außer es steht genau in der Doku der verwendeten Software was anderes (die ich natürlich nicht kenne).

Nicht Falsch verstehen, dass was ihr erreichen wollt ist Großartig. Wenn es steht und voll Funktionsfähig ist, ist es schon eine echt geile Sache. Aber mit der Naivität mit der ihr da ran geht spricht halt eher das es ein sehr tiefes Grab wird und ihr euch echt dabei Hilfe suchen solltet der euch dabei unterstützt.

Server einrichten

Banned

Admiral Pro

Banned

Admiral Pro

Banned

Admiral Pro

Fleet Admiral

Banned

Commodore

Banned

Admiral

Artikeldetektiv

Banned

Commander

Banned

Ensign

Cadet 3rd Year

Banned

Ensign

Ähnliche Themen