Local LLM Einstieg: Hardware-Empfehlung für kleines Team gesucht

Knalltuete

Lieutenant
Registriert
Aug. 2006
Beiträge
535
Hi zusammen :)

Wir möchten bei uns in der Firma mit lokalen KI-/LLM-Modellen starten und erst einmal praktische Erfahrungen sammeln (Betrieb, Performance, Workflows). Grund dafür ist, dass wir oft sensible Daten verarbeiten.

Use-Cases:
  • lange Dokumente zusammenfassen/überarbeiten
  • Übersetzung
  • Klassifikation
  • Texterstellung
  • später ggf. RAG über interne Dokumente (~100 GB PDFs, seltene Updates)
  • und etwas Vision/Bilderkennung.
Mehr als 3 Benutzer werden aktuell nicht an dem System arbeiten.

Ich schaue aktuell auf Mac Studio (M3 Ultra) und NVIDIA DGX Spark als kompakte und einfache Lösung.

Frage: Reicht so etwas für einen sinnvollen Einstieg, oder ist ein richtiger GPU-Server die bessere Basis? Falls Server: welche grobe Größenordnung ist sinnvoll (z. B. VRAM-Klasse 24 vs. 48/80 GB, 1 vs. 2 GPUs)?

Erfahrungswerte und konkrete Empfehlungen sind sehr willkommen!
 
Was ist das Budget?

2 GPUs arbeiten nicht parallen sondern sequentiell die Abfrage ab. Das kann sinnvoll sein wenn mehrere Leute das nutzen oder Batch Jobs drauf laufen.

Bei 2 oder mehr GPUs darauf achten das die auch alle gleichschnell, d.h. mindestens PCIe 5 mit 8x angebunden sind. Das erfordert schon Mainboards ab ca 300€.

Bedenkte auch den RAM für Kontext.

Unter 32GB vRAM würde ich nicht starten, das bekommst du am günstigsten mit 2x 5070 Ti (jew 16GB), Die sind aber auch schon gut am steigen im Preis.

Ich würde pauschal auf nVidia setzen weil die Schnittstellen da am stabilsten sind und quasi alles out of the box läuft.
 
Das Bugdet ist noch nicht definiert, aber es wäre schön unter 10.000 Euro zu bleiben. Ich wollte mit den Informationen die ich hier vielleicht erhalte, eine grobe Kostenübersicht erhalten. Es muss auch keine Enterprise-Hardware für den Produktiveinsatz sein.

Vermutlich werden auch eher kleinere spezialisiertere Modelle laufen. Ist halt alles noch in der Planungsphase, aber irgendwo muss man ja mal anfangen ;)
 
Liest sich eher so, als würde die reine Inference-Leistung gefragt sein und damit wäre der Spark für mich keine Wahl, denn die Speicherbandbreite ist definitiv ein Flaschenhals. Der ist auch eher als Entwicklerkit für Modelle gedacht und nicht als Host für KI-Modelle.

Man muss sich auch bewusst sein, dass lokale Modelle nie die Performance eines Cloudmodells erreichen werden.

Soll nur ausgeführt oder Modelle auch trainiert weden? Letzteres erfordert noch mehr Ressourcen, gerade bei einem Vision Language Model.

Ich würde wahrscheinlich erst einmal mit einem MacMini anfangen und erst einmal gucken, ob die Modelle überhaupt die gewünschten Ergebnisse liefern und die Kosten bleiben überschaubar. Da kann ich auch erst einmal ganz unklompliziert mittels Ollama oder LM Studio pretrained Modelle testen und mir die Ergebnisse ansehen.
 
2 DXG Spark connected oder halt der Mac Studio Ultra mit 256GB - die 100GB Dokumente legt man eh in eine VectorDB und der Zugriff darauf passiert im Agent per Tool-Call.

JumpingCat schrieb:
2 GPUs arbeiten nicht parallen sondern sequentiell die Abfrage ab.
2 GPUs koennen aber ein groesseres Modell in den VRAM legen, die Layer koennen verteilt werden.

A100 zu teuer, A10 zu klein. Bliebe noch eine RTX 6000 wenn man ueberhaupt Budegt ausreizen will.
 
Würde es zunächst mit nem DGX Spark oder ähnlichem versuchen. Für den ersten Test sollte das laufen, dann wisst ihr ggf. auch, wie ihr skalieren müsst. RAM könnte eine Schwachstelle sein, aber die Datenbank für das RAG muss nicht vollständig im RAM sein.

Ihr könntet auch den M3 Ultra nehmen, aber macOS hat noch einige Einschränkungen, was den Betrieb des Systems als Server anbelangt - insbesondere Updates müssen an der Hardware durchgeführt werden. Dafür ist hier die Skalierbarkeit wohl einfacher, ihr könnt bis zu 4 Mac Studio in einen Cluster packen
 
  • Gefällt mir
Reaktionen: Toms
Als Beispiel ggf interessant, da vor zwei Wochen ausprobiert:
Mit Azure Search , eine S1 Instanz (etwa 70€ pro Monat), dauern mit einem Text-embedding-3-small Modell das chunken und embedding von 1.5GiB PDF Dokumente (ohne OCR, Bilder oä) rund 12h und belegt etwa 4GiB Speicher, Azure Search ist unter der Haube primär Lucene und etwas glue Code. Die Modellkosten für das embedding Modell waren in den 12h etwa 2€ auf Azure Foundry.

Deine Selbstbaulösung mit vergleichbaren Modellen ist eher noch langsamer ;)

Für den normalen Produktiveinsatz brauchst für MS SLA 3 von den Instanzen, ist hier aber nicht relevant.
 
  • Gefällt mir
Reaktionen: Xes
Mein Vorgehen war: günstige 3090 oder 3090 Ti kaufen (hat 24 GB VRAM) und dann damit testen und ausprobieren. Mit 2 Stück kommt ihr auf 48 GB vergleichsweise günstig und könnt die auch noch auf den meisten billigen Consumer Mainboards betreiben. Bei 3 und mehr Karten wirds schwierig wegen der fehlenden PCIe Lanes auf Consumer Hardware.

Der Mac Pro 2019 ist für große Modelle mit bis zu 128 GB VRAM ausgesprochen günstig (verglichen mit moderneren Lösungen und diesem VRAM), aber nicht sehr schnell und verbraucht viel Strom.

Aber so wie ich das sehe, wollt ihr ja erstmal testen. Und wenn ihr genug getestet und entwickelt habt, könnt ihr in einem Jahr die Hardware für den produktiven Einsatz besorgen. Denn dann habt ihr eine genauere Vorstellung davon, was ihr überhaupt braucht. Und dann gibts vielleicht schon den M6 Ultra oder günstigere gebrauchte Alt-Hardware, die diejenigen aussonderten, die schon 2023 anfingen mit testen.
 
Mit der Radeon AI PRO R9700 bekommst Du günstig 32 GB VRAM auf einer Karte, und kannst durch die Bauform auch mehrere verbauen.

Das Gebastel mit gebrauchten, geprügelten Mining-Karten (Nvidia 3090) würde ich nicht anfangen, im Unternehmen schon gar nicht. Die sind vielfach schon "durch".
 
Zuletzt bearbeitet:
Vielen Dank für euren Input! Das hilft mir schon sehr weiter! :)
SKu schrieb:
Soll nur ausgeführt oder Modelle auch trainiert weden? Letzteres erfordert noch mehr Ressourcen, gerade bei einem Vision Language Model.
Es sollen nur Modelle ausgeführt werden.
tomgit schrieb:
Ihr könntet auch den M3 Ultra nehmen, aber macOS hat noch einige Einschränkungen, was den Betrieb des Systems als Server anbelangt - insbesondere Updates müssen an der Hardware durchgeführt werden.
Oh ok, das ist ein guter Punkt. Da werde ich mich mal noch ein wenig schlau machen.
Tornhoof schrieb:
Deine Selbstbaulösung mit vergleichbaren Modellen ist eher noch langsamer ;)
Dass wir keine Geschwindigkeit wie in der Cloud erhalten werden, das ist uns bewusst :)
Hardware-Fan schrieb:
Mit der Radeon AI PRO R9700 bekommst Du günstig 32 GB VRAM auf einer Karte, und kannst durch die Bauform auch mehrere verbauen.
Oh, die hatte ich noch gar nicht auf dem Schirm! Scheint preislich echt interessant zu sein.
 
Er will sie ja nicht im Produktiveinsatz nutzen, sondern zum Testen und Experimentieren. Mit der Radeon gibts halt kein CUDA. Da gäbs dann übrigens die Vega2 Duo mit 64 GB für unter 1000 Euro für den Mac Pro. 2 davon sind 128 GB VRAM fürs Modell.
 
Gerade wollte ich schreiben, dass sich bei der Software in kurzer Zeit Vieles geändert hat (ROCm 7.0 / 7.1 / 7.2). Viele User haben nie eine andere Lösung ausprobiert und schreiben immer noch das, was sie vor 4 Jahren geschrieben haben.

Für Deine Aufgaben brauchst Du kein CUDA, und willst das auch nicht (Vendor Lock-In ==> dauerhaft teuer und unnötig). Der DGX Spark ist eine Enttäuschung für den Preis.

Die alte VEGA würde ich auch nicht mehr nehmen, da steckt noch gar nichts von dem drin, was in den folgenden Generationen für KI nachgerüstet wurde.
 
Zuletzt bearbeitet:
Wie gesagt, gefragt wurde nach einer Einsteigerlösung zum Experimentieren, um erste Erfahrungen zu sammeln. Eines meiner Ergebnisse für meinen Testzweck war, dass sich dafür kein Modell eignet, weil es zu wenig digitalisierte Informationen gibt, um das Modell sinnvoll antworten zu lassen. Dafür reichte mir aber meine Gaminggrafikkarte und ich musste keine neue Hardware kaufen. Die kann man nach der Testphase immer noch anschaffen, wenn man merkt, dass es sich lohnt. Dann hat man auch bessere Vorstellungen davon, was man braucht.
 
Mit einer Gaming-Karte wird er Probleme beim Finanzamt bekommen, bei professionellen Grafikkarten (z. B. Radeon AI PRO) sieht das anders aus. Teuer ist die auch nicht, und 32 GB pro Karte sollten es schon sein. Mit 16 GB kommt man nicht weit.
 
Ich würde da ehrlich gesagt auch den Weg über die Cloud gehen. Es muss ja nicht zwingend direkt bei einem Anbieter wie OpenAI sein: Man kann sich ja bei Datenschutzbedenken einfach ganz klassisch Server bei einem vertrauenswürdigen Provider anmieten, welche über die entsprechenden GPU-Ressourcen verfügen und dort die Models für die Tests komplett selbstverwaltet laufen lassen.
So kann man erstmal testen welche Ressourcen man für den angedachten Usecase wirklich braucht und je nach Anbieter auch flexibel up- und downsizen. Sollte sich das Ganze in der Praxis als doch nicht so nützlich/sinnvoll herausstellen sind derartige Verträge auch wieder schnell gekündigt und man hat nicht mehrere tausend Euro für irgendwelche eigenen "Bastellösungen" ausgegeben, womit man hinterher ggf. nichts mehr anfangen kann.
Hinterher kann man, wenn man das unbedingt möchte, ja immernoch genau passend dimensionierte eigene Hardware anschaffen.
 
Zurück
Oben