Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden.
Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
Kaufberatung - PC für lokale LLMs
- Ersteller Deadlock
- Erstellt am
netzwanze
Ensign
- Registriert
- Okt. 2021
- Beiträge
- 220
Wenn er noch eine Kiste hat, sollte er einfach mal zum experimentieren die alte Kiste mit der RTX 3090 und den llms ausprobieren. Lieber vorher schauen, ob es das macht was er sich wünscht und dann erst in was neues investieren.
Für 10 Jahre, gerade bei dem Zeugs, halte ich für unrealistisch, schon beim Treiber und Sicherheitsupdate-Support.
Für 10 Jahre, gerade bei dem Zeugs, halte ich für unrealistisch, schon beim Treiber und Sicherheitsupdate-Support.
"Mit LLMs rumspielen" und dafür Geld ausgeben ohne ein konkretes Ziel zu haben: schlechte Idee.
Hohere Inferenz-Leistung und VRAM bekommst du nur mit NVIDIA (RTX Pro 6000), nur hohe Inferenzleistung mit kleineren Modellen aber auch, z.B. der RTX 5090.
Ich nutze neben einer RTX 5090 auch eine RTX Pro 2000 (Blackwell - wichtig wegen FP4, siehe https://developer.nvidia.com/blog/i...ficient-and-accurate-low-precision-inference/), weil die Inferenz-Leistung für meine Anwendungen wichtig ist, muss aber wegen VRAM-Mangel (trotz 48GB) immer häufiger auf "Cloud-GPUs" zurückgreifen.
Kurz:
1) viel Inferenz für Chatting => RTX aus der 50er Reihe und soviel VRAM, wie das Budget zulässt, oder
2) viel (V)RAM (unified) für Training und LLMs mit vielen Parametern aber deutlich geringerer Inferenz-Leistung => AMD Ryzen AI Max+ 395 mit 128GB (da auch gespielt werden soll, ansonsten böte sich ein DGX-Spark Clon um die 3k€ an). 96GB kannst der GPU (bei Nutzung von Windows) zuweisen, unter Linux afaik um die 106GB.
Mein Rat:
Für die 3000€ Budget mit LLM + Zocken klar AMD Ryzen AI Max+ 395.
Begründung: RAM aktuell unglaublich teuer, eine RTX 5090 (oder mehrere kleinere) nochmal teurer.
Kompromisse musst du hier lediglich bezgl der Gaming- und Inferenz-Leistung eingehen.
Konkreter Vorschlag: https://www.amazon.de/dp/B0G345VHB8/ von Minisforum.
Edit um den "Konflikt" (Games+LLMs für 3000€) etwas zu verdeutlichen:
das Beste aus beiden Welten wäre wohl ein 9800X3D/9950X3D (für maximale FPS/beste Frametimes beim Zocken) mit 64GB+ RAM, eine RTX Pro 6000 96GB und eine 4TB SSD (für OS, LLMs und ein paar Spiele).
Entweder beschränkt sich "mit LLMs spielen" auf 7B/14B Modelle (mit annehmbarer Quantisierung und Context-Länge) oder du kaufst ein Ryzen AI Max+ 395 System, weil alles andere zwar besser wäre aber absurd teuer wird.
Hohere Inferenz-Leistung und VRAM bekommst du nur mit NVIDIA (RTX Pro 6000), nur hohe Inferenzleistung mit kleineren Modellen aber auch, z.B. der RTX 5090.
Ich nutze neben einer RTX 5090 auch eine RTX Pro 2000 (Blackwell - wichtig wegen FP4, siehe https://developer.nvidia.com/blog/i...ficient-and-accurate-low-precision-inference/), weil die Inferenz-Leistung für meine Anwendungen wichtig ist, muss aber wegen VRAM-Mangel (trotz 48GB) immer häufiger auf "Cloud-GPUs" zurückgreifen.
Kurz:
1) viel Inferenz für Chatting => RTX aus der 50er Reihe und soviel VRAM, wie das Budget zulässt, oder
2) viel (V)RAM (unified) für Training und LLMs mit vielen Parametern aber deutlich geringerer Inferenz-Leistung => AMD Ryzen AI Max+ 395 mit 128GB (da auch gespielt werden soll, ansonsten böte sich ein DGX-Spark Clon um die 3k€ an). 96GB kannst der GPU (bei Nutzung von Windows) zuweisen, unter Linux afaik um die 106GB.
Mein Rat:
Für die 3000€ Budget mit LLM + Zocken klar AMD Ryzen AI Max+ 395.
Begründung: RAM aktuell unglaublich teuer, eine RTX 5090 (oder mehrere kleinere) nochmal teurer.
Kompromisse musst du hier lediglich bezgl der Gaming- und Inferenz-Leistung eingehen.
Konkreter Vorschlag: https://www.amazon.de/dp/B0G345VHB8/ von Minisforum.
Edit um den "Konflikt" (Games+LLMs für 3000€) etwas zu verdeutlichen:
das Beste aus beiden Welten wäre wohl ein 9800X3D/9950X3D (für maximale FPS/beste Frametimes beim Zocken) mit 64GB+ RAM, eine RTX Pro 6000 96GB und eine 4TB SSD (für OS, LLMs und ein paar Spiele).
Entweder beschränkt sich "mit LLMs spielen" auf 7B/14B Modelle (mit annehmbarer Quantisierung und Context-Länge) oder du kaufst ein Ryzen AI Max+ 395 System, weil alles andere zwar besser wäre aber absurd teuer wird.
Zuletzt bearbeitet:
Ich frage mich nur, warum man so viel Geld für ein System ausgeben soll, mit dem man nur experimentieren will.
Wenn bereits eine RTX 3090 gekauft wurde, dann sind damit die Prioritäten bereits klar gesetzt.
Ich finde es demnach unfassbar, wie man hier GPUs wie die RTX Pro 6000 (habe ich ja selbst) empfehlen kann, die ein vielfaches dessen kosten, was das Gesamtbudget hergibt.
Wir reden hier nicht von professionellen oder hochproduktiven Anwendungsbereichen - zumindest geht das für mich aus den zugrundeliegenden Informationen nicht hervor.
Mit Abstrichen, lässt sich wunderbar auch mit einer RTX 3090 "experimentieren". Zudem wurde ja bereits gesagt, dass diese All-in-one Lösungen zum zocken nicht geeignet sind. RTX 4060 Niveau jetzt - ja klasse, was willst du damit in 2-3 Jahren dann anfangen... Tetris spielen?
Viele unserer Kunden "experimentieren" ebenfalls mit GPUs die sogar deutlich unter der Leistungsklasse einer RTX 3090 sind. Es kommt einfach darauf an, wie die Ansprüche definiert sind. Es geht primär ums lernen, ums Spaß haben, wie auch immer... und nicht darum, einen Wettlauf zu gewinnen. Jedenfalls verstehe ich die ursprüngliche Anforderung so.
Wenn bereits eine RTX 3090 gekauft wurde, dann sind damit die Prioritäten bereits klar gesetzt.
Ich finde es demnach unfassbar, wie man hier GPUs wie die RTX Pro 6000 (habe ich ja selbst) empfehlen kann, die ein vielfaches dessen kosten, was das Gesamtbudget hergibt.
Wir reden hier nicht von professionellen oder hochproduktiven Anwendungsbereichen - zumindest geht das für mich aus den zugrundeliegenden Informationen nicht hervor.
Mit Abstrichen, lässt sich wunderbar auch mit einer RTX 3090 "experimentieren". Zudem wurde ja bereits gesagt, dass diese All-in-one Lösungen zum zocken nicht geeignet sind. RTX 4060 Niveau jetzt - ja klasse, was willst du damit in 2-3 Jahren dann anfangen... Tetris spielen?
Viele unserer Kunden "experimentieren" ebenfalls mit GPUs die sogar deutlich unter der Leistungsklasse einer RTX 3090 sind. Es kommt einfach darauf an, wie die Ansprüche definiert sind. Es geht primär ums lernen, ums Spaß haben, wie auch immer... und nicht darum, einen Wettlauf zu gewinnen. Jedenfalls verstehe ich die ursprüngliche Anforderung so.
madmax2010
Fleet Admiral
- Registriert
- Juni 2018
- Beiträge
- 36.831
eine RTX 3090/4090 ist das minimum.Deadlock schrieb:- ggf. irgendwann auf bessere Grafikkarte 4090, 5090 etc aufrüsten
bei den preisen kann man gleich eine H100 stundenweise Mieten. Jahrelang, jeden Tag 8 Stunden.Ultra_Force schrieb:Bei der GPU würde ich zu der PNY RTX Pro 6000 Blackwell Workstation Edition mit 96GB VRAM raten. Damit kannst einigermassen vernünftige LLM laufen lassen.
Gerade wenn man lernen und experimentieren will, lohnt es echt nicht dafuer viel Geld auszugeben.
https://app.primeintellect.ai/dashb...apest&pricing_type=Cheapest&security=Cheapest
Spot Instanzen kosten unter 1 Euro/Stunde
Die richtig guten Open Source modelle brauchen ohnehin eher 500-1000GB (v)RAM
das ist ein guter Kompromiss, hier bremst halt die Speicherbandbreite ordentlich, aber dafuer gibt man nicht ein Vermoegen nur fuer eine GPU aus, die selbst eher ein Kompromiss ist.Gohst schrieb:yzen AI Max 395+
- Registriert
- Juli 2009
- Beiträge
- 1.569
@madmax2010 Daher hat er sich ja bereits eine RTX 3090 gekauft, siehe Post #1.
Das Mieten von Hardware hatten weder er noch ich auf dem Schirm, danke!
Das Mieten von Hardware hatten weder er noch ich auf dem Schirm, danke!
JumpingCat
Rear Admiral
- Registriert
- Juli 2023
- Beiträge
- 5.856
Deadlock schrieb:Das Mieten von Hardware hatten weder er noch ich auf dem Schirm, danke!
Du hast doch im Startposting explizit "offline" Nutzung von LLM angegeben!?
Ich hätte sonst Anbieter wie https://openrouter.ai/ vorgeschlagen.
Minimum wofür?madmax2010 schrieb:eine RTX 3090/4090 ist das minimum.
Davon war ich auch ausgegangen, weswegen ich mein Beispiel mit "Cloud-GPUs" nicht weiter ausgeführt habe.JumpingCat schrieb:Du hast doch im Startposting explizit "offline" Nutzung von LLM angegeben!?
Es kommt eben darauf an, wem man (welche) Daten nachschmeißt. Ich persönlich würde die Hardware mieten und nutzen, ohne dass jemand meine Eingaben ver- oder auswertet.JumpingCat schrieb:Ich hätte sonst Anbieter wie https://openrouter.ai/ vorgeschlagen.
Child
Commander
- Registriert
- Sep. 2006
- Beiträge
- 2.792
Es gibt mehrere Wege, die mein bei dem Thema beschreiten kann. Schlussendlich findet der "Frager" hier eine Auswahl an Varianten aus denen er oder sie dann das passende auswählen kann.BDR529 schrieb:Ich finde es demnach unfassbar, wie man hier GPUs wie die RTX Pro 6000 (habe ich ja selbst) empfehlen kann, die ein vielfaches dessen kosten, was das Gesamtbudget hergibt.
Das passiert eigenverantwortlich. Unfassbar finde ich hier gar nix.
- Registriert
- Juli 2009
- Beiträge
- 1.569
Guter Punkt, hatte ich vergessen, danke. Ich werde besagtem Kumpel sagen, dass er zumindest über eine online-Lösung nachdenken kann. Da er die RTX 3090 aber schon gekauft hat, denke ich nicht, dass er diesen Weg gehen möchte...JumpingCat schrieb:Du hast doch im Startposting explizit "offline" Nutzung von LLM angegeben!?
PrussianHeathen
Ensign
- Registriert
- Mai 2021
- Beiträge
- 193
Das Problem ist "experimentieren" kann so vieles bei AI bedeuten.
Die 3090 ist schon ein sehr guter Anfangspunkt. Der Rest des PCs ist eigentlich egal da alles auf der Grafikkarte berechnet wird. Als Alternative für eine 4090/5090 gibt es auch die AMD Radeon AI PRO R9700 (32GB)
Im Vergleich zu GPUs ist jede CPU viel zu langsam. Also braucht man auch keinen großen System RAM.
Mit einer 3090 kann er locker ~30B LLMs in Q4 nutzen. Solange er einen PC mit nvme SSD hat ist er gut bedient.
Selbst mein Laptop mit 780M iGPU und 48GB 5600 ist nutzbar für 30B MoE (Mixture of Experts) LLMs. Ich bekomme da ~20 token/s.
Zum Schreiben von fanfics/live adventures reichen sogar 8-10 token/s. Das ist langsame Lesegschwindigkeit.
Die 3090 ist schon ein sehr guter Anfangspunkt. Der Rest des PCs ist eigentlich egal da alles auf der Grafikkarte berechnet wird. Als Alternative für eine 4090/5090 gibt es auch die AMD Radeon AI PRO R9700 (32GB)
Im Vergleich zu GPUs ist jede CPU viel zu langsam. Also braucht man auch keinen großen System RAM.
Mit einer 3090 kann er locker ~30B LLMs in Q4 nutzen. Solange er einen PC mit nvme SSD hat ist er gut bedient.
Selbst mein Laptop mit 780M iGPU und 48GB 5600 ist nutzbar für 30B MoE (Mixture of Experts) LLMs. Ich bekomme da ~20 token/s.
Zum Schreiben von fanfics/live adventures reichen sogar 8-10 token/s. Das ist langsame Lesegschwindigkeit.
AwesomSTUFF
Rear Admiral
- Registriert
- Juli 2011
- Beiträge
- 5.574
No offense, aber ziemlich naiv. Dein "Kumpel" sollte sich vllt. erstmal damit auseinandersetzen, was dafür notwendig ist: Spoiler- sicherlich kein 0815 Gaming PC. Wurde ja schon mehrfach geschrieben. Wenn er erstmal merkt, wie "gut" LLMs jetzt schon auf ner 3090 funktionieren, wird ihm glaube ich sehr schnell die Lust an der "intensiven Nutzung" vergehen. Klingt nämlich nicht so als hätten Du oder dein Kumpel viel mit machinelearning oder LLMs am Hut gehabt bisher (quick guess).Deadlock schrieb:Soweit ich das verstehe, will er hobbymäßig mit LLMs herumspielen.
Mein Vorschlag wäre: Bau ihm nen Gaming PC für Subnautica2 (falls es je kommt und dann auf soner Antiquität wie ner 3090 in mehr als "MEDIUM" läuft). Darauf kann er dann ein bisschen rumspielen mit dem RTX LLM Tool oder was auch immer und dann seine steile Karriere als KI-Guru starten, wenn er weiß was er braucht.
JumpingCat
Rear Admiral
- Registriert
- Juli 2023
- Beiträge
- 5.856
aluis schrieb:Wenn man aber was cooles wie OpenClaw machen will, geht das nicht mehr nur lokal
Also auf Anhieb findet man einige Anleitungen das man das lokal mit ollama betreibt. Sind die alle flasch? Zum Beispiel https://codersera.com/blog/openclaw-ollama-setup-guide-run-local-ai-agents-2026 .
PrussianHeathen schrieb:Mit einer 3090 kann er locker ~30B LLMs in Q4 nutzen
Die kann aber nativ kein 4B, oder? Da dürfte eine z.B. 5070Ti schneller sein. Mit 2x 5070Ti hätte man sogar mehr RAM.
blubberbirne
Lt. Commander
- Registriert
- Okt. 2005
- Beiträge
- 1.634
Asus Ascent GX10, oder PNY Spark. Oder halt von einen anderen Hersteller.
128GB Shared Memory, Blackwell Architektur, mind 1TB.
Passt in den Preisrahmen und die 3090er ist somit über
EDIT: und wenn eine Box nicht reicht, einfach per Linkkabel eine zweite dazu packen
128GB Shared Memory, Blackwell Architektur, mind 1TB.
Passt in den Preisrahmen und die 3090er ist somit über
EDIT: und wenn eine Box nicht reicht, einfach per Linkkabel eine zweite dazu packen
PrussianHeathen
Ensign
- Registriert
- Mai 2021
- Beiträge
- 193
Q4 == 4 bit Quantization: nur die "model weights" sind 4bit, die Berechnung findet immernoch in FP16/8 statt.JumpingCat schrieb:Die kann aber nativ kein 4B, oder? Da dürfte eine z.B. 5070Ti schneller sein. Mit 2x 5070Ti hätte man sogar mehr RAM.
Mit Q4_K_M (K_M or K_L are better quantization methods ) sind LLM etwas ungenauer aber brauchen viel weniger RAM. Das ist unabhängig von der Berechnung auf CPU/GPU. Bei lokalen LLMs ist das egal. Da sind die 30B parameter noch die größere Limitierung.
Du dachtest wohl an FP4. Es gibt noch nicht viele LLMs, welche die Berechnung auf FP4 unterstützen.
Ich aber schon.Child schrieb:Es gibt mehrere Wege, die mein bei dem Thema beschreiten kann. Schlussendlich findet der "Frager" hier eine Auswahl an Varianten aus denen er oder sie dann das passende auswählen kann.
Das passiert eigenverantwortlich. Unfassbar finde ich hier gar nix.
Wenn jemand als Fahranfänger nach einem Auto sucht, und ein Budget von 30.000 Euro hat, weil er mal ein bisschen fahren lernen (experimentieren) will, dann schlägst du ja auch keinen Ferrari vor...
Es geht hier einfach um die Verhältnismäßigkeiten. Warum braucht jemand überhaupt den Hinweis, dass es auch Hardware für LLM gibt, die außerhalb seines Budgets liegen und/oder (bitte richtig lesen, danke) nicht vollumfänglich (zumindest nicht langfristig) die Anforderungen erfüllen (z.B. zocken)? Das ergibt für mich einfach keinen Sinn.
Warum schlagt ihr ihm dann nicht gleich einen HPC Server mit 8x H200 NVL oder am besten gleich eine DGX B300 vor? Ja, das war jetzt übertrieben - aber es ging mir ums Prinzip.
Eine RTX 3090 ist zum herumspielen mit LLMs absolut geeignet, und mit einem dazu passenden Grundgerüst kann er im Zweifel später immernoch die RTX 3090 verkaufen und ne größere Karte nehmen. So eine All-in-one Lösung lässt sich nicht so einfach mal eben loswerden, wenn man die bei gestiegenen Ansprüchen wieder verkaufen möchte.
- Registriert
- Juli 2009
- Beiträge
- 1.569
Vielen lieben Dank für den ganzen Input, ich denke, alles Relevante wurde gesagt.
Jetzt muss besagter Freund diesen Thread hier lesen und entscheiden, was genau er eigentlich will.
Ich denke, es läuft auf einen "Gaming-PC mit vorhandener RTX 3090" heraus, auf der er auch mit LLMs experimentieren kann. Falls die dann größer werden, muss er eben nochmal investieren. Das ist, denke ich, aktuell einfach noch nicht sinnvoll absehbar.
Jetzt muss besagter Freund diesen Thread hier lesen und entscheiden, was genau er eigentlich will.
Ich denke, es läuft auf einen "Gaming-PC mit vorhandener RTX 3090" heraus, auf der er auch mit LLMs experimentieren kann. Falls die dann größer werden, muss er eben nochmal investieren. Das ist, denke ich, aktuell einfach noch nicht sinnvoll absehbar.
Für LLMs ist eine schnelle NVMe SSD absolut sinnvoll, denn das Model muss anfangs in den Speicher geladen werden, gerade lokal probiert man oft viele Modelle aus, und wechselt oft dazwischen. Da hilft eine schnelle SSDDeadlock schrieb:Ob bzw. welche der bereits vorhandenen SSDs noch auf SATA setzen, habe ich bereits rückgefragt und werde diesen Beitrag entsprechend editieren.
Das passt ohne Probleme, wie hier schon mehrmals erwähnt wurde, muss man nur die passenden Modelle dazu haben. Ich nutze z.b nur eine RX7700 XT mit 12GB VRAM. Modelle wie Mistral oder ministral mit 5-7B Parametern, quantisiert, gehen damit problemlos. Natürlich kommen so kleine modelle nicht mit den großen Modellen die Gemini, ChatGPT, usw. nutzen, es bleibt also bei Spielerei und Experimenten, produktiv nutzen wird man es eher nicht, außer vielleicht story writing, usw.Deadlock schrieb:Ich denke, es läuft auf einen "Gaming-PC mit vorhandener RTX 3090" heraus, auf der er auch mit LLMs experimentieren kann.
Ähnliche Themen
- Antworten
- 11
- Aufrufe
- 2.035
- Antworten
- 10
- Aufrufe
- 7.954
- Gesperrt
- Antworten
- 1
- Aufrufe
- 845
- Antworten
- 22
- Aufrufe
- 8.077
- Antworten
- 37
- Aufrufe
- 1.842