GPU für lokale Coding LLM

Metalveteran

Lt. Commander
Registriert
Okt. 2020
Beiträge
1.176
[Bitte fülle den folgenden Fragebogen unbedingt vollständig aus, damit andere Nutzer dir effizient helfen können. Danke! :)]


1. Wie viel Geld bist du bereit auszugeben?
~800€

2. Möchtest du mit der Grafikkarte spielen?
ist irrelevant. Ja, ich werde spielen, aber so oder so wird mir die Leistung locker reichen für meine Spiele, komme bisher auch diesbezüglich noch halbwegs gut mit der GTX 1080 klar. Bin also leidensfähig.

3. Möchtest du die Grafikkarte für spezielle Programme & Anwendungen (z.b. CAD) nutzen? Als Hobby oder bist du Profi? Welche Software wirst du nutzen?
lokale LLMs mit Ollama, spezialisiert auf Coding, für Spieleentwicklung mit Godot. Hobby mit semi-professionellem Langzeit-Ziel.

4. . Wieviele und welche Monitore möchtest du nutzen? Wird G-Sync/FreeSync unterstützt? (Bitte mit Link zum Hersteller oder Preisvergleich!)
3 Monitore, Hauptmonitor ist ein Iiyama ProLite X3270QSU 100Hz/1440p, die anderen werden nur für Desktop-Darstellung benutzt (der kleinste hängt sogar an der iGPU)
Link zum Hauptmonitor: https://iiyama.com/de_de/produkte/prolite-x3270qsu-b1/

5. Nenne uns bitte deine aktuelle/bisherige Hardware:
  • Prozessor (CPU): 7800X3D, 64GB RAM
  • Aktuelle/Bisherige Grafikkarte (GPU): GTX1080
  • Netzteil(Genaue Bezeichnung): MSI MAG A850G (850W)
  • Gehäuse: Sharkoon M30
6. Hast du besondere Wünsche bezüglich der Grafikkarte? (Lautstärke, Anschlüsse, Farbe, Hersteller, Beleuchtung etc.)
Sollte halt ins Gehäuse und ans Netzteil passen, zudem nicht ZU laut bei dauerhafter Auslastung mit LLMs (4-6 Stunden täglich)

7. Wann möchtest du die Karte kaufen? Möglichst sofort oder kannst du noch ein paar Wochen/Monate warten?
DAS ist die Frage :) Gebraucht nur sehr ungern!


Hallo,

wie oben schon ausgeführt, suche ich eine GPU für lokale Coding LLMs, speziell für Godot Entwicklung. Angedacht bei der Preisklasse wäre eine RTX 5070Ti. Aber es schwirren Gerüchte bzgl. der Super-Varianten rum, dass diese mehr VRAM haben sollen, was natürlich für LLMs immer gut ist. ABER: wenn es gute Modelle für meinen Anwendungszweck gibt, die auch mit 16GB RAM auskommen, würde ich garnicht erst auf die Super-Varianten warten (wollen) und spätestens zu Weihnachten zuschlagen. Zudem stellt sich auch die Frage, welches Modell was taugt?!

Vielen Dank für Ihre Aufmerksamkeit
 
Zuletzt bearbeitet:
Gebrauchte 3090 wenn du eine findest für zb qwen3 mit einer i4 quantization, das Modell dann knappe 18GiB wenn ich mich richtig erinnere.

Speicher trumpft hier
 
Hab es oben erweitert.... gebraucht nur sehr ungern. Dafür muss das Angebot schon "unschlagbar supergut" sein.
 
Metalveteran schrieb:
1. Wie viel Geld bist du bereit auszugeben?
~800€
Gebrauchte 3090 rein für LLMs, du willst die 24GB VRAM
Wenn's neu sein muss eine 5070 Ti
 
Bzgl. der RTX 5000 Super-Reihe. Meine letzte Gerüchteinfo war, dass diese ggf. erst Q2/2026 auftauchen. Preislich ist auch die Frage, ob die dann nicht teurer sind als die jetzigen Standard-Modelle.
 
Metalveteran schrieb:
ABER: wenn es gute Modelle für meinen Anwendungszweck gibt, die auch mit 16GB RAM auskommen, würde ich garnicht erst auf die Super-Varianten warten (wollen) und spätestens zu Weihnachten zuschlagen.
Du kannst die doch erstmal in einer Cloud-Box laufen lassen um zu testen, ob ein LLM das mit 16GB VRAM klar kommt überhaupt ausreichend hilfreich ist...
 
  • Gefällt mir
Reaktionen: madmax2010
Mindestens eine RTX3090.

Oder ein Mac Mini M4
Ergänzung ()

20251015_135646.jpg



eine H100 kostet ~1-1.5 Euro pro stunde, andere GPUs noch weniger.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: oicfar
Metalveteran schrieb:
Ein Abo für Github Copilot kostet nur 10 USD im Monat. Für 800 € kriegst du also ein Abo für fast 100 Monate. Besser und schneller ist das auch. Warum willst du das lokal haben? Meine 4090 hat zwar 24 GB und wäre damit besser als alles, was du für 800 € kriegen kannst, aber trotzdem nutze ich lieber ein großes LLM in der Cloud.
 
  • Gefällt mir
Reaktionen: Volvo480
Copilot habe ich ausprobiert und bin ich nur mäßig zufrieden. Zudem stosse ich zu schnell an die Limits. Aktuell habe ich ein Claude-Abo und nutze es im Terminal mit Claude Code. Mit den Ergebnissen bin ich sehr zufrieden, aber auch da erreiche ich das Limit manchmal zu schnell. Da bräuchte ich schon den Max-Plan, aber 90€ im Monat - thx, but no thx. Daher ja mein Gedanke, eine lokale LLM zu nutzen. Oder würde ich die Qualität von Claude Code sowieso nicht erreichen?
 
  • Gefällt mir
Reaktionen: Volvo480 und JumpingCat
Warum gehst du nicht gegen die API? ich zahle nichts pro Monat fix.
Ich lege pro Projekt einen openrouter Key an und nutze selbigen den in den jeweiligen cli tools
 
Zuletzt bearbeitet:
adfsrg schrieb:
Ein Abo für Github Copilot kostet nur 10 USD im Monat. Für 800 € kriegst du also ein Abo für fast 100 Monate. Besser und schneller ist das auch.
Der Vollständigkeit halber sollte man auch noch den erhöhten Stromverbrauch beim Betrieb eines lokalen LLMs mit einrechnen. Auch wenn die Stromkosten dadurch nur minimal steigen, hat man die bei der Cloud eben gar nicht, sondern nur die festen Abokosten.
 
  • Gefällt mir
Reaktionen: adfsrg
Metalveteran schrieb:
Copilot oder Github Copilot Pro? Den meine ich nämlich. Da kannst du verschieden Modelle wählen, auch Claude. Hier die Auswahl, die ich im Visual Studio hab:
1760794141460.png

Bei den Standardmodellen kannst du soviele Anfragen stellen, wie du magst. Dazu hast du noch 300 Premiumanfragen pro Monat kostenlos, kannst aber auch nachkaufen, falls es mal nicht reicht. Premiumanfragen nutze ich für komplexe Dinge wie "Mach mir ein Projekt, das dies und jenes kann" (natürlich im Agentenmodus und nicht im Fragemodus. Dann macht der wirklich alles selbst). Einfache Dinge wie "ergänz mir mal die Funktion um ein aussagekräftiges Logging", kriegen auch die Standardmodell gut hin.

Mit einem lokalen Modell kriegst du die Qualität von Claude nicht hin, sonst würde das ja jeder so machen. Außerdem hab ich die Erfahrung gemacht, dass die großen Cloud-Modelle mit Werkzeugen viel besser umgehen können als die kleinen lokalen Modell.
 
  • Gefällt mir
Reaktionen: Volvo480 und Dango.
Ja, es war Github Copilot Pro. Hab da mal 30 Tage Trial gemacht. Aber wie gesagt, ich komme zu schnell an die Limits (was sicherlich auch der Unerfahrenheit bzgl. guter Prompts geschuldet ist).

Hm. Hmm. Hmmm. Würde dann LLM Chaining Sinn machen? Eine lokale LLM zum planen, und wenn alles steht, das ganze an Claude schicken.

Frag ich ne Cloud LLM nach guten Modellen bekomm ich durchaus Ergebnisse, die zumindest "plausibel" klingen. Aber das ist dann der Punkt, wo eine KI nicht wirklich brauchbare Ergebnisse liefert/liefern kann und man weiterhin auf menschliche Erfahrung angewiesen ist.

Ich denke, ich muss da nochmal in mich gehen...
 
Unterschieldiche modelle zu mischen ergibt oft sinn undwird inzwischen an vielen stellen im Backend automatisch gemacht

Rickmer schrieb:
Du kannst die doch erstmal in einer Cloud-Box laufen lassen um zu testen, ob ein LLM das mit 16GB VRAM klar kommt
Metalveteran schrieb:
Frag ich ne Cloud LLM nach guten Modellen bekomm ich durchaus Ergebnisse, die zumindest "plausibel" klingen.
Joa, ausprobieren, nicht mit stochastischen Objekten philisophieren
Rickmer schrieb:
überhaupt ausreichend hilfreich ist...
->
https://app.primeintellect.ai/dashb...apest&pricing_type=Cheapest&security=Cheapest

:)
 
Metalveteran schrieb:
Aber wie gesagt, ich komme zu schnell an die Limits
Aber wie gesagt: die Standardmodelle haben keine Limits. Da kannst du so viele Anfragen stellen, wie du magst. Die Qualität ist trotzdem einem lokalen Modell überlegen.
 
...also NOCH schlimmer als Gemini 2.5 Flash? Dann hat sich das Thema sowieso erledigt^^ Ich habe gedacht (naja, eher gehofft), das lokale Modelle, die auf Coding ausgelegt sind, die freien Cloud-Modelle, die "von allem etwas" können, doch überlegen sind.
 
Guck dir mal opencode an: https://opencode.ai/

Als GPU dann eine 5070ti, die hat auch ordentlich Speicherdurchsatz.
 
Metalveteran schrieb:
Dafür muss das Angebot schon "unschlagbar supergut" sein.
Die 3090 verkauft sich gebraucht sehr teuer. Einfach weil die immer noch die günstigste Grafikkarte mit 24GB ist.
Habe meine im April für 950€ verkauft
 
Metalveteran schrieb:
also NOCH schlimmer als Gemini 2.5 Flash? Dann hat sich das Thema sowieso erledigt^^
nein, kommt drauf an.. probier eshalt aus
ich arbeite gern mit den qwen coder modellen
 
HerrRossi schrieb:
Opencode habe ich mit Ollama, quen3-coder:30b und RTX A6000 48GB, zum Laufen gebracht. Musste dafür Ollama aber mit OLLAMA_CONTEXT_LENGTH=32768 starten. Darunter wollten die Tools nicht ausgeführt werden.

Es ist am Ende die Frage, wie intensiv man on–prem KI für Coding nutzen möchte. Meine bisherige Erfahrung sagt mir, dass man Modelle mit 32B bis 70B Parametern einsetzen muss. Manchmal auch mehr.
 
  • Gefällt mir
Reaktionen: HerrRossi und madmax2010
Zurück
Oben