GPU für lokale Coding LLM

Metalveteran · 18. Oktober 2025

[Bitte fülle den folgenden Fragebogen unbedingt vollständig aus, damit andere Nutzer dir effizient helfen können. Danke!

]

1. Wie viel Geld bist du bereit auszugeben?
~800€

2. Möchtest du mit der Grafikkarte spielen?
ist irrelevant. Ja, ich werde spielen, aber so oder so wird mir die Leistung locker reichen für meine Spiele, komme bisher auch diesbezüglich noch halbwegs gut mit der GTX 1080 klar. Bin also leidensfähig.

3. Möchtest du die Grafikkarte für spezielle Programme & Anwendungen (z.b. CAD) nutzen? Als Hobby oder bist du Profi? Welche Software wirst du nutzen?
lokale LLMs mit Ollama, spezialisiert auf Coding, für Spieleentwicklung mit Godot. Hobby mit semi-professionellem Langzeit-Ziel.

4. . Wieviele und welche Monitore möchtest du nutzen? Wird G-Sync/FreeSync unterstützt? (Bitte mit Link zum Hersteller oder Preisvergleich!)
3 Monitore, Hauptmonitor ist ein Iiyama ProLite X3270QSU 100Hz/1440p, die anderen werden nur für Desktop-Darstellung benutzt (der kleinste hängt sogar an der iGPU)
Link zum Hauptmonitor: https://iiyama.com/de_de/produkte/prolite-x3270qsu-b1/

5. Nenne uns bitte deine aktuelle/bisherige Hardware:

Prozessor (CPU): 7800X3D, 64GB RAM
Aktuelle/Bisherige Grafikkarte (GPU): GTX1080
Netzteil(Genaue Bezeichnung): MSI MAG A850G (850W)
Gehäuse: Sharkoon M30

6. Hast du besondere Wünsche bezüglich der Grafikkarte? (Lautstärke, Anschlüsse, Farbe, Hersteller, Beleuchtung etc.)
Sollte halt ins Gehäuse und ans Netzteil passen, zudem nicht ZU laut bei dauerhafter Auslastung mit LLMs (4-6 Stunden täglich)

7. Wann möchtest du die Karte kaufen? Möglichst sofort oder kannst du noch ein paar Wochen/Monate warten?
DAS ist die Frage

Gebraucht nur sehr ungern!

Hallo,

wie oben schon ausgeführt, suche ich eine GPU für lokale Coding LLMs, speziell für Godot Entwicklung. Angedacht bei der Preisklasse wäre eine RTX 5070Ti. Aber es schwirren Gerüchte bzgl. der Super-Varianten rum, dass diese mehr VRAM haben sollen, was natürlich für LLMs immer gut ist. ABER: wenn es gute Modelle für meinen Anwendungszweck gibt, die auch mit 16GB RAM auskommen, würde ich garnicht erst auf die Super-Varianten warten (wollen) und spätestens zu Weihnachten zuschlagen. Zudem stellt sich auch die Frage, welches Modell was taugt?!

Vielen Dank für Ihre Aufmerksamkeit

Tornhoof · 18. Oktober 2025

Gebrauchte 3090 wenn du eine findest für zb qwen3 mit einer i4 quantization, das Modell dann knappe 18GiB wenn ich mich richtig erinnere.

Speicher trumpft hier

Metalveteran · 18. Oktober 2025

Hab es oben erweitert.... gebraucht nur sehr ungern. Dafür muss das Angebot schon "unschlagbar supergut" sein.

Rickmer · 18. Oktober 2025

Metalveteran schrieb:
1. Wie viel Geld bist du bereit auszugeben?
~800€

Gebrauchte 3090 rein für LLMs, du willst die 24GB VRAM
Wenn's neu sein muss eine 5070 Ti

ActivEnergy · 18. Oktober 2025

Bzgl. der RTX 5000 Super-Reihe. Meine letzte Gerüchteinfo war, dass diese ggf. erst Q2/2026 auftauchen. Preislich ist auch die Frage, ob die dann nicht teurer sind als die jetzigen Standard-Modelle.

Rickmer · 18. Oktober 2025

Metalveteran schrieb:
ABER: wenn es gute Modelle für meinen Anwendungszweck gibt, die auch mit 16GB RAM auskommen, würde ich garnicht erst auf die Super-Varianten warten (wollen) und spätestens zu Weihnachten zuschlagen.

Du kannst die doch erstmal in einer Cloud-Box laufen lassen um zu testen, ob ein LLM das mit 16GB VRAM klar kommt überhaupt ausreichend hilfreich ist...

madmax2010 · 18. Oktober 2025

Mindestens eine RTX3090.

Oder ein Mac Mini M4

Ergänzung (18. Oktober 2025)

eine H100 kostet ~1-1.5 Euro pro stunde, andere GPUs noch weniger.

adfsrg · 18. Oktober 2025

Metalveteran schrieb:
~800€

Ein Abo für Github Copilot kostet nur 10 USD im Monat. Für 800 € kriegst du also ein Abo für fast 100 Monate. Besser und schneller ist das auch. Warum willst du das lokal haben? Meine 4090 hat zwar 24 GB und wäre damit besser als alles, was du für 800 € kriegen kannst, aber trotzdem nutze ich lieber ein großes LLM in der Cloud.

Metalveteran · 18. Oktober 2025

Copilot habe ich ausprobiert und bin ich nur mäßig zufrieden. Zudem stosse ich zu schnell an die Limits. Aktuell habe ich ein Claude-Abo und nutze es im Terminal mit Claude Code. Mit den Ergebnissen bin ich sehr zufrieden, aber auch da erreiche ich das Limit manchmal zu schnell. Da bräuchte ich schon den Max-Plan, aber 90€ im Monat - thx, but no thx. Daher ja mein Gedanke, eine lokale LLM zu nutzen. Oder würde ich die Qualität von Claude Code sowieso nicht erreichen?

madmax2010 · 18. Oktober 2025

Warum gehst du nicht gegen die API? ich zahle nichts pro Monat fix.
Ich lege pro Projekt einen openrouter Key an und nutze selbigen den in den jeweiligen cli tools

mibbio · 18. Oktober 2025

adfsrg schrieb:
Ein Abo für Github Copilot kostet nur 10 USD im Monat. Für 800 € kriegst du also ein Abo für fast 100 Monate. Besser und schneller ist das auch.

Der Vollständigkeit halber sollte man auch noch den erhöhten Stromverbrauch beim Betrieb eines lokalen LLMs mit einrechnen. Auch wenn die Stromkosten dadurch nur minimal steigen, hat man die bei der Cloud eben gar nicht, sondern nur die festen Abokosten.

adfsrg · 18. Oktober 2025

Metalveteran schrieb:
Copilot

Copilot oder Github Copilot Pro? Den meine ich nämlich. Da kannst du verschieden Modelle wählen, auch Claude. Hier die Auswahl, die ich im Visual Studio hab:

Bei den Standardmodellen kannst du soviele Anfragen stellen, wie du magst. Dazu hast du noch 300 Premiumanfragen pro Monat kostenlos, kannst aber auch nachkaufen, falls es mal nicht reicht. Premiumanfragen nutze ich für komplexe Dinge wie "Mach mir ein Projekt, das dies und jenes kann" (natürlich im Agentenmodus und nicht im Fragemodus. Dann macht der wirklich alles selbst). Einfache Dinge wie "ergänz mir mal die Funktion um ein aussagekräftiges Logging", kriegen auch die Standardmodell gut hin.

Mit einem lokalen Modell kriegst du die Qualität von Claude nicht hin, sonst würde das ja jeder so machen. Außerdem hab ich die Erfahrung gemacht, dass die großen Cloud-Modelle mit Werkzeugen viel besser umgehen können als die kleinen lokalen Modell.

Metalveteran · 18. Oktober 2025

Ja, es war Github Copilot Pro. Hab da mal 30 Tage Trial gemacht. Aber wie gesagt, ich komme zu schnell an die Limits (was sicherlich auch der Unerfahrenheit bzgl. guter Prompts geschuldet ist).

Hm. Hmm. Hmmm. Würde dann LLM Chaining Sinn machen? Eine lokale LLM zum planen, und wenn alles steht, das ganze an Claude schicken.

Frag ich ne Cloud LLM nach guten Modellen bekomm ich durchaus Ergebnisse, die zumindest "plausibel" klingen. Aber das ist dann der Punkt, wo eine KI nicht wirklich brauchbare Ergebnisse liefert/liefern kann und man weiterhin auf menschliche Erfahrung angewiesen ist.

Ich denke, ich muss da nochmal in mich gehen...

madmax2010 · 18. Oktober 2025

Unterschieldiche modelle zu mischen ergibt oft sinn undwird inzwischen an vielen stellen im Backend automatisch gemacht

Rickmer schrieb:
Du kannst die doch erstmal in einer Cloud-Box laufen lassen um zu testen, ob ein LLM das mit 16GB VRAM klar kommt

Metalveteran schrieb:
Frag ich ne Cloud LLM nach guten Modellen bekomm ich durchaus Ergebnisse, die zumindest "plausibel" klingen.

Joa, ausprobieren, nicht mit stochastischen Objekten philisophieren

Rickmer schrieb:
überhaupt ausreichend hilfreich ist...

->
https://app.primeintellect.ai/dashb...apest&pricing_type=Cheapest&security=Cheapest

adfsrg · 18. Oktober 2025

Metalveteran schrieb:
Aber wie gesagt, ich komme zu schnell an die Limits

Aber wie gesagt: die Standardmodelle haben keine Limits. Da kannst du so viele Anfragen stellen, wie du magst. Die Qualität ist trotzdem einem lokalen Modell überlegen.

Metalveteran · 18. Oktober 2025

...also NOCH schlimmer als Gemini 2.5 Flash? Dann hat sich das Thema sowieso erledigt^^ Ich habe gedacht (naja, eher gehofft), das lokale Modelle, die auf Coding ausgelegt sind, die freien Cloud-Modelle, die "von allem etwas" können, doch überlegen sind.

HerrRossi · 18. Oktober 2025

Guck dir mal opencode an: https://opencode.ai/

Als GPU dann eine 5070ti, die hat auch ordentlich Speicherdurchsatz.

SavageSkull · 18. Oktober 2025

Metalveteran schrieb:
Dafür muss das Angebot schon "unschlagbar supergut" sein.

Die 3090 verkauft sich gebraucht sehr teuer. Einfach weil die immer noch die günstigste Grafikkarte mit 24GB ist.
Habe meine im April für 950€ verkauft

madmax2010 · 18. Oktober 2025

Metalveteran schrieb:
also NOCH schlimmer als Gemini 2.5 Flash? Dann hat sich das Thema sowieso erledigt^^

nein, kommt drauf an.. probier eshalt aus
ich arbeite gern mit den qwen coder modellen

oicfar · 18. Oktober 2025

HerrRossi schrieb:
Guck dir mal opencode an: https://opencode.ai/

Opencode habe ich mit Ollama, quen3-coder:30b und RTX A6000 48GB, zum Laufen gebracht. Musste dafür Ollama aber mit OLLAMA_CONTEXT_LENGTH=32768 starten. Darunter wollten die Tools nicht ausgeführt werden.

Es ist am Ende die Frage, wie intensiv man on–prem KI für Coding nutzen möchte. Meine bisherige Erfahrung sagt mir, dass man Modelle mit 32B bis 70B Parametern einsetzen muss. Manchmal auch mehr.

GPU für lokale Coding LLM

Lt. Commander

Commander

Lt. Commander

Silent-Fanatiker Pro

Cadet 3rd Year

Silent-Fanatiker Pro

Fleet Admiral

Lieutenant

Lt. Commander

Fleet Admiral

Admiral

Lieutenant

Lt. Commander

Fleet Admiral

Lieutenant

Lt. Commander

Fleet Admiral

Fleet Admiral

Fleet Admiral

Captain

Ähnliche Themen