GPU für lokale Coding LLM

Metalveteran · 18. Oktober 2025

Auf Qwen bin ich auch schon gestossen. Qwen3-coder:30b hat 18GB Größe, das würde die 16GB einer 5070Ti ja "leicht" überschreiten. Gibt es dann große Einbussen in der Geschwindigkeit? Auch hier sagt KI nur "Deine CPU- und RAM Basis sind hervorragend geeignet", aber ich hab dann doch lieber Erfahrungsberichte von lebenden Menschen.

oicfar · 18. Oktober 2025

@Metalveteran ich habe eine RTX 4060 Ti 16GB. Und mit der hatte wollte open code nicht so recht die Tools ausführen. Also, wenn du schon Coding on-prem machen willst, dann mind. 32GB VRAM.

Und die Frage ist, wie viele Tokens/sec. du haben willst. Mit meiner 4060 kann ich auch gpt-oss:20b 4bit laufen lassen. Aber das macht kein Spaß.

Ergänzung (18. Oktober 2025)

Und wenn du Coding machen willst, dann musst du schon hin und wieder mit einem größeren Context arbeiten. Da spreche ich von >64k. Und das alles braucht VRAM.

madmax2010 · 18. Oktober 2025

probier aus wie gut es dir bei deiner Nutzung hilft

Metalveteran schrieb:
das würde die 16GB einer 5070Ti ja "leicht" überschreiten. Gibt es dann große Einbussen in der Geschwindigkeit?

ja

Fuer Jeden Token muss das komplette modell 2x von VRAM durch die GPU propagiert werden.

VRAM -> GPU ~100ns Latenz und 1TB/s
RAM -> GPU ~10.000ns Latenz und eher 32-64GB/s

1GB aus dem RAM zu ziehen dauert ~10-100x so lange wie aus dem VRAM(extrem grob gerundet, geht um Größenordnung)

Ergänzung (18. Oktober 2025)

siehe auch mein Schaubild am M4 beispiel. Der hat 24GB RAM -Was siehst du da unten rechts

Metalveteran · 18. Oktober 2025

M4 ist Apple, da schau ich aus Prinzip nicht hin

Aber egal. Ja, ich probier es einfach aus. Dann stellt sich als nächstes die Frage nach einem guten 5070Ti Modell. Häufig wird zu Zotac geraten (wohl vorrangig wegen 5 Jahren Garantie), kann man da "blind" zugreifen, oder gibt es bessere (leisere) Modelle?

madmax2010 · 18. Oktober 2025

hast du denn jetzt schon ausprobiert welche modelle fuer dich gut funktionieren?

Sonst halt das billigste was deine anforderungen erfuellt

Metalveteran · 18. Oktober 2025

Naja, mit einer GTX 1080 komm ich beim ausprobieren nicht weit.

Auf eine Intel Arc Pro B60 mit 24GB VRAM hatte ich auch schonmal kurz geschielt, aber da sind Tests ja ziemliche Mangelware, dazu steht bei Benchmarks zumindest bei den anderen Arc-Modellen auch schonmal ein "startet nicht" und LLM-Benchmarks finde ich garnicht -.- (edit doch, 4-19 Token/s je nach Modell. Hm)

madmax2010 · 18. Oktober 2025

darum ja die hinweise hier im thread auf plattformen auf denen du Modelle wie du lust hast testen kannst. vor allem openrouter ist wirklich einfach
oder gilt auch bei den Plattformen.

Metalveteran schrieb:
da schau ich aus Prinzip nicht hin

ichmein... Allehier im thread raten dir davon ab eine 5070 zu nehmen und du bleibst dabei, dann ists halt auch egal.

Metalveteran · 18. Oktober 2025

Ich hab ja noch die Arc Pro in den Raum geworfen. Die nVidia nur, weil das so, wie ich danke, vermutlich eh nicht hinhauen wird. Werde das aber gleich mal testen, ob das ganze so wie ich mir das vorstelle überhaupt Sinn macht/möglich ist. (edit die 5070 steht dort eh nicht zur Auswahl)

therealcola · 18. Oktober 2025

Trick 19 schon probiert? Einfach neue Accounts bei Github bzw für Copilot Nutzung erstellen und das vorhandene Coding Schnipsel oder Projekt einfach immer wieder neu einbinden sobald die kostenlosen tokens aufgebraucht sind...

Das mit lokaler LLM bei der Limitierung von Kontext Größe und etc was gutes bei rum kommt wage ich zu bezweifeln.

und bei 265gb ram systemen wo die kontextgröße wieder passt ist die code generierung quälent langsam da CPU heavy...

lohnt ja gar nicht überhaupt irgendwas lokal zu betreiben es sei denn man hat wirklich rein investiert. rtx 6000 pro wäre ein guter start mit 96gb vram...

Ergänzung (18. Oktober 2025)

Metalveteran schrieb:
Auf Qwen bin ich auch schon gestossen. Qwen3-coder:30b hat 18GB Größe, das würde die 16GB einer 5070Ti ja "leicht" überschreiten. Gibt es dann große Einbussen in der Geschwindigkeit?

Kannste vergessen dann ist es nicht schneller als ne CPU außerdem die grafikkarten an sich je nachdem ob man linux oder windows 11 nutzt reservieren schon von sich aus allein wenn man windows 11 lädt etwas an vram das kann man auch noch abziehen

oicfar · 19. Oktober 2025

madmax2010 schrieb:
Anhang anzeigen 1667148

Ich habe mir mehr von NVIDIA DGX Spark "versprochen".

Habe mir vorhin das

reingezogen.

Zielgruppe sollen Entwickler sein. Aber dann müsste das Gerät performanter bei 32b und 70b Modellen sein.

Ich konnte in den letzten Monaten eine RTX 6000 48GB (nicht die Ada Variante) nutzen. Und es war ok. 70B Modelle kann man mit den 48GB auch vergessen. Da nur +5GB für den Context bleiben.

Aus meiner Sicht braucht man im Jahr 2025 schon die RTX PRO 6000 96GB, wenn man on-prem KI fürs Coding braucht.

Ansonsten lieber das Geld in die Online KIs stecken und nach Nutzung mal mehr mal weniger bezahlen. Vielleicht gibt es in paar Monaten oder Jahren einen neuen Ansatz, wo alles schneller ohne Top-Hardware und mit weniger Energieverbrauch funktioniert.

HerrRossi · 19. Oktober 2025

oicfar schrieb:
Aus meiner Sicht braucht man im Jahr 2025 schon die RTX PRO 6000 96GB, wenn man on-prem KI fürs Coding braucht.

Liefern die kleinen Modelle schlechten Code? In welchen Sprachen?

oicfar · 19. Oktober 2025

@HerrRossi die Frage lässt sich nicht so einfach beantworten. Was ist meine Erwartung und worauf lege ich Wert?

Ich nutze die KI für

Bash Scripting -> kann ich, bin aber schon "faul" geworden und lasse es die KI machen
Python -> kann ich nicht und habe keine Zeit um es zu lernen habe 70% der Sachen aber mit ChatGPT/DeepSeek gebaut und die Ergebnisse sind top (Aussage von Personen, die seit 20+ Jahren in der Sprache entwickeln). Ich kann auch schon einschätzen, ob das was da ausgegen wird, murks ist oder nicht. Brauchbare und gute Ergebnisse habe ich ansonsten mit qwen3-coder:30b FP4 und chat-gpt:120b F16 bekommen. Ich versuche hin und wieder 1-2 kleine Python Anwendung mit neuen Modellen nachzubauen. Aber die Zeit und teilweise passende GPU mit mit viel VRAM fehlt.
Java -> aktuell eher für allgemeines Zeug

Mit What is your knowledge cutoff date? Answer with an ISO date (YYYY-MM-DD) or unknown. Do not guess. kannst du ein LLM fragen bis wann sein Wissen "reicht".

Hier mal paar Antworten:

Ich nutze gerne Open WebUI, da ich da die Möglichkeit habe den gleichen Prompt an mehr als 1 LLM zu senden und habe so den Vergleich, wenn ich mir nicht sicher bin, mit welchen Modell ich bessere Ergebnisse erhalte.

Und aus der Antwort von oben, sieht man, dass die on-prem Modelle sich nicht eignen, wenn es um neue Bibliotheken/Frameworks geht. Man kann das Problem mit Aufwand lösen. Aktiv habe ich mich damit aber noch nicht beschäftigt.

Für allgemeine Implementierungen reichen die gängigen Modelle schon aus.

Mit größeren Modellen (32B, 70B, 120B, ...) habe ich schneller das Ergebnis, was mir persönlich reicht. Bei den kleineren Modellen, musst du die Aufgabe in kleinere Schritte zerlegen, was am Ende auch mehr Zeit kostet.

Ergänzung (19. Oktober 2025)

Es gibt dann aber auch spezialisierte Modell, die trotz weniger Parameter besser sind als andere und große Modelle.

D.h. die Kunst besteht aktuell darin in der Menge der Modelle das passende für sich zu finden.

Und wenn man nicht die Zeit hat, muss man dann auf die allgemeinen Modelle zurückgreifen und da ist eher so, je mehr Parameter, desto besser. Und manchmal reicht es schon, wenn man statt INT4/FP4 auf FP8 geht. Kostet dann aber mehr VRAM und auch wird langsamer.

Metalveteran · 19. Oktober 2025

oicfar schrieb:
Python -> kann ich nicht und habe keine Zeit um es zu lernen habe 70% der Sachen aber mit ChatGPT/DeepSeek gebaut und die Ergebnisse sind top (Aussage von Personen, die seit 20+ Jahren in der Sprache entwickeln). Ich kann auch schon einschätzen, ob das was da ausgegen wird, murks ist oder nicht. Brauchbare und gute Ergebnisse habe ich ansonsten mit qwen3-coder:30b FP4 und chat-gpt:120b F16 bekommen. Ich versuche hin und wieder 1-2 kleine Python Anwendung mit neuen Modellen nachzubauen. Aber die Zeit und teilweise passende GPU mit mit viel VRAM fehlt.

Da hake ich mal direkt ein: in Deiner Sig steht eine 4060Ti 16GB, und damit laufen die Modelle? Wie ist denn so die Geschwindigkeit, und vor allem: wie sehen Deine Prompts aus?
Bei mir ist das so, dass ich z.B. sage "lies die json Datei, da stehen Werte drin. Bau mir ein Panel, was mir diese Werte anzeigt. Benutze die BasePanel-Szene als Vorlage, referenziere sie und erweitere sie falls notwendig". Und dann halt Dinge wie "Die Progressbar muss so und so aussehen/ich will eine Tableiste haben/das Panel soll <diesdasjedes> können". Absolut kein Problem mit Claude, aber selbst Gemini Pro und GLM 4.6 haben da schonmal Probleme mit.
Wenn ein lokales Modell dafür 20 Minuten braucht während Claude das in 5 schafft, dann ist das halt so. Hauptsache, das Ergebnis stimmt! UND: halbwegs ein Verständnis der generellen Codebase und der Dokumentation!

oicfar · 19. Oktober 2025

@Metalveteran die qwen3-coder:30b FP4 und chat-gpt:120b F16 Modelle laufen nicht auf meiner 4060.

Das kann ich woanders nutzen. qwen3-coder:30b auf einer RTX 6000 48GB und chat-gpt:120b auf einer H100.

In deinem Beispiel solltest du dann schon im Prompt am Besten beschreiben, wie due Struktur im JSON ist und wie du das genau haben möchtest. Um so von Anfang an schon gezielt das gewünschte Ergebnis zu erhalten.

So was wie Claude oder ChatGPT können besser als die on-prem Modelle die "normale" Sprache interpretieren. Denn dahinter steht eine komplexe Infrastruktur. Da wird sicherlich zuvor dein Prompt für die KI noch umgeschrieben usw. Bei den Online KI's geht die Anfrage NIE direkt zu deren Modell und wird verarbeitet.

Meine Prompts erstelle ich nach der Devise: "So viel wie nötig, so wenig wie möglich.".

Bei speziellen Aufhaben habe ich vordefinierte Templates, die ich verwende. Das Problem ist jedoch, dass die Templates nicht mit jedem LLM genauso funktionieren. Und da hat man nicht die Lust diese anzupassen.

Ansonsten kann man so vorgehen. Du hast z.B. folgenden Prompt.

Let's write a Tic-Tac-Toe game in Python with a graphical user interface.

A tiny Tic-Tac-Toe where each player may have at most three symbols on a fixed 3×3 board.
If a player already has three symbols and makes a new move, their oldest symbol disappears first.
Classic “three-in-a-row” wins (rows, columns, diagonals).

Before you start, please ask me any questions you have about this so I can give you more context. Be extremely comprehensive.

Es beinhaltet nicht viele Informationen. Aber der letzte Satz führt dazu, dass das Modell dir paar Fragen stell.

Und dann abhängig vom verwendeten Modell kriegst du unterschiedliche Ergebnisse.

Bei größeren Projekten und mehr Komplexität würde ich mir erst ein Plan machen. Das kannst du mit Hilfe der KI erledigen und dann Step-by-Step die Umsetzung angehen. Und je mehr Erfahrung man in der Programmierung gesammelt hat, desto einfacher klappt es dann.

Aber mehr "Spaß" macht das ganze in erster Linie mit den Online-KIs und on-prem halt mir den größeren Modellen.

Ergänzung (19. Oktober 2025)

Ende 2024 und Anfang 2025 habe ich noch Vergleiche zwischen den Versionen gemacht, um die Unterschiede besser bewerten zu können.

Das alles ist Zeitaufwendig und ich mache es selten.

Metalveteran · 19. Oktober 2025

@oicfar Okay, mit der Tabelle kann ich jetzt mal so garnichts anfangen^^ v1, v6, hä? Hast Du vielleicht mal einen Link, wo ich mir solche "basics" anlesen kann?

Konzept habe ich ja, und zumindest mit Claude klappt es bis auf vereinzelte Hiccups wie am Schnürchen. Aber damit kann ich halt pro Wochenlimit nur so ~15 Stunden auf "meine" Art arbeiten. Geht natürlich immernoch weitaus schneller als wenn ich alles manuell machen würde. Daher ja meine blauäugige Annahme, eine lokale LLM wäre die Lösung für meine "Probleme"

Zudem die ganzen YT-Videos, die ständig davon faseln, wie gut lokale LLMs doch laufen würden und coden können auch auf gehobener Mittelklasse (wo ich eine 5070Ti zuzählen würde)...... Naja.

oicfar · 19. Oktober 2025

Metalveteran schrieb:
@oicfar Okay, mit der Tabelle kann ich jetzt mal so garnichts anfangen^^ v1, v6, hä? Hast Du vielleicht mal einen Link, wo ich mir solche "basics" anlesen kann?

Das ist mal eine Matrix, die ich für ein kleines Projekt, welches ich mit der KI gebaut habe, erstellt habe.

Habe oben geschrieben, dass ich die KI für:

Bash Scripting
Python
Java

einsetze. Und bei den Bash und Python Skripten erstelle ich mehr als eine Version von einem Skript. Ich fange klein an und baue es aus. Oder später fällt mir noch was ein und lasse es ergänzen. So entstehen die Versionen.

Metalveteran schrieb:
Konzept habe ich ja, und zumindest mit Claude klappt es bis auf vereinzelte Hiccups wie am Schnürchen. Aber damit kann ich halt pro Wochenlimit nur so ~15 Stunden auf "meine" Art arbeiten. Geht natürlich immernoch weitaus schneller als wenn ich alles manuell machen würde. Daher ja meine blauäugige Annahme, eine lokale LLM wäre die Lösung für meine "Probleme" Zudem die ganzen YT-Videos, die ständig davon faseln, wie gut lokale LLMs doch laufen würden und coden können auch auf gehobener Mittelklasse (wo ich eine 5070Ti zuzählen würde)...... Naja.

Die ganzen YT Videos sind keine richtigen Tests. Die lassen nur ein Model laufen, machen paar Prompts, die sie entweder irgendwo kopiert haben (weil sie wissen, dass da was kommt) oder immer wieder benutzen. Du findest aber nirgendwo ein Projekt, wo jemand wirklich mit der KI was entwickelt und zeigt, wie weit man kommt. Das musst du schon selbst rausfinden.

https://www.youtube.com/@ThePrimeTimeagen hat in 2025 mit 2-3 anderen ein Spiel in einer Woche bauen wollen. Haben es auch Live auf YT übertragen. Ich habe paar mal kurz reingeschaut.

Ich wünsche mir auch, dass man mir weniger Ressourcen on-prem mehr machen könnte. Ob und wann das kommt, wird man sehen.

Mein ChatGPT 20USD Abo reicht mir aktuell für das, was ich mache.

madmax2010 · 19. Oktober 2025

Metalveteran schrieb:
@oicfar Okay, mit der Tabelle kann ich jetzt mal so garnichts anfangen^^ v1, v6, hä? Hast Du vielleicht mal einen Link, wo

in der tabelle
v1-6 sind die metriken.
darunter ist aufgelistet was abgedeckt / erfüllt wird.

Metalveteran schrieb:
Hast Du vielleicht mal einen Link, wo ich mir solche "basics" anlesen kann?

Wenn du etwas testen willst musst du dir überlegen was du machen willst, es strukturiert in verschiedene modelle packen und schauen wie gut das jeweils funktioniert.
Stell eine Aufgabe, überleg dir was dir wichtig ist, schreib es auf. Keine schwarze Magie

Synthetische Benchmarks sind eher nutzlos.
Wenn Du hast etwas was du erledigen willst, musst Du einen Weg finden es zu erledigen.
Was youtuber zu ihren Anwendungsfällen sagen ist schön und gut, bringt dir aber am Ende des Tages nichts.

oicfar schrieb:
Bei größeren Projekten und mehr Komplexität würde ich mir erst ein Plan machen. Das kannst du mit Hilfe der KI erledigen und dann Step-by-Step die Umsetzung angehen. Und je mehr Erfahrung man in der Programmierung gesammelt hat, desto einfacher klappt es dann.

Bin inzwischen bei projekten mit 5-Stellig LoC. Jede Funktion wird atomar, mit vollem Test coverage einzeln gebaut.

oicfar · 19. Oktober 2025

madmax2010 schrieb:
Bin inzwischen bei projekten mit 5-Stellig LoC. Jede Funktion wird atomar, mit vollem Test coverage einzeln gebaut.

Mit on-prem Modellen oder online?

Metalveteran · 19. Oktober 2025

madmax2010 schrieb:
Wenn du etwas testen willst musst du dir überlegen was du machen willst, es strukturiert in verschiedene modelle packen und schauen wie gut das jeweils funktioniert.

Ich bin jetzt bei ~5400 Zeilen Code. Von den ~15 Stunden, die ich in meinem Claude-Wochenlimit habe, sind es vielleicht ~1 Stunde Bugfixing. Also ne ziemlich gute Quote wie ich finde. Das erreichen Gemini 2.5 Pro und GLM 4.6 zumindest bei meiner Arbeitsweise nichtmal im Ansatz. Wobei ich mich bei KI als blutigen Anfänger bezeichnen würde, ich hab erst vor ~5 Monaten überhaupt angefangen, mich damit zu beschäftigen.

Habt Ihr schon Erfahrung mit GPT 5 Codex gemacht? 2 Abos im Monat würd ich mir aktuell gefallen lassen.

madmax2010 · 19. Oktober 2025

oicfar schrieb:
Mit on-prem Modellen oder online?

Je nach Projekt und vorgaben.
GPT5-High, Sonnet 4.* jeweils via Openrouter API

GLM4.6 Sieht gerade als freies modell sehr gut aus, braucht aber eher so 250-300GB VRAM
Qwen3 Coder 480B A35B ist vergleichbar groß, tut aaber auch super. Geht aber wenn man den Tag über
Sonst auch gerne von TNG Tech die R1T Modelle
Kisten mit 2-4 H200/B200. Liegen meist zwischen 10-20 Euro/h
API ist billiger, aber dann gehen halt Daten an den Betreiber.

Als Tool dazu je nach Anwendungsfall Opencode, Kline, codex oder claude code

Ergänzung (19. Oktober 2025)

Metalveteran schrieb:
Habt Ihr schon Erfahrung mit GPT 5 Codex gemacht? 2 Abos im Monat würd ich mir aktuell gefallen lassen.

Wie schon oben gesagt, du brauchst kein abo.

und gpt-5 High erzielt hier konsistent bessere Modelle als gpt-5-codex-high
Beide kosten aber auch nur 10$Pro Millionen Token

GPU für lokale Coding LLM

Lt. Commander

Captain

Fleet Admiral

Lt. Commander

Fleet Admiral

Lt. Commander

Fleet Admiral

Lt. Commander

Commander

Captain

Fleet Admiral

Captain

Lt. Commander

Captain

Lt. Commander

Captain

Fleet Admiral

Captain

Lt. Commander

Fleet Admiral

Ähnliche Themen