GPU primär für LLM (KI)

ratpertus · 21. Mai 2025

Wichtig vorneweg: Ich arbeite primär mit Linux (Debian), habe aber ein Dual-Boot-System.

Ich habe, auch aus beruflichen Gründen (Lehrer), angefangen, mit lokalen-KI-Modellen zu arbeiten, um zu sehen, was ich in welcher Weise auch für unterrichtliche Zwecke nutzen kann. Mein Rechner hat 64GB-RAM, insofern kann ich auch größere Modelle (70b) starten, aber die laufen natürlich eher behäbig – will man Varianten komplexerer Prompts, evtl. auch in Verbindung mit Texten, nutzen, dauert das schon ... Dass ich diese nur mit extrem teurer Hardware richtig schnell bekomme, ist mir klar. Aber zumindest kleinere Modelle (14b) würden schon bei einer 12GB-Grafikkarte ins VRAM passen und somit deutlich flotter laufen. Daher überlege ich, meinen Rechner entsprechend aufzurüsten, auch wenn ich im Alltag mit der iGPU ganz gut klarkomme. Da das Spielen zweitrangig ist, brauche ich auch keine maximal aktuelle Karte, gebraucht wäre ok.

Aktuell habe ich mal über Folgendes nachgedacht, würde mich aber über Tipps, Erfahrungen oder Ratschläge freuen.

GeForce 3060, 12GB (Treiber-Gefrickel in Linux, aber sollte lösbar sein)
Radeon 6700XT, 12GB (vermutlich am unkompliziertesten)
Arc A770, 16GB (am meisten VRAM, idle-Verbrauch halt so eine Sache ...)

1. Wie viel Geld bist du bereit auszugeben?
ca. 300€

2. Möchtest du mit der Grafikkarte spielen?

Welche Spiele genau? Ich spiele nur Casual-Games
Welche Auflösung? Mein Monitor ist UWQHD (3440x1440), aber mit reicht FHD
Ultra/hohe/mittlere/niedrige Grafikeinstellungen? egal
Genügen dir 30 FPS oder sollen es 60 oder gar 144 FPS sein? egal

3. Möchtest du die Grafikkarte für spezielle Programme & Anwendungen (z.b. CAD) nutzen? Als Hobby oder bist du Profi? Welche Software wirst du nutzen?
LM-Studio bzw. JAN.ai (lokale LLM), RAW-Entwickler; alles hobbymäßig

4. . Wie viele und welche Monitore möchtest du nutzen? Wird G-Sync/FreeSync unterstützt? (Bitte mit Link zum Hersteller oder Preisvergleich!)
1 Monitor; ASUS VP349CGL mit FreeSync und 100Hz

5. Nenne uns bitte deine aktuelle/bisherige Hardware:

Prozessor (CPU): AMD Ryzen 8600G
Aktuelle/Bisherige Grafikkarte (GPU): iGPU
Netzteil(Genaue Bezeichnung): Fractal Design ION+ 2 760W
Gehäuse: Fractal Design Pop Silent Mini

6. Hast du besondere Wünsche bezüglich der Grafikkarte? (Lautstärke, Anschlüsse, Farbe, Hersteller, Beleuchtung etc.)
Auf RGB kann ich gut und gerne verzichten. DP ist wichtig, aber das haben ja alle halbwegs aktuellen Karten.

7. Wann möchtest du die Karte kaufen? Möglichst sofort oder kannst du noch ein paar Wochen/Monate warten?
Ein paar Wochen ja, Monate: nein.

Winston90 · 21. Mai 2025

ratpertus schrieb:
Ich habe, auch aus beruflichen Gründen (Lehrer), angefangen, mit lokalen-KI-Modellen zu arbeiten, um zu sehen, was ich in welcher Weise auch für unterrichtliche Zwecke nutzen kann.

Sorry, etwas off-topic, aber aus Interesse die Frage: Nutzen, (1) weil du Informatiklehrer bist und das für den Unterricht wissen möchtest und in der Lehre nutzen kannst oder (2) weil du dir selbst damit Aufgaben abnehmen möchtest?

In beiden Fällen cool, aber falls es u.a. (1) ist, dann großen Respekt und Wertschätzung! Das wäre above and beyond duty.

tomgit · 21. Mai 2025

Budget wäre gut zu wissen.

ratpertus schrieb:
Radeon 6700XT, 12GB (vermutlich am unkompliziertesten)

Habe ich zwar keine First-Hand-Erfahrung, aber so wie ich das lese, ist das nicht ohne Gefrickel möglich. Zumal AMD sehr, sehr, sehr schnell den Support von "alten" GPU-Generationen aus neueren ROCm-Generationen rauswirft. Man kann von Nvidia wirklich halten, was man möchte, aber dort ist der Support wenigstens etwas zuverlässiger.

Mein persönlicher Hidden Champion hier ist tatsächlich Intel - und wäre hier wahrscheinlich auch meine Empfehlung. Nicht nur wegen VRAM, sondern weil Intel sich auch proaktiv wenigstens um Support bemüht.

Winston90 · 21. Mai 2025

tomgit schrieb:
Mein persönlicher Hidden Champion hier ist tatsächlich Intel - und wäre hier wahrscheinlich auch meine Empfehlung.

Keine Ahnung vom Preis, aber vermutlich eh zu teuer: auf der computex hat Intel jetzt eine Dual Die GPU mit 48 GB VRAM angekündigt. Speziell für KI. Die wird vermutlich P/L-mäßig sehr gut dastehen, würde ich vermuten.

tomgit · 21. Mai 2025

Winston90 schrieb:
Keine Ahnung vom Preis, aber vermutlich eh zu teuer:

Soll aber irgendwann im Spätjahr erst erscheinen und wohl $500+ kosten.
Wenn hier schon nach gebrauchten GPUs geschaut werden, weiß ich nicht, ob das im Preisrahmen ist. Und innerhalb der Wartezeit auch nicht

ratpertus · 21. Mai 2025

Winston90 schrieb:
Sorry, etwas off-topic, aber aus Interesse die Frage: Nutzen, (1) weil du Informatiklehrer bist und das für den Unterricht wissen möchtest und in der Lehre nutzen kannst oder (2) weil du dir selbst damit Aufgaben abnehmen möchtest?

In beiden Fällen cool, aber falls es u.a. (1) ist, dann großen Respekt und Wertschätzung! Das wäre above and beyond duty.

Nein, ich bin kein Informatiklehrer. Ich unterrichte Deutsch. Da geht es mir darum, KI u.a. bei der Inhaltszusammenfassung pragmatischer wie literarischer Texte mit einzusetzen. Schüler:innen fällt es zunehmend schwer, das Wesentliche in einem Text zu erkennen. Wenn man sich gemeinsam ansieht, was I-Modelle machen und man mal gemeinsam prüft, ob das wirklich den Sinn und die Aussageintention trifft, lässt sich da durchaus etwas gewinnen. – Nebenbei lernen Schüler:innen auch, dass KI nicht perfekt und kein Allheilmittel ist. Manche der Modelle, die ich getestet habe, liefern echt gruseliges Deutsch ... Weitere Felder können auch Stiltraining sein – oder eigene Texte kriterienorientiert von der KI prüfen zu lassen …
Und ja, ich nutze KI auch in der Unterrichtvorbereitung. Nach einem Lektüre-Tipp aus der c't arbeite ich gerade "Effektiv unterrichten mit Künstlicher Intelligenz" (Joscha Falck) durch.

Ergänzung (21. Mai 2025)

tomgit schrieb:
Budget wäre gut zu wissen.

Habe ich zwar keine First-Hand-Erfahrung, aber so wie ich das lese, ist das nicht ohne Gefrickel möglich. Zumal AMD sehr, sehr, sehr schnell den Support von "alten" GPU-Generationen aus neueren ROCm-Generationen rauswirft. Man kann von Nvidia wirklich halten, was man möchte, aber dort ist der Support wenigstens etwas zuverlässiger.

Mein persönlicher Hidden Champion hier ist tatsächlich Intel - und wäre hier wahrscheinlich auch meine Empfehlung. Nicht nur wegen VRAM, sondern weil Intel sich auch proaktiv wenigstens um Support bemüht.

Budget hatte ich angegeben: ca. 300€
ROCm ist tricky, ich weiß. Über die Vulcan-Schnittstelle geht aber auch was. Die lässt sich mit JAN.ai oder LM-Studio nutzen.

Ergänzung (21. Mai 2025)

Die neuen ARC-Karten hatte ich mir angesehen. Die brauchen aber eine Kernel-Version, die Debian Trixie nicht hat. Da müsste man auf die Backports warten. Deshalb tendiere ich zu etwas älteren Karten, da die Kernel-Treiber halbwegs stabil sind. Und was ich u.a. auf Phoronix zu Intel gelesen habe, machen die ordentliche Arbeit ...

tomgit · 21. Mai 2025

ratpertus schrieb:
Budget hatte ich angegeben: ca. 300€

Hatte ich übersehen, danke

ratpertus schrieb:
ROCm ist tricky, ich weiß. Über die Vulcan-Schnittstelle geht aber auch was. Die lässt sich mit JAN.ai oder LM-Studio nutzen.

Da wirft man aber einiges an Leistung raus. Großer Vorteil einer AMD wäre ja, auf ROCm zu setzen. Zu Intel kann ich nur etwas zur aktuell Xe-Generation sagen, weil ich nur ein Notebook mit deren Lunar Lake Prozessor habe. Bin damit aber sehr zufrieden und in vielen Workflows kann es auch mein M1 Max MacBook weghauen.

Wenn ich ehrlich bin, würde ich die Radeon nur als Notnagel sehen, wenn man weder eine A770 noch eine 3060 (oder ähnliches) bekommt. CUDA ist einfach Industriestandard.

ratpertus schrieb:
Da geht es mir darum, KI u.a. bei der Inhaltszusammenfassung pragmatischer wie literarischer Texte mit einzusetzen. Schüler:innen fällt es zunehmend schwer, das Wesentliche in einem Text zu erkennen. Wenn man sich gemeinsam ansieht, was I-Modelle machen und man mal gemeinsam prüft, ob das wirklich den Sinn und die Aussageintention trifft, lässt sich da durchaus etwas gewinnen. – Nebenbei lernen Schüler:innen auch, dass KI nicht perfekt und kein Allheilmittel ist. Manche der Modelle, die ich getestet habe, liefern echt gruseliges Deutsch ... Weitere Felder können auch Stiltraining sein – oder eigene Texte kriterienorientiert von der KI prüfen zu lassen …

Auch wenn ich den Ansatz gut finde, weiß ich nicht, ob das nicht nach Hinten losgeht. Ich habe schon Bachelor-Arbeiten gesehen, die massiv von KI geschrieben wurden und ungeprüft abgegeben wurden. Den Schülern zu zeigen, dass ein lokales Modell vielleicht doch gut genug den Inhalt zusammenfassen oder gar interpretieren kann, wird die Qualität der Arbeiten nicht wirklich steigern. Zumal da die Hürde auf irgendwelche Cloud-Modelle zurückzugreifen doch niedriger ist. Welche dann entsprechend auch mehr Leistung liefern und bessere Ergebnisse produzieren können.
Das würde ich bei dem Usecase vielleicht auch präferieren. Es muss ja keine ChatGPT Plus Lizenz sein, oder eine Google One AI Subscription. Wenn man sich ein kleines Python-Script schreibt, kann man so eine Zusammenfassung und interpretation über deutlich weniger Token hinbekommen. Einfach eine Developer-API einrichten und gut ist.
Vorher kannst dich auch bei GitHub als Educator registrieren und auf die dort gehosteten LLMs zurückgreifen - die API ist kostenfrei.

dms · 21. Mai 2025

ratpertus schrieb:
Ich unterrichte Deutsch. Da geht es mir darum, KI u.a. bei der Inhaltszusammenfassung pragmatischer wie literarischer Texte mit einzusetzen.

<ironie>Mhh der Lehrer welcher etwas Unterrichte muss cheaten weil die Schüler es nicht drauf haben</ironie>

Grusselig .. ja ich bin kein Pädagoge aber Informatiker

..dort sieht man dann schön wer (auch aus Fehlern lernt) lernt und versteht was er macht

ratpertus · 21. Mai 2025

@dms Streiten wir uns jetzt mal besser nicht über Deutsch-Didaktik ... Cheaten wäre es, wenn ich nicht klarmache, woher der Text kommt. – Schüler:innen nutzen KI; dann ist es allemal besser, wenn man das im Unterricht reflektiert, als wenn man sie einfach machen lässt.

Ergänzung (21. Mai 2025)

tomgit schrieb:
Auch wenn ich den Ansatz gut finde, weiß ich nicht, ob das nicht nach Hinten losgeht. Ich habe schon Bachelor-Arbeiten gesehen, die massiv von KI geschrieben wurden und ungeprüft abgegeben wurden. Den Schülern zu zeigen, dass ein lokales Modell vielleicht doch gut genug den Inhalt zusammenfassen oder gar interpretieren kann, wird die Qualität der Arbeiten nicht wirklich steigern. Zumal da die Hürde auf irgendwelche Cloud-Modelle zurückzugreifen doch niedriger ist. Welche dann entsprechend auch mehr Leistung liefern und bessere Ergebnisse produzieren können.
Das würde ich bei dem Usecase vielleicht auch präferieren. Es muss ja keine ChatGPT Plus Lizenz sein, oder eine Google One AI Subscription. Wenn man sich ein kleines Python-Script schreibt, kann man so eine Zusammenfassung und interpretation über deutlich weniger Token hinbekommen. Einfach eine Developer-API einrichten und gut ist.
Vorher kannst dich auch bei GitHub als Educator registrieren und auf die dort gehosteten LLMs zurückgreifen - die API ist kostenfrei.

Mir sind die Risiken durchaus bewusst. Aber ich halte auch nichts davon so zu tun, als ob es das nicht gäbe. Ich habe selbst zeitweilig an der Uni unterrichtet; da sieht man viel. Und natürlich gibt's auch Schüler:innen, die versuchen, das für Prüfungen einzusetzen. Insofern geht's auch darum, Prüfungsaufgaben zu gestalten, die evtl. nicht ganz so leicht mit KI zu realisieren sind – und das texte ich dann auch mal durch, was die KI so macht. Natürlich kann ich das auch über die Cloud machen. – Aber dafür bin ich dann wieder auch zu sehr Bastler, sodass ich das auch auf dem eigenen Rechner mal testen will. – Ich würde nicht primär mit Linux arbeiten, wenn ich nicht auch mal gerne frickle ...

JumpingCat · 21. Mai 2025

Erstmal pauschal nvidia wenn es lokal laufen sollte. amd ist viel gefrickel.

Welchen Vorteil erhoffst du dir durch das lokale ausführen?

Ich würde zum Testen vorschlagen:

https://github.com/open-webui/open-webui in Docker
https://github.com/docling-project/docling in Docker, optional
https://github.com/searxng/searxng in Docker
https://openrouter.ai/

Ob die nächste BattleImage besser als die AMD läuft keine Ahnung. Ich habe mit einer AMD Karte angefangen im Rechner und bin auf nvidia umgestiegen. Die nvidia läuft massiv sorgenfreier als die AMD Karte. Bei AMD hast du komische Fehlermeldungen oder einige Modelle failen mit invalid floating point, fp16 vs fp32 Problematik oder kaputten Librarires. Erst dachte ich alle Modelle kaputt. Aber sobald ich auf die CPU gewechselt habe, gab es keine Probleme mehr. Vielleicht ist debian da besser aufgestellt wegen aktuellem Kernel, rocm, etc. Da musst du aber selbst wissen. Ich bin mit Fedora und Gentoo unterwegs.

ratpertus · 21. Mai 2025

JumpingCat schrieb:
Welchen Vorteil erhoffst du dir durch das lokale ausführen?

»Vorteile« ... Mir ist klar, dass ein lokales Modell den großen in der Cloud unterlegen ist. Wie schon geschrieben, es geht mir ums Experimentieren, was lokal möglich ist. – Und wenn ich teste, wie eine KI mit Prüfungsaufgaben umgeht, dann hat das auch was mit Datenschutz zu tun. Machen Sachen darf ich aus dienstlichen/dienstrechtlichen Gründen nicht in die Cloud lassen, wo's dann vom KI-Anbieter gleich ausgewertet und weitergenutzt wird ...

JumpingCat · 21. Mai 2025

Alsos wenn die Geschwindigkeit egal ist, dann kannst du die "großen" Modellen auch unter Linux auf einer iGPU von AMD laufen lassen. Die aktuellen AMD CPUs haben starke AMD iGPU verbaut. Die müssen dann "leider" mangels eigenem RAM den Hauptspeicher mitnutzen. Und schon hast du 32GB oder mehr für die GPU verfügbar.

ratpertus · 21. Mai 2025

JumpingCat schrieb:
Und schon hast du 32GB oder mehr für die GPU verfügbar.

Da muss ich mal noch schauen, mit welchem Tool das dann auch klappt, die iGPU entsprechend zu nutzen ...

JumpingCat · 21. Mai 2025

ollama in Docker. Vorher ollama ohne Docker um zu prüfen ob alles richtig eingerichtet ist.

Andere Software wird dann schon wieder frickelig weil AMD.

oicfar · 21. Mai 2025

ratpertus schrieb:
Nein, ich bin kein Informatiklehrer. Ich unterrichte Deutsch. Da geht es mir darum, KI u.a. bei der Inhaltszusammenfassung pragmatischer wie literarischer Texte mit einzusetzen. Schüler:innen fällt es zunehmend schwer, das Wesentliche in einem Text zu erkennen. Wenn man sich gemeinsam ansieht, was I-Modelle machen und man mal gemeinsam prüft, ob das wirklich den Sinn und die Aussageintention trifft, lässt sich da durchaus etwas gewinnen. – Nebenbei lernen Schüler:innen auch, dass KI nicht perfekt und kein Allheilmittel ist. Manche der Modelle, die ich getestet habe, liefern echt gruseliges Deutsch ... Weitere Felder können auch Stiltraining sein – oder eigene Texte kriterienorientiert von der KI prüfen zu lassen …

Und welche LLMs und Tools willst du hier einsetzen? Oder musst du dich hier erst einarbeiten?

ratpertus · 21. Mai 2025

@oicfar Bisher habe ich LM-Studio und Jan.ai getestet. Bin aber flexibel. Gemma3 (27b) hat bisher die besten Ergebnisse auf Deutsch gebracht. Phi4 und QWEN hab ich mal getestet, aber das klang teilweise nach Denglisch ...

Ergänzung (21. Mai 2025)

JumpingCat schrieb:
ollama in Docker. Vorher ollama ohne Docker um zu prüfen ob alles richtig eingerichtet ist.

Andere Software wird dann schon wieder frickelig weil AMD.

Gefunden habe ich gerade nebenbei diese Anleitung für llama.cpp, die ich mir mal in Ruhe ansehen werde: ROCm and PyTorch on AMD APU

oicfar · 21. Mai 2025

JumpingCat schrieb:
Ich würde zum Testen vorschlagen:

https://github.com/open-webui/open-webui in Docker

In der Open WebUI kann man auch RAG machen. Ist man aber stark eingeschränkt.

ratpertus schrieb:
@oicfar Bisher habe ich LM-Studio und Jan.ai getestet. Bin aber flexibel. Gemma3 (27b) hat bisher die besten Ergebnisse auf Deutsch gebracht. Phi4 und QWEN hab ich mal getestet, aber das klang teilweise nach Denglisch ...

Ich habe privat mich ein wenig mit RAG beschäftigt und es lokal mit einer Nvidia 4060 Ti 16GB laufen lassen. Habe hier verschiedene Modelle ausprobiert. Habe für Schulkind (10 Klasse) mal Chat mit "Kabale und Liebe" von Schiller in Python gebaut. Bis mich ein Mathematik Prof. fragte: "Woher weißt du, dass die Antworten von dem Buch und nicht der KI kommen?". Die Antwort auf diese Frage hatte ich nach 1-2h gehabt und dann kostete es mich weitere 10+ Stunden um eine Lösung zu bauen, wo ich mir sicher sein kann, dass die Antworten von dem Buch und nicht der KI kommen.

Das Betreiben und nutzen der lokalen KI braucht schon ein wenig Ressourcen und auch Know-How, den man sich aufbauen muss. Einfach so und schnell wird man kaum gute Ergebnisse bekommen. Wobei das davon abhängig ist, was das Ziel ist.

Dann ist es gut, wenn man proaktiv ist und die Entwicklung verfolgt. Mit der nächsten LLM von XY kann sich wieder viel verändern. Usw.

Ansonsten: Do Multilingual LLMs Think In English?

Ergänzung (21. Mai 2025)

Und ich würde noch https://github.com/HKUDS/LightRAG in den Raum werfen.

konkretor · 22. Mai 2025

https://msty.app/. Da ist alles drin, einfach zu bedienen. Denke deckt die Anforderungen des TE gut ab

ratpertus · 22. Mai 2025

oicfar schrieb:
Dann ist es gut, wenn man proaktiv ist und die Entwicklung verfolgt. Mit der nächsten LLM von XY kann sich wieder viel verändern. Usw.

Ansonsten: Do Multilingual LLMs Think In English?

U.a. darum geht es mir ja auch: Zu sehen, was geht, was nicht geht - und eine Idee zu haben, in welche Richtung sich Dinge entwickeln. - Dass LLM "auf Englisch denken" hätte ich intuitiv nach der Auswertung einer Reihe von Ergebnissen auch so gesehen. Syntax, Wortwahl etc. klingen punktuell nach einer Übersetzung. Insofern habe ich auch schon Dinge auf Englisch der KI zugespielt und sie für mich dann übersetzt.

Winston90 · 22. Mai 2025

ratpertus schrieb:
Dass LLM "auf Englisch denken" hätte ich intuitiv nach der Auswertung einer Reihe von Ergebnissen auch so gesehen.

Das stimmt so allgemein sicherlich nicht. Gab vor ein, zwei Wochen auf Golem.de einen Artikel dazu. Sehr interessant. Die untersuchten LLMs scheinen ein von Sprache losgelöstes Verständnis zu haben und erst im letzten Schritt eine Überführung der Struktur in eine bestimmte Sprache vorzunehmen.

GPU primär für LLM (KI)

Cadet 4th Year

Commander Pro

Rear Admiral

Commander Pro

Rear Admiral

Cadet 4th Year

Rear Admiral

Commander

Cadet 4th Year

Rear Admiral

Cadet 4th Year

Rear Admiral

Cadet 4th Year

Rear Admiral

Captain

Cadet 4th Year

Captain

Artikeldetektiv

Cadet 4th Year

Commander Pro

Ähnliche Themen