Lokale LLM als Chatbot

Snakeeater · 23. Mai 2026

Wollen wir nicht einmal einen Sammelthread erstellen? Im Zuge der weiter steigenden Kosten für Abos und dem generellen Trend beim Thema KI sollte das Interesse doch recht groß sein lokalem LLMs zu betreiben wenn die GPU dafür ausreicht.

Anwendungsfall
Im Grunde nutze ich die Chatbots als schlauere Internetrecherche. Hauptsächlich IT Bezug um mir grundlegende Dinge erklären zu lassen. Zusätzlich wäre es halt toll wenn die KI per Markdown Mermaid bspw. Diagramme liefern kann, ohne das ich zehnmal nacharbeiten muss. Und zumindest ansatzweise schnell vernünftige Antworten liefern kann.

Für die Zukunft wäre es halt auch schön wenn ich mit dem Bot Ansible relevanten Sachen erledigen kann, Struktur, vielleicht Playbook-Gerüste etc. Aber das ist erstmal nicht Hauptaugenmerk.

Nachteile

Performance/Anforderungen an Hardware
nur lokal verfügbar (mit gewissem Aufwand kann man das umgehen)
je nach Anwendungsfall versch. Modelle nötig die Storage verbrauchen
Gedächtnis nicht vorhanden
Cutoff der Trainingsdaten liefern ca 2 Jahre alte Informationen (besonders bei IT Themen stellenweise ausschlaggebend)
Hardwareisolation/containerization gar nicht so trivial (rootless)

Leider ist das ein pures Trial & Error Prinzip.
Ich nutze aktuell eine RT 7900 XT und versuche mit llama.cpp einen lokalen Chatbot zum laufen zu kriegen.
ROCm bekomme ich bei mir irgendwie nicht zum laufen, evtl. liegt es hier an Tumbleweed, ich bin daher nun auf Vulkan umgestiegen.
Als Modell wollte ich eigentlich irgend ein passendes Qwen Modell, aktuell hat mich Grok dazu angehalten folgendes zu nutzen: Qwen3.5-27B-Q4_K_M.gguf

Aktuelle Performance Qwen 3.5 27B: Prompt: 211.3 t/s | Generation: 29.4 t/s

Code:

        -m ~/LLMs/Qwen3.5-27B-Q4_K_M.gguf \
        -c 8192 \
        -ngl 99 \
        --flash-attn on \
        --color on \
        --temp 0.78 \
        --top-p 0.92 \
        --min-p 0.12 \
        --repeat-penalty 1.05 \

Aktuelle Performance Gemma 4 26B: Prompt 857.4 t/s | Generation: 82.6 t/s

Code:

        -m ~/LLMs/gemma-4-26b-a4b-Q4_K_M.gguf \
        -c 8192 \
        -ngl 75 \
        --flash-attn on \
        --color on \
        --temp 0.78 \
        --top-p 0.92 \
        --min-p 0.1 \
        --repeat-penalty 1.05 \

Ich habe auch noch gar keinen Plan welchen Systemprompt ich tatsächlich nutzen soll für einen lokalen Chatbot.

Aktueller Prompt

"Du bist ein senior IT-Consultant und technischer Experte. Deine Aufgabe ist es, IT-Fragen präzise, fachlich fundiert und effizient zu beantworten.

Richtlinien für deine Antworten:
1. Zielgruppe: Gehe davon aus, dass der Nutzer fortgeschrittene IT-Kenntnisse besitzt. Erkläre keine grundlegenden Konzepte (z. B. was ein Server oder eine IP-Adresse ist), es sei denn, dies wird explizit gefordert. Verwende gängliche Fachbegriffe und Abkürzungen ohne Umschweife.
2. Präzision: Antworte direkt auf die Frage. Vermeide unnötige Einleitungen (Das ist eine gute Frage...) oder Abschweifungen. Fokus auf Lösungsansätze, Konfigurationen oder technische Fakten.
3. Wissensstand & Transparenz: Da dein Trainingsdatenbestand einen festen Cut-off hat, musst du bei zeitkritischen Informationen (z. B. Software-Versionen, Sicherheitslücken/CVEs, aktuelle API-Änderungen) aktiv darauf hinweisen, dass die Information veraltet sein könnte und eine Überprüfung der offiziellen Dokumentation empfohlen wird.
4. Tonfall: Professionell, sachlich und respektvoll. Keine Emojis, keine umgangssprachlichen Füllwörter.
5. Sicherheit: Bei Sicherheitsfragen (z. B. Konfiguration von Firewalls) immer auf Best Practices hinweisen, aber nicht in allgemeine Warnungen ausufern.

Formatierung:
Nutze Markdown für Code-Snippets, Listen und Tabellen, wo sinnvoll.
Halte die Struktur übersichtlich.

Wenn eine Frage außerhalb des IT-Bereichs liegt oder du keine sichere Antwort geben kannst, sage dies kurz und bündig und weise auf deine Limitationen hin."

Hat hier jemand Erfahrungen sammeln können und evtl. Hinweise und Tipps?

Backfisch · 23. Mai 2026

Snakeeater schrieb:
Try & Error

Trial and error.

Snakeeater schrieb:
Ich habe auch noch gar keinen Plan welchen Systemprompt ich tatsächlich nutzen soll für einen lokalen Chatbot.

Kommt drauf an, was Du machen möchtest. Welche Rolle soll der Bot einnehmen, wie soll er sich verhalten, wie antworten, in welchem Ton, ...

0x8100 · 23. Mai 2026

wenn du mit einer gui besser klar kommst, nimm lmstudio. vulkan statt rocm muss auch kein nachteil sein, im gegenteil.

Toms · 23. Mai 2026

+1 für LM Studio

Snakeeater · 23. Mai 2026

LM Studio bringt mir ja erstmal nur eine GUI, sicherlich sinnvoll für Sachen wie Copy Paste und Dokumente teilen. Aber aktuell vergleiche ich nur Performance mit den kostenlosen Browser Chatbots und die Ergebnisse.

Aktuell bin ich bei Prompt: 211.3 t/s | Generation: 29.4 t/s
Die Ergebnisse kann ich noch nicht wirklich vergleichen, aktuell stört mich eher die langsame Performance für relativ simple Fragen.

JumpingCat · 23. Mai 2026

Snakeeater schrieb:
Leider ist das ein pures Trial & Error Prinzip.

Was ist dein Stack aktuell?

Beispiel: Fedora Linux + ROCM + Docker mit Ollama / LMStudio + Open WebUI

SirKhan · 23. Mai 2026

koboldcpp hat alles in einer Binary gebündelt. Einfach starten und fertig. Läuft mit GGUF. Implementiert aktuelle Standards. Hat sogar eine eigene (optionale) Chat-Oberfläche. Für AMD funktioniert die Vulkan-Variante sehr gut.

Ansonsten ist wohl ollama die einsteigerfreundliche Version von llama.cpp.
Ich hab gerade ollama-rocm auf CachyOS am laufen. Da ist das direkt im Paketmanager anklickbar und funktioniert auch direkt.

drake23 · 23. Mai 2026

@Snakeeater unter tumbleweed muss der User in der Render und/oder Video group sein, damit rocm läuft. Hab es damals nach

https://bjb43.wordpress.com/2025/06/20/note-to-self-setting-up-a-local-llm/

gemacht, lief problemlos und überraschend schnell auf meiner rx7700xt, ist aber schon ein Dreiviertel Jahr her meine ich.

Backfisch · 23. Mai 2026

0x8100 schrieb:
wenn du mit einer gui besser klar kommst

llama.cpp bietet in der Server-Variante ebenfalls eine simple GUI, auf die per Browser zugegriffen werden kann.

Ergänzung (23. Mai 2026)

Snakeeater schrieb:
aktuell stört mich eher die langsame Performance für relativ simple Fragen.

Kleineres Modell nehmen oder eine stärkere GPU. Höhere Quantisierungslevel solltest Du vermeiden.

Vor allen Dingen solltest Du nicht allzu viel erwarten. Modelle dieser Größe können zwar überraschend viel, sind aber kein Vergleich zu dem, was ChatGPT, Claude oder Gemini auf dem Kasten haben.

madmax2010 · 23. Mai 2026

Snakeeater schrieb:
ROCm bekomme ich bei mir irgendwie nicht zum laufen, evtl. liegt es hier an Tumbleweed, ich bin daher nun auf Vulkan umgestiegen.

was ist denn das problem?

Kerasto · 23. Mai 2026

Was genau ist denn dein Ziel?

27b mit einer 7900XT ist bisschen viel, daher auch das „träge“ antworten.

Als Interface kann ich WebUI empfehlen.

mytosh · 23. Mai 2026

Ich nutze KoboldCPP mit allen möglichen Modellen mit einer 7900XT.
Mein größtes Model ist Gemma-3-27B-Q4_K_M mit 15,4 GB.
Läuft ohne Probleme.

oicfar · 23. Mai 2026

Snakeeater schrieb:
Im Zuge der weiter steigenden Kosten für Abos und dem generellen Trend beim Thema KI sollte das Interesse doch recht groß sein lokalem LLMs zu betreiben wenn die GPU dafür ausreicht. Ich nutze aktuell eine RT 7900 XT und versuche mit llama.cpp einen lokalen Chatbot zum laufen zu kriegen.

Über welche Kosten sprechen wir?

Was sind die Use-Cases, die du mit on-prem KI's abdecken möchtest?

Erst Use-Case definieren und dann Modell suchen.

Snakeeater · 23. Mai 2026

drake23 schrieb:
@Snakeeater unter tumbleweed muss der User in der Render und/oder Video group sein, damit rocm läuft. Hab es damals nach

https://bjb43.wordpress.com/2025/06/20/note-to-self-setting-up-a-local-llm/

gemacht, lief problemlos und überraschend schnell auf meiner rx7700xt, ist aber schon ein Dreiviertel Jahr her meine ich.

Also ROCm ist irgendwie merkwürdig unter TW, die Anweisungen dort sind komplett Banane, was zur Hölle ist GPGPU. Irgendwas mit ich brauch longterm Kernel (nein Danke). Etc. pp.

Ich hab durch einen Reddit Post folgendes Repo hinzugefügt ttps://download.opensuse.org/repositories/science:/GPU:/ROCm/openSUSE_Factory/ aber hier gibts Abhängigkeitsprobleme wenn man ROCm installieren will.

madmax2010 · 23. Mai 2026

welche probleme?
welche anweisungen wo?

Snakeeater schrieb:
GPGPU

https://de.wikipedia.org/wiki/General_Purpose_Computation_on_Graphics_Processing_Unit

ROCm musst schon laufen. Aber du musst schon sagen was nicht geht sonst ist es schwierig zu helfen. Das repo sieht soweit Ok aus, aber wenn nur LTS kernel supported werden sollten, installier doch einfach einen dazu

Snakeeater · 23. Mai 2026

Backfisch schrieb:
Vor allen Dingen solltest Du nicht allzu viel erwarten. Modelle dieser Größe können zwar überraschend viel, sind aber kein Vergleich zu dem, was ChatGPT, Claude oder Gemini auf dem Kasten haben.

Ich vergleiche ja nicht einmal mit solchen Kandidaten. Ich nutze Mistral und Grok in der freien Variante und vergleiche den Output.

Und ein simple Frage ala "Wie lösche ich den gesamten Text mit einem Helix Editor" dauert gefühlt ewig.

Ergänzung (23. Mai 2026)

madmax2010 schrieb:
was ist denn das problem?

Kerasto schrieb:
Was genau ist denn dein Ziel?

27b mit einer 7900XT ist bisschen viel, daher auch das „träge“ antworten.

Als Interface kann ich WebUI empfehlen.

oicfar schrieb:
Über welche Kosten sprechen wir?

Was sind die Use-Cases, die du mit on-prem KI's abdecken möchtest?

Erst Use-Case definieren und dann Modell suchen.

Ich formuliere das nochmal im Ausgangspost aus. Im Grunde nutze ich die Chatbots als schlauere Internetrecherche. Hauptsächlich IT Bezug um mir grundlegende Dinge erklären zu lassen. Zusätzlich wäre es halt toll wenn die KI per Markdown Mermaid bspw. Diagramme liefern kann, ohne das ich zehnmal nacharbeiten muss.

Für die Zukunft wäre es halt auch schön wenn ich mit dem Bot Ansible relevanten Sachen erledigen kann, Struktur, vielleicht Playbook-Gerüste etc. Aber das ist erstmal nicht Hauptaugenmerk.

Ergänzung (23. Mai 2026)

madmax2010 schrieb:
welche probleme?
welche anweisungen wo?

https://de.wikipedia.org/wiki/General_Purpose_Computation_on_Graphics_Processing_Unit

ROCm musst schon laufen. Aber du musst schon sagen was nicht geht sonst ist es schwierig zu helfen. Das repo sieht soweit Ok aus, aber wenn nur LTS kernel supported werden sollten, installier doch einfach einen dazu

Ich habe es doch eigentlich schon ziemlich genau beschrieben, wenn du das genaue Paket wissen willst welches das Problem hervor ruft: libboost_filesystem.so.1.90.0()(64bit)

@SirKhan Koboldcpp muss ich mir mal genauer angucken was das genau anders machen soll, danke für den Tipp.

Edit: Single executable file ist aber wirklich ganz fern von dem wie ich mir eine vertrauensvolle lokale LLM vorstelle, das muss ich mir erstmal in einem Container genauer anschauen, direkt auf den Computer kommt mir das nicht.

Backfisch · 23. Mai 2026

LMStudio hast Du dir schonmal angeschaut? Unter der Haube nutzt es auch llama.cpp.

Snakeeater · 23. Mai 2026

@Backfisch Schau mal hier

Garmor · 23. Mai 2026

Snakeeater schrieb:
Schau mal hier

Aber was soll das heißen? Suchst du spezifisch was mit einem Webfrontend, um es im Browser aufrufen zu können? LM Studio hat auch einen Server, auf den du mit Open WebUI zugreifen kannst.

Snakeeater · 23. Mai 2026

Eine GUI ändert doch nichts an der Performance oder an den Ergebnissen. Oder steh ich jetzt auf dem Schlauch welche magische Wundertüte LM Studio ist? Ich hab im Ausganspost doch nochmal beschrieben was mein Ziel ist, ich sehe bzw. verstehe nicht wie mir dabei LMStudio helfen soll?

Lokale LLM als Chatbot

Captain

Lieutenant

Fleet Admiral

Admiral

Captain

Vice Admiral

Lt. Commander

Lieutenant

Lieutenant

Fleet Admiral

Lt. Commander

Lt. Commander

Captain

Captain

Fleet Admiral

Captain

Lieutenant

Captain

Captain

Captain

Ähnliche Themen