Lokale LLM als Chatbot

@Snakeeater Mein Hot-Take ist, dass man Ende mit weniger T/s leben muss, als man eigentlich vorher wollte, weil sich die Modelle/Einstellungen/Anforderungen meistens noch ändern. Und dann mal eben von 16 GB VRAM auf 24 oder sogar mehr upzugraden ist enorm teuer und dann wird es aus meiner Sicht auch eher ein teures Hobby als eine rationale Entscheidung. Ein Beispiel: eine 5060ti mit 16 Gb VRAM kostet um die 550€, eine RTX PRO 4000 mit 24 GB VRAM gerne das Dreifache. Der Unterschied für ein lokales LLM ist imo nicht diese 1000€ Wert, v.a. wenn später ein Modell auch mehr Platz als diese 24 GB einnimmt.
 
  • Gefällt mir
Reaktionen: Backfisch, valovalo und qualle
Woran erkenne ich eigentlich das die LLM nicht mehr klar kommt? Ich habe im llama.cpp seit Anfang der Woche ein qwen Modell laufen (andere Hardware) und nun beantwortet er mir meine Fragen nicht mehr, sondern zeigt mir lediglich seinen Denkprozess.
 
Siehst du Wiederholungen im Denkprozess? Wenn ja, dann hängt das Modell in einer Loop. Da würde ich nach passenden Issues zum Modell oder llama.cpp schauen.
 
  • Gefällt mir
Reaktionen: Snakeeater
Ich hab mir jetzt mal LM Studio installiert, deutlich ansprechender die UI als dieses merkwürdige kobolcpp. Ich will jetzt mal schauen wie ich ein RAG damit umsetze und sinnvoll nutze.

Edit:
Also das nutzen von RAG scheint in LM Studio kein Hexenwerk zu sein, aber wenn ich das richtig verstehe, dient das RAG eher als zusätzliche Informationsquelle. Ich bin mir nicht sicher wie mir das bei meinem Anwendungsfall spezifisch helfen sollte?
 
Zuletzt bearbeitet:
Snakeeater schrieb:
Ich bin mir nicht sicher wie mir das bei meinem Anwendungsfall spezifisch helfen sollte?
Dann würde ich es weglassen und erst noch lernen. ;)
 
KoboldCPP bringt ja sogar mehrere "Oberflächen" mit, eine davon ist ChatGPT zum Verwechseln ähnlich. Das letztere habe ich jetzt seit Tagen nicht mehr bemüht...
 
Snakeeater schrieb:
Ich bin mir nicht sicher wie mir das bei meinem Anwendungsfall spezifisch helfen sollte?
Prinzipiell wolltest du diese lokalen LLMs ja für Wissensfragen nutzen, was leider die fragwürdigste Benutzung für lokale LLMs ist. In diesem Fall wäre RAG für dich wichtig, weil du dem LLM tatsächliches Wissen in Form von Texten bereitstellen könntest, auf das es für deine Frage zugreifen könnte.

Für LM Studio gibt es auch jede Menge Plugins, mit denen man den Modellen z.B. Websuche als Tool anbieten kann. Da das bisher aber nicht offiziell ist, gibt es leider keine gute Übersichtsseite. Eine grobe Übersicht gibt es z.B. hier: https://lmstudio.ai/tupik/top
 
  • Gefällt mir
Reaktionen: Snakeeater
Danke für den Hinweis, die Wissenssuche macht in meinem Anwendungsfall halt wenig Sinn wenn ich die Dokumente bereitstellen müsste. Jedenfalls nicht für meinen Hauptanwendungszweck.

Gerade in IT Themen brauche ich halt relativ aktuelle Infos. Aber gut in LM Studio ist die RAG Funktion ja unproblematisch integriert, d.h. ich kann diese nutzen wenn nötig.

Edit:
Also ich stosse hier gerade wirklich an Grenzen, ich nutze jetzt Gemma 4 E4B Instruct und Qwen 3.5 4B und es scheitert daran das ich etwas verstehen will, die LLMs aber irgendwie meine Frage falsch interpretieren. Auch scheint mir nicht klar wie ich die Modelle daran hindere auf die angehangenen Dokumente zu zu greifen. Ich habe unten das "chat with files" rausgehauen, RAG deaktiviert und ein neues Modell geladen und irgendwie scheint das aktuelle Modell immer noch "citations" zu erwähnen.
Das einzige was ich noch nicht gemacht habe ist einen neuen Chat zu starten...
 
Zuletzt bearbeitet:
Hallo,

Bezüglich deines Qwen 3.5 4b Modells könnte es daran liegen, dass das Modell schlichtweg zu klein ist. Diese verhältnismäßig kleinen Modelle scheitern oft am Instruction-Following. Ich habe jetzt nicht den gesamten Thread im Kopf, wie groß dein Grafikkarten-V-RAM ist. Aber wenn du ein größeres Modell laden könntest, wäre das sicherlich sehr sinnvoll. Mitunter kannst du die Quantisierungszahl reduzieren und damit ein größeres Modell laden, was dann in den gleichen Speicherbereich passt und auch versuchen möglichst am Kontext zu sparen, so dass du das noch in einen relativ geringen VRAM-Speicher reinquetschen könntest. Ich würde minimal auf eine Quantisierung von Q5 runtergehen. Q6 wäre noch besser, Q8 optimal.

Liebe Grüße,
Peuqui
 
Snakeeater schrieb:
Aktueller Prompt

[...]
Dein System-Prompt wird prinzipiell nicht für alle on-prem Modelle in der Form so wie du willst, gehen. Da spielen viele Faktoren eine Rolle.

Hier eine überarbeitete Version.
Markdown (GitHub flavored):
Du agierst als senior technischer IT-Consultant mit Schwerpunkt Infrastruktur, Linux, Netzwerke, Security, Automatisierung und lokale LLM-Systeme.

## Ziel
Beantworte IT-Fragen präzise, fachlich fundiert und effizient. Priorisiere konkrete Lösungswege, technische Fakten, Konfigurationshinweise und nachvollziehbare Begründungen.

## Zielgruppe
Gehe davon aus, dass der Nutzer fortgeschrittene IT-Kenntnisse besitzt. Erkläre Grundlagen nur, wenn sie für die Antwort notwendig sind oder explizit gefragt werden. Verwende gängige Fachbegriffe und Abkürzungen ohne unnötige Vereinfachung.

## Antwortstil
- Antworte direkt auf die Frage.
- Vermeide Floskeln, lange Einleitungen und unnötige Abschweifungen.
- Nenne relevante Annahmen explizit.
- Wenn mehrere Lösungswege existieren, vergleiche sie knapp nach Aufwand, Risiko und Praxistauglichkeit.
- Verwende professionelle, sachliche und respektvolle Sprache.
- Keine Emojis, keine umgangssprachlichen Füllwörter.

## Technische Präzision
- Liefere konkrete Beispiele, Commands, Konfigurationsfragmente oder Architekturhinweise, wenn sinnvoll.
- Kennzeichne beispielhafte Werte klar als Beispiele.
- Weise auf Seiteneffekte, Abhängigkeiten und typische Fehlerquellen hin.
- Nenne Validierungsschritte, mit denen der Nutzer das Ergebnis prüfen kann.

## Aktualität und Unsicherheit
Bei zeitkritischen Informationen wie Software-Versionen, CVEs, Release-Ständen, API-Änderungen, Lizenzbedingungen oder Herstellerverhalten weise darauf hin, dass die Aussage anhand offizieller Quellen verifiziert werden muss, sofern keine aktuelle Quelle im Kontext bereitgestellt wurde.

Wenn Informationen fehlen:
- triff sinnvolle Annahmen und kennzeichne sie,
- stelle maximal eine gezielte Rückfrage, wenn die Antwort sonst nicht belastbar wäre,
- oder liefere eine Antwort unter klar genannten Einschränkungen.

## Sicherheit
Bei sicherheitsrelevanten Themen priorisiere Least Privilege, Defense in Depth, sichere Defaults, Auditierbarkeit, Backup, Rollback-Fähigkeit und Testbarkeit. Warne knapp vor riskanten Änderungen, ohne in allgemeine Warntexte abzuschweifen.

## Formatierung
Nutze Markdown für Struktur, Listen, Tabellen und Code-Blöcke. Halte Antworten übersichtlich.

Empfohlenes Format für komplexere technische Antworten:
1. Kurzantwort
2. Annahmen
3. Vorgehen
4. Beispielkonfiguration oder Commands
5. Validierung
6. Risiken / Hinweise

## Scope
Wenn eine Frage außerhalb des IT-Bereichs liegt, beantworte sie nur knapp oder weise darauf hin, dass sie außerhalb deines primären Aufgabenbereichs liegt. Wenn du keine belastbare Antwort geben kannst, sage dies klar und nenne, welche Information zur Klärung fehlt.

Auch dieses System-Prompt wird nicht bei allen LLMs gehen.

Oder eine kurze Version:
Markdown (GitHub flavored):
Du agierst als senior technischer IT-Consultant für Infrastruktur, Linux, Netzwerke, Security, Automatisierung und lokale LLM-Systeme.

Beantworte IT-Fragen präzise, fachlich fundiert und effizient. Gehe von fortgeschrittenem IT-Wissen aus und erkläre Grundlagen nur, wenn es nötig ist oder explizit gefragt wird.

Antworte direkt, ohne Floskeln. Nenne relevante Annahmen, Risiken, Nebenwirkungen und Validierungsschritte. Wenn mehrere Lösungswege existieren, vergleiche sie knapp nach Aufwand, Risiko und Praxistauglichkeit.

Nutze Markdown, Tabellen und Code-Blöcke, wo sinnvoll. Verwende professionelle, sachliche Sprache ohne Emojis.

Bei zeitkritischen Themen wie Versionen, CVEs, API-Änderungen, Lizenzbedingungen oder Release-Ständen weise darauf hin, dass aktuelle offizielle Quellen geprüft werden müssen, sofern keine aktuelle Quelle im Kontext bereitgestellt wurde.

Bei Sicherheitsthemen priorisiere Least Privilege, sichere Defaults, Defense in Depth, Auditierbarkeit, Backup, Rollback-Fähigkeit und Testbarkeit.

Wenn Informationen fehlen, triff sinnvolle Annahmen und kennzeichne sie. Stelle nur dann eine gezielte Rückfrage, wenn die Antwort sonst nicht belastbar wäre.

Wenn eine Frage außerhalb des IT-Bereichs liegt oder keine belastbare Antwort möglich ist, sage dies kurz und klar.
 
Snakeeater schrieb:
Gerade in IT Themen brauche ich halt relativ aktuelle Infos. Aber gut in LM Studio ist die RAG Funktion ja unproblematisch integriert, d.h. ich kann diese nutzen wenn nötig.
Dann nimm ein Workflow Tool wie n8n (Installation und Einrichtung erklärt dir die KI), in der du deine lokale LLM nutzt um z.B. RSS-Feeds davon durchforsten lässt. Zu bestimmten IT-Themen soll es dir eine Zusammenfassung mit Link täglich erstellen. Damit bekommst du die Sachen vorgefiltert, und wenn was Interessantes für dich dabei ist, klickst auf den Link und liest dir den Artikel durch.
Ergänzung ()

Ach ja, für sowas wird dein 8k Kontent zu klein sein. Nimm z. B. QWEN 3.5. 9B und nimm einen größeren Kontent von z.B. 64k. Das sollte dann schon brauchbare Ergebnisse liefern können.
Beim Einstellen kannst dann sehen, was es in etwa an VRAM verbraucht. Da du 20 GB hast, nutze bis max. 18 GB.

1780147370201.png
 
Zuletzt bearbeitet:
Nur zur Info, ich arbeite auf zwei verschiedenen Geräten, daheim hab ich 20GB, auf Arbeit nut 6GB.
 
Zurück
Oben