Lokale LLM als Chatbot

Snakeeater

Captain
Registriert
Aug. 2004
Beiträge
3.187
Wollen wir nichtmal einen Sammelthread erstellen? Im Zuge der weiter steigenden Kosten für Abos und dem generellen Trend beim Thema KI sollte das Interesse doch recht groß sein lokalem LLMs zu betreiben wenn die GPU dafür ausreicht. Ich nutze aktuell eine RT 7900 XT und versuche mit llama.cpp einen lokalen Chatbot zum laufen zu kriegen.
Leider ist das ein pures Trial & Error Prinzip.

ROCm bekomme ich bei mir irgendwie nicht zum laufen, evtl. liegt es hier an Tumbleweed, ich bin daher nun auf Vulkan umgestiegen.
Als Modell wollte ich eigentlich irgend ein passendes Qwen Modell, aktuell hat mich Grok dazu angehalten folgendes zu nutzen: Qwen3.5-27B-Q4_K_M.gguf

Ich habe auch noch gar keinen Plan welchen Systemprompt ich tatsächlich nutzen soll für einen lokalen Chatbot.

Hat hier jemand Erfahrungen sammeln können und evtl. Hinweise und Tipps?
 
Snakeeater schrieb:
Trial and error.

Snakeeater schrieb:
Ich habe auch noch gar keinen Plan welchen Systemprompt ich tatsächlich nutzen soll für einen lokalen Chatbot.
Kommt drauf an, was Du machen möchtest. Welche Rolle soll der Bot einnehmen, wie soll er sich verhalten, wie antworten, in welchem Ton, ...
 
wenn du mit einer gui besser klar kommst, nimm lmstudio. vulkan statt rocm muss auch kein nachteil sein, im gegenteil.
 
  • Gefällt mir
Reaktionen: Snakeeater und Toms
+1 für LM Studio
 
  • Gefällt mir
Reaktionen: Kuristina
LM Studio bringt mir ja erstmal nur eine GUI, sicherlich sinnvoll für Sachen wie Copy Paste und Dokumente teilen. Aber aktuell vergleiche ich nur Performance mit den kostenlosen Browser Chatbots und die Ergebnisse.

Aktuell bin ich bei Prompt: 211.3 t/s | Generation: 29.4 t/s
Die Ergebnisse kann ich noch nicht wirklich vergleichen, aktuell stört mich eher die langsame Performance für relativ simple Fragen.
 
koboldcpp hat alles in einer Binary gebündelt. Einfach starten und fertig. Läuft mit GGUF. Implementiert aktuelle Standards. Hat sogar eine eigene (optionale) Chat-Oberfläche. Für AMD funktioniert die Vulkan-Variante sehr gut.

Ansonsten ist wohl ollama die einsteigerfreundliche Version von llama.cpp.
Ich hab gerade ollama-rocm auf CachyOS am laufen. Da ist das direkt im Paketmanager anklickbar und funktioniert auch direkt.
 
  • Gefällt mir
Reaktionen: drake23
0x8100 schrieb:
wenn du mit einer gui besser klar kommst
llama.cpp bietet in der Server-Variante ebenfalls eine simple GUI, auf die per Browser zugegriffen werden kann.
Ergänzung ()


Snakeeater schrieb:
aktuell stört mich eher die langsame Performance für relativ simple Fragen.
Kleineres Modell nehmen oder eine stärkere GPU. Höhere Quantisierungslevel solltest Du vermeiden.

Vor allen Dingen solltest Du nicht allzu viel erwarten. Modelle dieser Größe können zwar überraschend viel, sind aber kein Vergleich zu dem, was ChatGPT, Claude oder Gemini auf dem Kasten haben.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: madmax2010, Fersy und drake23
Snakeeater schrieb:
ROCm bekomme ich bei mir irgendwie nicht zum laufen, evtl. liegt es hier an Tumbleweed, ich bin daher nun auf Vulkan umgestiegen.
was ist denn das problem?
 
Was genau ist denn dein Ziel?

27b mit einer 7900XT ist bisschen viel, daher auch das „träge“ antworten.

Als Interface kann ich WebUI empfehlen.
 
Ich nutze KoboldCPP mit allen möglichen Modellen mit einer 7900XT.
Mein größtes Model ist Gemma-3-27B-Q4_K_M mit 15,4 GB.
Läuft ohne Probleme.
 
Snakeeater schrieb:
Im Zuge der weiter steigenden Kosten für Abos und dem generellen Trend beim Thema KI sollte das Interesse doch recht groß sein lokalem LLMs zu betreiben wenn die GPU dafür ausreicht. Ich nutze aktuell eine RT 7900 XT und versuche mit llama.cpp einen lokalen Chatbot zum laufen zu kriegen.
Über welche Kosten sprechen wir?

Was sind die Use-Cases, die du mit on-prem KI's abdecken möchtest?

Erst Use-Case definieren und dann Modell suchen.
 
Zurück
Oben