Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden. Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
Hat einer von euch OpenClaw schon sinnvoll mit einem lokalem LLM zum laufen gebracht? Wenn ja, welches Modell hast du bei welchen Einstellungen genutzt und was waren deine Hauptprobleme? Was geht dann und was geht nicht?
Meine eigenen Versuche laufen gerade mit nemotron-3-nano-30b-a3b. Sowohl im Q4 als auch im Q8 bei 260k Kontextfenster. Vieles sieht gut aus, anderes noch gar nicht. Tooluse stellt aktuell die größte Herausforderung dar bei mir. Damit ist es effektiv für mich nur ein ziemlich kompliziert aufgebauter Chatbot via Matrix. Von der Erfahrung, die mit großen Closed Source LLMs zu erreichen ist, kein Vergleich.
Bitte keine Grundsatzdiskussionen um
Sicherheit
kostenpflichtige APIs
die Sinnlosigkeit oder Sinnhaftigkeit von AI in allgemeinen.
Damit hast glaube schon mehr rausgekiregt als die meisten. ICh denke "Tooluse" witd immer über code erreicht. Das heißt Modelle die guten Code schreiben können am besten tools benutzen, weil sie eben entweder CLI oder andere API benutzen über code den sie generieren.
und in diesem Gebiet gibts nicht viel umsonst was nur im Ansatz an Claude XY oder GPT-Codex etc heranreicht.
Aber ich lasse mich hier gerne eines besseren belehren.
die von Heise (c't 3003) haben das hier etwas erklärt:
YouTube
An dieser Stelle steht ein externer Inhalt von YouTube, der den Forumbeitrag ergänzt. Er kann mit einem Klick geladen und auch wieder ausgeblendet werden.
Ich hatte den Bot in einer VM mit GPT-OSS-20B und 120B laufen. Auch Lama4 Scout ging, war aber nicht sehr schnell. Antwortzeiten mehrere Minuten usw. Bei kleineren Modellen war die notwendige Funktionalität, Tiefe oder der Qualität leider nicht so vorhanden, dass ich zufrieden damit war. Nette Spielerei aber keine one billion dollar one bot show.
In einem Satz: Wie weit kommt man mit einem lokalen LLM.
Etwas länger: Mit starken Modellen geht da einiges. Zum wilden austesten und insb. über Nacht mal Sachen laufen zu lassen, ist es mir aber viel zu teuer. Zudem kennt glaube ich jeder den Effekt, dass LLMs (auch die großen Modelle) irgendwann, wenn die Session zu lang wird, abdriften und sich nicht mehr einfangen lassen. Passiert das hier bei dem Framework auch? Wie/Wo wird es unterbunden, sollte es nicht passieren.
Es geht also weniger darum, echte Probleme zu lösen, sondern Grenzen auszutesten.
@hippiemanuide das Toolcalling hat bei dir problemlos funktioniert? Bei mir hat er aktuell alles In-Kontext vorgegaugelt.
Ich hab vorgestern mein lokales Traummodell für OpenClaw gefunden.
Ab besten funktionierte gwen3, Betriebssystem modifizieren, Programme selbstständig installieren und nutzen, OS durch Skripte erweitern, sich selber verändern.... Alles Super. Aber, die Persönlichkeit war absolut besch...eiden.
Die beste Persönlichkeit hatte ich mit DeepSeek3, war aber nicht so schlau bei den oben genannten Punkten.
Dann habe ich auf ollama ein Modell gefunden, wo eine Privatperson gwen3 und DeepSeek3 miteinander verschmolzen hat. Ich hatte nach langen Tests wirklich nur die Vorteile aus beiden Modellen, aber keinerlei Nachteile.
Wenn du ein Lokales Modell zum laufen bekommen hast, kannst du doch innerhalb von einer Minute wechseln und einfach mal dutzende ausprobieren. Wirst schon was finden, was zu deinen Ansprüchen passt.
Leider habe ich nur eine 5090 und kann deshalb nur die 30b Modelle nutzen. Hätte so gerne eine RTX Pro 6000, damit die 80GB Modelle in den vRam passen.
@oicfar Nein. Eben nicht. Guck auf den Abschnitt, den ich zitiert habe. Da redet er von einem "Mischmodell" zwischen einem Qwen3-Derivat und einem Deepseek V3-Derivat.
Aber keine Ahnung. Vielleicht auch ein anderes. Ehrlich gesagt verstehe ich nicht, warum es für Manche so schwer ist Sachen einfach zu verlinken. Dafür ist doch Hypertext da.
Vielen dank! Ich war auf openai-completions und hier hat er den CoT nicht vom restlichen Text trennen können. Also hatte ich reasoning auf der inferenzseite deaktiviert. Ohne reasoning war es aber zu schlecht. Mit diesem endpunkt kann ich den effort einstellen und das Tool calling scheint perfekt zu funktionieren. Mit Reasoning + q8 quantisierung funktionieren nun sehr gut. Vielen Dank!
Als Hardware kommt btw ein Strix Halo mit 64gb bei mir zum Einsatz btw. Das Geld für eine rtx 6000 pro ist mir dan doch zu viel, dafür, das es 70% Hobby ist. Mit den GPUs geht schon was. Hatte beruflich schon mal damit für kurze Zeit arbeiten können.
Da ja in anderen Threads zu KI(-Agenten) fleißig diskutiert wird, dachte ich mir, ich berichte mal ein wenig von meinen Erfahrungen.
Zuerst einmal die Warnung vorneweg: Du bist für deinen Agenten verantwortlich und haftbar! Das Ding gehört nicht auf ein System, mit dem du aktiv arbeitest und auf dem sich echte Daten befinden! Die drei Hauptgefahren aus meiner Sicht:
– Deine Daten kommen abhanden, weil sie durch den Agenten geschrottet werden.
– Deine Daten kommen abhanden, weil sie durch den Agenten durch die Welt geschickt werden.
– Du verstößt gegen Nutzungsbedingungen bei Netzdiensten oder – noch schlimmer – gar gegen Gesetze!
TL;DR: Mit lokalen Modellen der Größenordnung 30B läuft es auf dem Niveau einer Techdemo – mit genau ausgewählten Use-Cases und vorher durchgespielten Abläufen – recht gut. Zur Nutzung als allgemeiner Assistent, der verschiedenste Dinge erledigt, funktioniert es bei Weitem nicht ausreichend.
Etwas länger:
Kontextanforderung & Geschwindigkeit:
Ein Standard-Prompt des Agenten beginnt so bei 15k–20k Kontext ohne Tuning. Im Verlauf einer Interaktion geht der Kontext schnell auf 100k bis 150k Token hoch, und über mehrere Runden und Tool-Calls sind auch lokal schnell die 1 Mio. Token gesprengt. Prompt-Processing wird dadurch sehr schnell zu einer relevanten Größe. Da man lokal aber oft alleine auf seiner Inference-Engine unterwegs ist, greift hier in der Regel der Cache sehr gut, was enorm hilft. Die Generierungsgeschwindigkeit der Token ist ein zweischneidiges Schwert. Funktioniert es, ist die Generierungsgeschwindigkeit fast egal, da man dann nicht vor dem Chatinterface sitzt und auf Antwort wartet. Ob der Bot die Aufgabe in 30 Sek. oder 15 Min. erledigt, ist da nicht so wichtig. Funktioniert es aber nicht – sprich, muss man eingreifen – ziehen sich die Aufgaben spürbar in die Länge.
Testumfang:
Getestet wurde von mir zu 90 % mit Deutsch. Ja, mit Englisch wären die Ergebnisse vermutlich etwas besser, aber das entspricht nicht meinem Standardnutzungsverhalten. Als Modelle wurden Nemotron-3-Nano-30B-A3B und GLM-4.7-Flash (auch 30B-A3B) genutzt, beide in Q8-Quantisierung. Nemotron war, sagen wir, aufregend. Das Modell bietet bis zu 1 Mio. Kontextspeicher, die ich auch nutzen könnte. Bringt nur nichts. Das Modell vergisst in kürzester Zeit, was Teil des Kontextes ist. Entsprechend gehen die Halluzinationen durch die Decke. Erkennt das Modell, dass ein Tool zur Verfügung steht, und ruft dieses auf, so funktioniert es erstaunlich gut. Aufgrund der Alzheimer des Systems werden Tool-Calls aber sehr schnell halluziniert. Sprich, es sieht so aus, als hätte der Agent eine Aufgabe erledigt, aber in Wahrheit fand alles nur im Chat statt. Hier scheint die Mamba-Architektur ihre Schwächen voll zu zeigen. Was aber geht, sind ganz einfache, klare Anweisungen. „Lege eine Datei an." Kopiere von A nach B. Gib den Inhalt von Datei Z aus. All so etwas funktioniert ausreichend zuverlässig. Komplexere Aufgaben, die das Modell selbst in Schritte aufteilen muss, damit ist Nemotron-3-Nano aber leider überfordert. Ein Wechsel zu GLM-4.7-Flash hat hier deutliche Verbesserungen gebracht. Aber auch dieses Modell leidet an Gedächtnisschwund, was es schwierig macht, damit zu arbeiten. Komplexe Themen sind auch mit diesem Modell nicht machbar.
Durch die Möglichkeit, Arbeitsvorgänge zu Tools zu machen, verbessern sich einige Dinge. Externe Tools oder ClawdHub habe ich aber nicht getestet. Das wäre für mich dann außerhalb des von mir kontrollierbaren Rahmens gewesen.
Pro Tag habe ich auf meinem System rund 700k Token lokal verarbeitet, wobei ein nicht unerheblicher Teil natürlich durch Multi-Turns und Tool-Outputs Input war und einiges davon gecacht wurde. Es sind also keine 700k generierte Token. Das würde mein Laptop dann doch eher schwerlich schaffen.
Zum Vergleich habe ich dann ein paar weitere Tests mit API-Calls gegen GLM5 gemacht. Bei deren Codeplan wurde OpenClaw explizit erwähnt (https://docs.z.ai/devpack/tool/openclaw), sodass ich ein sehr gutes Modell im Rahmen einer ausreichenden Quota nutzen konnte, ohne Gefahr zu laufen, gebannt zu werden.
Mit diesem Modell war es sehr problemlos möglich, Aufforderungen abzusetzen wie: „Unter https://huggingface.co/mistralai/Voxtral-Mini-4B-Realtime-2602#transformers kannst du sehen, wie mit Hugging-Face Transformers Voxtral Mini ausführbar ist. Können wir damit das Modell lokal laufen lassen auf der CPU? Dein System hat leider keine GPU."
Ikarus Interessante Frage. Lassen Sie mich das analysieren: Voxtral-Mini-4B auf CPU – Realistische Einschätzung
Technisch möglich: Ja, mit transformers >= 5.2.0 und device_map="auto" läuft das Modell auf CPU, wenn keine GPU verfügbar ist.
Aber hier ist das Problem:
Faktor
GPU (empfohlen)
CPU (Ihr System)
Speicher
16GB VRAM
~8GB RAM für Modell
Geschwindigkeit
12.5+ tok/s (Echtzeit)
Vermutlich 0.5-2 tok/s
Latenz
480ms Delay
Mehrere Sekunden
Das Modell ist ein 4B-Parameter-Modell in BF16 – das sind ~8GB reine Modellgröße. Auf einer CPU wird es nicht in Echtzeit laufen. Für Offline-Transkription okay, aber für den "Realtime"-Zweck (Sprachassistent, Live-Untertitel) wird es zu langsam sein. Was wir testen könnten
Transformers ist noch nicht installiert. Wenn Sie es ausprobieren möchten: Bash pip install --upgrade transformers "mistral-common[audio]"
Und dann ein Testscript: Python from transformers import VoxtralRealtimeForConditionalGeneration, AutoProcessorrepo_id = "mistralai/Voxtral-Mini-4B-Realtime-2602" processor = AutoProcessor.from_pretrained(repo_id) model = VoxtralRealtimeForConditionalGeneration.from_pretrained( repo_id, device_map="auto", # CPU fallback torch_dtype="auto")
Meine ehrliche Einschätzung: Für Offline-Transkription (Dateien verarbeiten) könnte es funktionieren. Für echte Echtzeit-Transkription auf CPU wird es frustrierend langsam sein. Alternativen für CPU:
Whisper.cpp – optimiert für CPU, läuft deutlich schneller
faster-whisper – CTranslate2-optimiertes Whisper
Wollen Sie es trotzdem versuchen, oder soll ich nach CPU-optimierten Alternativen suchen?
Azdak geht mir auch weniger um echtzeit, sondern um lokale transkiption. ich würde es einfach mal testen. dann messen wir, wie schnell/langsam es geht.
Ikarus Verstanden! Dann probieren wir's aus und messen die Performance.
Gut, Installation erfolgreich. Jetzt noch PyTorch (CPU-only):
Jetzt erstelle ich ein Testscript mit Zeitmessung:
Modell-Download läuft (~8GB). Das dauert einen Moment...
Das Modell wurde durch SIGTERM beendet – wahrscheinlich ein OOM (Out of Memory). Lass mich den Arbeitsspeicher prüfen:
15GB RAM sollten reichen. Vielleicht ein BF16-Problem auf CPU. Lass mich das Modell in FP32 versuchen:
Modell geladen! Die Transkription läuft...
Wieder SIGTERM. Das Problem ist der Speicher:
FP32 (was wir versucht haben): ~16GB für 4B Parameter
BF16 (Original): ~8GB, aber CPU unterstützt BF16 oft nicht sauber
Ihr RAM: 15GB (gesamte System)
Das Modell passt knapp nicht. Optionen:
GGUF-Version mit llama.cpp/whisper.cpp (effizienter)
Kleineres Modell wie Whisper-small
faster-whisper (optimiert für CPU)
Lassen Sie mich nach einer GGUF-Variante suchen oder eine CPU-optimierte Alternative einrichten:
🧤 Status-Update zu Voxtral: Das Modell wird wiederholt durch SIGTERM gekillt – Speicherproblem.
In FP16/BF16 würde es passen, aber Ihre CPU unterstützt BF16 vermutlich nicht nativ, und PyTorch auf CPU macht daraus FP32 → zu groß. Lösungsmöglichkeiten: > 1. Quantisierte Version (Q4/Q8) – falls jemand eine GGUF/ONNX erstellt
2. Swap aktivieren – würde es langsam aber funktionsfähig machen
3. CPU-optimierte Alternative: faster-whisper (Whisper mit CTranslate2)
Soll ich faster-whisper als Alternative einrichten? Das läuft auf CPU deutlich effizienter. Azdak dann lass uns whisper versuchen
Ikarus 🧤 Whisper läuft! Ergebnisse
Metrik
Wert
Modell
Whisper-small (int8 quantisiert)
Audio-Dauer
11.0s
Inferenz-Zeit
1.9s
Realtime-Factor
5.80x (schneller als Echtzeit!)
Das ist überraschend gut! Mit faster-whisper und int8-Quantisierung läuft Whisper auf Ihrer CPU fast 6x schneller als Echtzeit – perfekt für Offline-Transkription. Modell-Optionen
Modell
Größe
Qualität
Speed
tiny
~75MB
okay
sehr schnell
base
~150MB
gut
schnell
small
~460MB
sehr gut
5.8x ✓
medium
~1.5GB
exzellent
~2x
large-v3
~3GB
bestmöglich
~1x
Soll ich ein Test-Script für Ihre eigenen Audiodateien erstellen? Oder wollen Sie medium oder large-v3 für bessere Qualität ausprobieren?
Azdak lass uns medium und large-v3 testen, wie lange es dauert. ich würde zum test dann eine sprachnachricht aufnehmen, die wir dann testen können.
Ikarus Gute Idee. Lass mich die Modelle mit dem Test-Audio vergleichen: Vergleichsergebnisse
Modell
Laden
Inferenz (11s Audio)
Realtime-Factor
small
1.4s
7.6s
1.46x ✓
medium
25.0s
23.7s
0.47x
large-v3
34.7s
39.4s
0.28x
Interpretation:
small → Echtzeit möglich (1.46x schneller)
medium → ~2x langsamer als Echtzeit (noch akzeptabel)
large-v3 → ~3.5x langsamer (nur für maximale Qualität)
Beispiel 1-Minuten-Sprachnachricht:
small: ~41 Sekunden
medium: ~2:07 Minuten
large-v3: ~3:34 Minuten
─── 🧤 Bereit für Ihren Test! Nehmen Sie eine Sprachnachricht auf und teilen Sie sie mit mir – ich transkribiere sie dann mit allen drei Modellen, damit Sie den Qualitätsunterschied sehen können.
Welches Format? WhatsApp/Signal sendet meist OGG/Opus, das sollte funktionieren.
Die Ergebnisse haben Sie schon gesehen – ich bin bereit für Ihre Sprachnachricht! 🎤
Schicken Sie sie einfach rüber, dann lasse ich alle drei Modelle darüberlaufen und wir vergleichen Qualität und Geschwindigkeit.
Für schnelle Notizen: small reicht – 14 Sekunden für 1 Minute Audio
Für Dokumentation: medium – guter Kompromiss
Für Präzision: large-v3 – erkannte sogar "Streichholzschächtelchen" korrekt! 🎯
Empfehlung: medium als Standard, large-v3 wenn's auf jedes Wort ankommt.
----- Ende des Dialogauschnittes -----
Zum Vergleich, diesen Text hatte ich vorgelesen:
Guten Tag, mein Name ist Dr. Müller-Lüdenscheid, und ich möchte Ihnen kurz von meinem gestrigen Ausflug nach Königswinter erzählen. Um viertel nach neun bin ich losgefahren – das Wetter war mit dreiundzwanzig Komma fünf Grad überraschend warm für einen Novembertag. Unterwegs habe ich eintausendzweihundertfünfunddreißig Kilometer auf dem Tacho gezählt, was natürlich übertrieben klingt, aber so ist es nun mal.
Besonders schwierig fand ich die Straße durch Bödefeld; dort gibt es nämlich eine Baustelle, die seit dem einunddreißigsten März besteht. Ein Schild wies darauf hin, dass die Umleitung über die B zweihunderteinundsechzig führt. Na ja, dachte ich mir, dann fahre ich eben einen kleinen Umweg.
Ach, übrigens: Hätten Sie gewusst, dass das Wort „Streichholzschächtelchen" eines der längsten deutschen Alltagswörter ist? Oder dass man „Schleswig-Holstein" oft falsch betont? Sprache ist schon eine kuriose Angelegenheit.
Der Verlauf dieses Chats ging über 49min, falls du es selbst mal machen willst und die Zeit vergleichen willst. nur dass ich halt nicht 49min lang gewartet habe, sondern andere Dinge getan habe.
Bei solchen erfolgreichen Tests gehen mehrere Millionen Token über die API. Wer also pro Token bezahlt, sollte das im Blick haben. Und, dass hier ALLE DATEN einmal zu den Chinesen geschickt werden. In einer Woche Testen sind via API so bei mir knapp 90 Mio. Token verarbeitet worden, und ich habe nicht permanent getestet.
Fazit:
Lokale LLMs kann man nutzen für ganz gezielte Aufgaben, z. B. auch in Sub-Agents. Als allgemeines Modell, um damit wirklich „von der Küche aus" ein Backup zu erstellen z. B., taugen sie ganz klar noch nicht. Dort müssen die großen Modelle ran, und diese verschlingen derart viel Rechenzeit, dass selbst mir hier anders wird. Daten und Screenshots nicht mehr von Hand von links nach rechts und zurück kopieren zu müssen, ist alleine schon ein klarer Fortschritt, die Selbstständigkeit über große Aufgabendefinitionen hinweg faszinierend. Die großen Modelle machen dabei erstaunlich wenig Fehler und funktionieren wirklich gut. Es ist aber auch ein nicht unerheblicher Teil Kontrollverlust, und die Risiken sind immens.
Zuletzt bearbeitet:
(Tabellen im Dialog-Spoiler aufgehübscht und vorgelesenen Text als referenz angefügt.)
Servus Leute, cooler thread, ich habe jetzt erste Erfahrungen mit Qwen 3 30b a3b gemacht. Kontextlimit ist echt nen Thema. Selbst mit 64GB unified ram zu wenig für openclaw.
Die Frage ist nun wo ist der sweet spot, wieviel Ram brauch man für agentic workflow um eben nicht auf die cloud modelle zugreifen zu müssen?
Eine schnelle suche spuckt mir Qwen 3 9B a2b 8bit , Nemotron 3 Nano a2b in 4bit und GLM 4.7 flash in 4bit aus um mehr platz für kontext zu haben. Die teste ich wohl mal.
Also lokale Dateien kann er gut verarbeiten, organisieren, lesen, zusammenfassen etc. Er fummelt auch gerne an seinen eigenen configs rum, bis nix mehr geht :-) Webseiten müssen leider sehr einfach sein, damit er sie steuern kann. Da suche ich noch gute /Skills. Die Aufgabe "beantworte alle meine Facebook-Anfragen" hab ich schlußendlich aufgegeben. Ebenso die Softwaresteuerung, also meine Thunderbird-Emails umorganiseren wäre nice. Hat das jemand hinbekommen? Token-Kosten hab ich gebändigt, hab via Netzwerk auf RTX 3090-Spiele-PC lokales LLM und gratis Ollama DeepseekCloud im Einsatz. Er schaltet auch selber auf teures chatgpt um, wenn er juristisch kniffliges beantworten soll. Für den Alltag reicht auch billige deepseek-API. Die laufende Verblödung hab ich noch nicht festgestellt, dazu stürzt er eh zu oft ab, alle 2 Tage. Er hat sich aber selbst einen Restart gebastelt (service). Sein Memory hat er lausig im Griff.. kommt immer wieder mit alten Sachen angedackelt.. :-)) Alles noch sehr frisch und mit heisser Nadel gestrickt, aber sobald man "seinen" Usecase gefunden hat, ist es um einen geschehen... magic...nicht mehr ohne.. P.S. Claude Code soll das alles auch können, auch ZUgriff auf lokale Dateien, Webseiten, Software? Stimmt das? Über command-line sind sie alle stark, aber bei GUI-Software ist noch viel Marketing drin. Ich glaube, die Menschheit hat noch mind. 3 Monate, wenn nicht sogar 6, bis sie ersetzbar ist :-)
Ich habe die letzten Tage VS Code mit Cline ausprobiert. Lokales Modell über LM Studio ging problemlos (wenn auch langsam auf meiner RTX 3060) bei Mistral habe ich über die API leider einen Fehler noch nicht beheben können.
Zugriff auf lokale Dateien und das Internet (zumindest für eine Websuche oder git clone) ist damit möglich. Es lässt sich auch ein gewisser Rahmen abstecken, was er darf und wofür er eine extra Erlaubnis braucht (File-Zugriff, ausführen von Kommandos, etc.).