OpenClaw mit lokalem LLM

Azdak

Lieutenant Pro
Registriert
Okt. 2009
Beiträge
550
Hat einer von euch OpenClaw schon sinnvoll mit einem lokalem LLM zum laufen gebracht? Wenn ja, welches Modell hast du bei welchen Einstellungen genutzt und was waren deine Hauptprobleme? Was geht dann und was geht nicht?

Meine eigenen Versuche laufen gerade mit nemotron-3-nano-30b-a3b. Sowohl im Q4 als auch im Q8 bei 260k Kontextfenster. Vieles sieht gut aus, anderes noch gar nicht. Tooluse stellt aktuell die größte Herausforderung dar bei mir. Damit ist es effektiv für mich nur ein ziemlich kompliziert aufgebauter Chatbot via Matrix. Von der Erfahrung, die mit großen Closed Source LLMs zu erreichen ist, kein Vergleich.

Bitte keine Grundsatzdiskussionen um
  • Sicherheit
  • kostenpflichtige APIs
  • die Sinnlosigkeit oder Sinnhaftigkeit von AI in allgemeinen.
 
  • Gefällt mir
Reaktionen: Tornhoof
Alles was ich gelesen habe, ist etwa das was du beschreibst, Nemotron 3 nano wird empfohlen und Tool Calls gehen so lala oder gar nicht.
 
Damit hast glaube schon mehr rausgekiregt als die meisten. ICh denke "Tooluse" witd immer über code erreicht. Das heißt Modelle die guten Code schreiben können am besten tools benutzen, weil sie eben entweder CLI oder andere API benutzen über code den sie generieren.

und in diesem Gebiet gibts nicht viel umsonst was nur im Ansatz an Claude XY oder GPT-Codex etc heranreicht.

Aber ich lasse mich hier gerne eines besseren belehren.
 
die von Heise (c't 3003) haben das hier etwas erklärt:
 
Ich hatte den Bot in einer VM mit GPT-OSS-20B und 120B laufen. Auch Lama4 Scout ging, war aber nicht sehr schnell. Antwortzeiten mehrere Minuten usw. Bei kleineren Modellen war die notwendige Funktionalität, Tiefe oder der Qualität leider nicht so vorhanden, dass ich zufrieden damit war. Nette Spielerei aber keine one billion dollar one bot show. :freaky:
 
dms schrieb:
Was möchtest du denn zB machen .. ausser nur des Toolstacks "wegen"
In einem Satz: Wie weit kommt man mit einem lokalen LLM.

Etwas länger: Mit starken Modellen geht da einiges. Zum wilden austesten und insb. über Nacht mal Sachen laufen zu lassen, ist es mir aber viel zu teuer. Zudem kennt glaube ich jeder den Effekt, dass LLMs (auch die großen Modelle) irgendwann, wenn die Session zu lang wird, abdriften und sich nicht mehr einfangen lassen. Passiert das hier bei dem Framework auch? Wie/Wo wird es unterbunden, sollte es nicht passieren.

Es geht also weniger darum, echte Probleme zu lösen, sondern Grenzen auszutesten.

@hippiemanuide das Toolcalling hat bei dir problemlos funktioniert? Bei mir hat er aktuell alles In-Kontext vorgegaugelt.
 
Ich hab vorgestern mein lokales Traummodell für OpenClaw gefunden.

Ab besten funktionierte gwen3, Betriebssystem modifizieren, Programme selbstständig installieren und nutzen, OS durch Skripte erweitern, sich selber verändern.... Alles Super. Aber, die Persönlichkeit war absolut besch...eiden.

Die beste Persönlichkeit hatte ich mit DeepSeek3, war aber nicht so schlau bei den oben genannten Punkten.

Dann habe ich auf ollama ein Modell gefunden, wo eine Privatperson gwen3 und DeepSeek3 miteinander verschmolzen hat. Ich hatte nach langen Tests wirklich nur die Vorteile aus beiden Modellen, aber keinerlei Nachteile.

Wenn du ein Lokales Modell zum laufen bekommen hast, kannst du doch innerhalb von einer Minute wechseln und einfach mal dutzende ausprobieren. Wirst schon was finden, was zu deinen Ansprüchen passt.

Leider habe ich nur eine 5090 und kann deshalb nur die 30b Modelle nutzen. Hätte so gerne eine RTX Pro 6000, damit die 80GB Modelle in den vRam passen.
 
  • Gefällt mir
Reaktionen: JPsy
aluis schrieb:
lokales Traummodell für OpenClaw gefunden.
Soso. Und welches?

aluis schrieb:
Dann habe ich auf ollama ein Modell gefunden, wo eine Privatperson gwen3 und DeepSeek3 miteinander verschmolzen hat.
Nur nicht zu viele Informationen oder gar konkrete Bezeichnungen. Könnte ja sonst für jemanden versehentlich hilfreich sein.
 
  • Gefällt mir
Reaktionen: aluis
  • Gefällt mir
Reaktionen: oicfar und aluis
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Azdak und andy_m4
aluis schrieb:
"api": "openai-responses"
Vielen dank! Ich war auf openai-completions und hier hat er den CoT nicht vom restlichen Text trennen können. Also hatte ich reasoning auf der inferenzseite deaktiviert. Ohne reasoning war es aber zu schlecht. Mit diesem endpunkt kann ich den effort einstellen und das Tool calling scheint perfekt zu funktionieren. Mit Reasoning + q8 quantisierung funktionieren nun sehr gut. Vielen Dank!

Als Hardware kommt btw ein Strix Halo mit 64gb bei mir zum Einsatz btw. Das Geld für eine rtx 6000 pro ist mir dan doch zu viel, dafür, das es 70% Hobby ist. Mit den GPUs geht schon was. Hatte beruflich schon mal damit für kurze Zeit arbeiten können.
 
  • Gefällt mir
Reaktionen: aluis
Zurück
Oben