OpenClaw mit lokalem LLM

Azdak

Lieutenant Pro
Registriert
Okt. 2009
Beiträge
556
Hat einer von euch OpenClaw schon sinnvoll mit einem lokalem LLM zum laufen gebracht? Wenn ja, welches Modell hast du bei welchen Einstellungen genutzt und was waren deine Hauptprobleme? Was geht dann und was geht nicht?

Meine eigenen Versuche laufen gerade mit nemotron-3-nano-30b-a3b. Sowohl im Q4 als auch im Q8 bei 260k Kontextfenster. Vieles sieht gut aus, anderes noch gar nicht. Tooluse stellt aktuell die größte Herausforderung dar bei mir. Damit ist es effektiv für mich nur ein ziemlich kompliziert aufgebauter Chatbot via Matrix. Von der Erfahrung, die mit großen Closed Source LLMs zu erreichen ist, kein Vergleich.

Bitte keine Grundsatzdiskussionen um
  • Sicherheit
  • kostenpflichtige APIs
  • die Sinnlosigkeit oder Sinnhaftigkeit von AI in allgemeinen.
 
  • Gefällt mir
Reaktionen: Tornhoof
Alles was ich gelesen habe, ist etwa das was du beschreibst, Nemotron 3 nano wird empfohlen und Tool Calls gehen so lala oder gar nicht.
 
Damit hast glaube schon mehr rausgekiregt als die meisten. ICh denke "Tooluse" witd immer über code erreicht. Das heißt Modelle die guten Code schreiben können am besten tools benutzen, weil sie eben entweder CLI oder andere API benutzen über code den sie generieren.

und in diesem Gebiet gibts nicht viel umsonst was nur im Ansatz an Claude XY oder GPT-Codex etc heranreicht.

Aber ich lasse mich hier gerne eines besseren belehren.
 
die von Heise (c't 3003) haben das hier etwas erklärt:
 
Ich hatte den Bot in einer VM mit GPT-OSS-20B und 120B laufen. Auch Lama4 Scout ging, war aber nicht sehr schnell. Antwortzeiten mehrere Minuten usw. Bei kleineren Modellen war die notwendige Funktionalität, Tiefe oder der Qualität leider nicht so vorhanden, dass ich zufrieden damit war. Nette Spielerei aber keine one billion dollar one bot show. :freaky:
 
dms schrieb:
Was möchtest du denn zB machen .. ausser nur des Toolstacks "wegen"
In einem Satz: Wie weit kommt man mit einem lokalen LLM.

Etwas länger: Mit starken Modellen geht da einiges. Zum wilden austesten und insb. über Nacht mal Sachen laufen zu lassen, ist es mir aber viel zu teuer. Zudem kennt glaube ich jeder den Effekt, dass LLMs (auch die großen Modelle) irgendwann, wenn die Session zu lang wird, abdriften und sich nicht mehr einfangen lassen. Passiert das hier bei dem Framework auch? Wie/Wo wird es unterbunden, sollte es nicht passieren.

Es geht also weniger darum, echte Probleme zu lösen, sondern Grenzen auszutesten.

@hippiemanuide das Toolcalling hat bei dir problemlos funktioniert? Bei mir hat er aktuell alles In-Kontext vorgegaugelt.
 
Ich hab vorgestern mein lokales Traummodell für OpenClaw gefunden.

Ab besten funktionierte gwen3, Betriebssystem modifizieren, Programme selbstständig installieren und nutzen, OS durch Skripte erweitern, sich selber verändern.... Alles Super. Aber, die Persönlichkeit war absolut besch...eiden.

Die beste Persönlichkeit hatte ich mit DeepSeek3, war aber nicht so schlau bei den oben genannten Punkten.

Dann habe ich auf ollama ein Modell gefunden, wo eine Privatperson gwen3 und DeepSeek3 miteinander verschmolzen hat. Ich hatte nach langen Tests wirklich nur die Vorteile aus beiden Modellen, aber keinerlei Nachteile.

Wenn du ein Lokales Modell zum laufen bekommen hast, kannst du doch innerhalb von einer Minute wechseln und einfach mal dutzende ausprobieren. Wirst schon was finden, was zu deinen Ansprüchen passt.

Leider habe ich nur eine 5090 und kann deshalb nur die 30b Modelle nutzen. Hätte so gerne eine RTX Pro 6000, damit die 80GB Modelle in den vRam passen.
 
  • Gefällt mir
Reaktionen: JPsy
aluis schrieb:
lokales Traummodell für OpenClaw gefunden.
Soso. Und welches?

aluis schrieb:
Dann habe ich auf ollama ein Modell gefunden, wo eine Privatperson gwen3 und DeepSeek3 miteinander verschmolzen hat.
Nur nicht zu viele Informationen oder gar konkrete Bezeichnungen. Könnte ja sonst für jemanden versehentlich hilfreich sein.
 
  • Gefällt mir
Reaktionen: Astorek86 und aluis
  • Gefällt mir
Reaktionen: Astorek86, oicfar und aluis
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Azdak und andy_m4
aluis schrieb:
"api": "openai-responses"
Vielen dank! Ich war auf openai-completions und hier hat er den CoT nicht vom restlichen Text trennen können. Also hatte ich reasoning auf der inferenzseite deaktiviert. Ohne reasoning war es aber zu schlecht. Mit diesem endpunkt kann ich den effort einstellen und das Tool calling scheint perfekt zu funktionieren. Mit Reasoning + q8 quantisierung funktionieren nun sehr gut. Vielen Dank!

Als Hardware kommt btw ein Strix Halo mit 64gb bei mir zum Einsatz btw. Das Geld für eine rtx 6000 pro ist mir dan doch zu viel, dafür, das es 70% Hobby ist. Mit den GPUs geht schon was. Hatte beruflich schon mal damit für kurze Zeit arbeiten können.
 
  • Gefällt mir
Reaktionen: aluis
…habe eine interessante Alternative gefunden — ist zwar noch Beta, sieht aber sehr vielversprechend aus:

https://codeberg.org/msdong/deepseek-mcp-chat

läuft bei mir auf einer Linux-Mint-Kiste erstaunlich flüssig mit Ollama + OpenRouter LLM 🙂

Geht eher Richtung persönlicher AI-Operations-Server mit Memory, MCP-Integrationen und lokalem Fokus statt klassischem Agent-CLI-Ansatz wie OpenClaw.

Vielleicht für den einen oder anderen hier spannend zum Testen.
 
  • Gefällt mir
Reaktionen: aluis
Da ja in anderen Threads zu KI(-Agenten) fleißig diskutiert wird, dachte ich mir, ich berichte mal ein wenig von meinen Erfahrungen.


Zuerst einmal die Warnung vorneweg: Du bist für deinen Agenten verantwortlich und haftbar! Das Ding gehört nicht auf ein System, mit dem du aktiv arbeitest und auf dem sich echte Daten befinden! Die drei Hauptgefahren aus meiner Sicht:


– Deine Daten kommen abhanden, weil sie durch den Agenten geschrottet werden.
– Deine Daten kommen abhanden, weil sie durch den Agenten durch die Welt geschickt werden.
– Du verstößt gegen Nutzungsbedingungen bei Netzdiensten oder – noch schlimmer – gar gegen Gesetze!


TL;DR: Mit lokalen Modellen der Größenordnung 30B läuft es auf dem Niveau einer Techdemo – mit genau ausgewählten Use-Cases und vorher durchgespielten Abläufen – recht gut. Zur Nutzung als allgemeiner Assistent, der verschiedenste Dinge erledigt, funktioniert es bei Weitem nicht ausreichend.


Etwas länger:


Kontextanforderung & Geschwindigkeit:

Ein Standard-Prompt des Agenten beginnt so bei 15k–20k Kontext ohne Tuning. Im Verlauf einer Interaktion geht der Kontext schnell auf 100k bis 150k Token hoch, und über mehrere Runden und Tool-Calls sind auch lokal schnell die 1 Mio. Token gesprengt. Prompt-Processing wird dadurch sehr schnell zu einer relevanten Größe. Da man lokal aber oft alleine auf seiner Inference-Engine unterwegs ist, greift hier in der Regel der Cache sehr gut, was enorm hilft. Die Generierungsgeschwindigkeit der Token ist ein zweischneidiges Schwert. Funktioniert es, ist die Generierungsgeschwindigkeit fast egal, da man dann nicht vor dem Chatinterface sitzt und auf Antwort wartet. Ob der Bot die Aufgabe in 30 Sek. oder 15 Min. erledigt, ist da nicht so wichtig. Funktioniert es aber nicht – sprich, muss man eingreifen – ziehen sich die Aufgaben spürbar in die Länge.


Testumfang:
Getestet wurde von mir zu 90 % mit Deutsch. Ja, mit Englisch wären die Ergebnisse vermutlich etwas besser, aber das entspricht nicht meinem Standardnutzungsverhalten. Als Modelle wurden Nemotron-3-Nano-30B-A3B und GLM-4.7-Flash (auch 30B-A3B) genutzt, beide in Q8-Quantisierung. Nemotron war, sagen wir, aufregend. Das Modell bietet bis zu 1 Mio. Kontextspeicher, die ich auch nutzen könnte. Bringt nur nichts. Das Modell vergisst in kürzester Zeit, was Teil des Kontextes ist. Entsprechend gehen die Halluzinationen durch die Decke. Erkennt das Modell, dass ein Tool zur Verfügung steht, und ruft dieses auf, so funktioniert es erstaunlich gut. Aufgrund der Alzheimer des Systems werden Tool-Calls aber sehr schnell halluziniert. Sprich, es sieht so aus, als hätte der Agent eine Aufgabe erledigt, aber in Wahrheit fand alles nur im Chat statt. Hier scheint die Mamba-Architektur ihre Schwächen voll zu zeigen. Was aber geht, sind ganz einfache, klare Anweisungen. „Lege eine Datei an." Kopiere von A nach B. Gib den Inhalt von Datei Z aus. All so etwas funktioniert ausreichend zuverlässig. Komplexere Aufgaben, die das Modell selbst in Schritte aufteilen muss, damit ist Nemotron-3-Nano aber leider überfordert. Ein Wechsel zu GLM-4.7-Flash hat hier deutliche Verbesserungen gebracht. Aber auch dieses Modell leidet an Gedächtnisschwund, was es schwierig macht, damit zu arbeiten. Komplexe Themen sind auch mit diesem Modell nicht machbar.


Durch die Möglichkeit, Arbeitsvorgänge zu Tools zu machen, verbessern sich einige Dinge. Externe Tools oder ClawdHub habe ich aber nicht getestet. Das wäre für mich dann außerhalb des von mir kontrollierbaren Rahmens gewesen.


Pro Tag habe ich auf meinem System rund 700k Token lokal verarbeitet, wobei ein nicht unerheblicher Teil natürlich durch Multi-Turns und Tool-Outputs Input war und einiges davon gecacht wurde. Es sind also keine 700k generierte Token. Das würde mein Laptop dann doch eher schwerlich schaffen.


Zum Vergleich habe ich dann ein paar weitere Tests mit API-Calls gegen GLM5 gemacht. Bei deren Codeplan wurde OpenClaw explizit erwähnt (https://docs.z.ai/devpack/tool/openclaw), sodass ich ein sehr gutes Modell im Rahmen einer ausreichenden Quota nutzen konnte, ohne Gefahr zu laufen, gebannt zu werden.


Mit diesem Modell war es sehr problemlos möglich, Aufforderungen abzusetzen wie: „Unter https://huggingface.co/mistralai/Voxtral-Mini-4B-Realtime-2602#transformers kannst du sehen, wie mit Hugging-Face Transformers Voxtral Mini ausführbar ist. Können wir damit das Modell lokal laufen lassen auf der CPU? Dein System hat leider keine GPU."

Azdak
unter https://huggingface.co/mistralai/Voxtral-Mini-4B-Realtime-2602#transformers kannst du sehen, wie mit hugging-face transformers voxtral mini ausführbar ist. können wir damit das model lokal laufen lassen auf der CPU? dein system hat leider keine GPU.



Ikarus
Interessante Frage. Lassen Sie mich das analysieren:
Voxtral-Mini-4B auf CPU – Realistische Einschätzung
Technisch möglich: Ja, mit transformers >= 5.2.0 und device_map="auto" läuft das Modell auf CPU, wenn keine GPU verfügbar ist.
Aber hier ist das Problem:

FaktorGPU (empfohlen)CPU (Ihr System)
Speicher16GB VRAM~8GB RAM für Modell
Geschwindigkeit12.5+ tok/s (Echtzeit)Vermutlich 0.5-2 tok/s
Latenz480ms DelayMehrere Sekunden

Das Modell ist ein 4B-Parameter-Modell in BF16 – das sind ~8GB reine Modellgröße. Auf einer CPU wird es nicht in Echtzeit laufen. Für Offline-Transkription okay, aber für den "Realtime"-Zweck (Sprachassistent, Live-Untertitel) wird es zu langsam sein.
Was wir testen könnten
Transformers ist noch nicht installiert. Wenn Sie es ausprobieren möchten:
Bash
pip install --upgrade transformers "mistral-common[audio]"


Und dann ein Testscript:
Python
from transformers import VoxtralRealtimeForConditionalGeneration, AutoProcessorrepo_id = "mistralai/Voxtral-Mini-4B-Realtime-2602"
processor = AutoProcessor.from_pretrained(repo_id)
model = VoxtralRealtimeForConditionalGeneration.from_pretrained( repo_id, device_map="auto", # CPU fallback
torch_dtype="auto")


Meine ehrliche Einschätzung: Für Offline-Transkription (Dateien verarbeiten) könnte es funktionieren. Für echte Echtzeit-Transkription auf CPU wird es frustrierend langsam sein.
Alternativen für CPU:

  • Whisper.cpp – optimiert für CPU, läuft deutlich schneller
  • faster-whisper – CTranslate2-optimiertes Whisper
Wollen Sie es trotzdem versuchen, oder soll ich nach CPU-optimierten Alternativen suchen?


Azdak
geht mir auch weniger um echtzeit, sondern um lokale transkiption. ich würde es einfach mal testen. dann messen wir, wie schnell/langsam es geht.



Ikarus
Verstanden! Dann probieren wir's aus und messen die Performance.
Gut, Installation erfolgreich. Jetzt noch PyTorch (CPU-only):
Jetzt erstelle ich ein Testscript mit Zeitmessung:
Modell-Download läuft (~8GB). Das dauert einen Moment...
Das Modell wurde durch SIGTERM beendet – wahrscheinlich ein OOM (Out of Memory). Lass mich den Arbeitsspeicher prüfen:
15GB RAM sollten reichen. Vielleicht ein BF16-Problem auf CPU. Lass mich das Modell in FP32 versuchen:
Modell geladen! Die Transkription läuft...
Wieder SIGTERM. Das Problem ist der Speicher:


  • FP32 (was wir versucht haben): ~16GB für 4B Parameter
  • BF16 (Original): ~8GB, aber CPU unterstützt BF16 oft nicht sauber
  • Ihr RAM: 15GB (gesamte System)
Das Modell passt knapp nicht. Optionen:

  1. GGUF-Version mit llama.cpp/whisper.cpp (effizienter)
  2. Kleineres Modell wie Whisper-small
  3. faster-whisper (optimiert für CPU)
Lassen Sie mich nach einer GGUF-Variante suchen oder eine CPU-optimierte Alternative einrichten:
🧤 Status-Update zu Voxtral: Das Modell wird wiederholt durch SIGTERM gekillt – Speicherproblem.

ModusGrößeIhr RAM
BF16 (Original)~8GB15GB
FP32 (CPU-Safe)~16GB15GB ❌
In FP16/BF16 würde es passen, aber Ihre CPU unterstützt BF16 vermutlich nicht nativ, und PyTorch auf CPU macht daraus FP32 → zu groß.
Lösungsmöglichkeiten: > 1. Quantisierte Version (Q4/Q8) – falls jemand eine GGUF/ONNX erstellt
2. Swap aktivieren – würde es langsam aber funktionsfähig machen
3. CPU-optimierte Alternative: faster-whisper (Whisper mit CTranslate2)
Soll ich faster-whisper als Alternative einrichten? Das läuft auf CPU deutlich effizienter.


Azdak
dann lass uns whisper versuchen



Ikarus
🧤 Whisper läuft!
Ergebnisse


MetrikWert
ModellWhisper-small (int8 quantisiert)
Audio-Dauer11.0s
Inferenz-Zeit1.9s
Realtime-Factor5.80x (schneller als Echtzeit!)
Das ist überraschend gut! Mit faster-whisper und int8-Quantisierung läuft Whisper auf Ihrer CPU fast 6x schneller als Echtzeit – perfekt für Offline-Transkription.
Modell-Optionen

ModellGrößeQualitätSpeed
tiny~75MBokaysehr schnell
base~150MBgutschnell
small~460MBsehr gut5.8x ✓
medium~1.5GBexzellent~2x
large-v3~3GBbestmöglich~1x
Soll ich ein Test-Script für Ihre eigenen Audiodateien erstellen? Oder wollen Sie medium oder large-v3 für bessere Qualität ausprobieren?


Azdak
lass uns medium und large-v3 testen, wie lange es dauert. ich würde zum test dann eine sprachnachricht aufnehmen, die wir dann testen können.



Ikarus
Gute Idee. Lass mich die Modelle mit dem Test-Audio vergleichen:
Vergleichsergebnisse


ModellLadenInferenz (11s Audio)Realtime-Factor
small1.4s7.6s1.46x ✓
medium25.0s23.7s0.47x
large-v334.7s39.4s0.28x
Interpretation:
  • small → Echtzeit möglich (1.46x schneller)
  • medium → ~2x langsamer als Echtzeit (noch akzeptabel)
  • large-v3 → ~3.5x langsamer (nur für maximale Qualität)
Beispiel 1-Minuten-Sprachnachricht:
  • small: ~41 Sekunden
  • medium: ~2:07 Minuten
  • large-v3: ~3:34 Minuten
───
🧤 Bereit für Ihren Test! Nehmen Sie eine Sprachnachricht auf und teilen Sie sie mit mir – ich transkribiere sie dann mit allen drei Modellen, damit Sie den Qualitätsunterschied sehen können.
Welches Format? WhatsApp/Signal sendet meist OGG/Opus, das sollte funktionieren.
Die Ergebnisse haben Sie schon gesehen – ich bin bereit für Ihre Sprachnachricht! 🎤
Schicken Sie sie einfach rüber, dann lasse ich alle drei Modelle darüberlaufen und wir vergleichen Qualität und Geschwindigkeit.



Azdak
[Audio-Datei: 01:03]



Ikarus
🎤 Transkriptionsergebnisse (63s Sprachnachricht)


ModellZeitRTFQualität
small14.1s4.47x⭐⭐ Fehler
medium38.7s1.63x⭐⭐⭐ Gut
large-v358.3s1.09x⭐⭐⭐⭐ Best

Qualitätsvergleich (Ausschnitt)

Detailsmallmediumarge-v3
NameDr. Willer LüdenscheidtDr. Müller-Lüdenscheid ✓Dr. Müller-Lüdenscheid ✓
Zeit"4. nach 9""4.00 nach 9.00""vierte nach neun" ✓
Kilometer"1.205""1235" ✓"1235" ✓
Zungenbrecher"Streichholzigächtlichen" ❌"Streichholz-Chäkelchen" ❌"Streichholz-Schächtelchen" ✓

───
Fazit:

  • Für schnelle Notizen: small reicht – 14 Sekunden für 1 Minute Audio
  • Für Dokumentation: medium – guter Kompromiss
  • Für Präzision: large-v3 – erkannte sogar "Streichholzschächtelchen" korrekt! 🎯
Empfehlung: medium als Standard, large-v3 wenn's auf jedes Wort ankommt.


----- Ende des Dialogauschnittes -----
Zum Vergleich, diesen Text hatte ich vorgelesen:

Guten Tag, mein Name ist Dr. Müller-Lüdenscheid, und ich möchte Ihnen kurz von meinem gestrigen Ausflug nach Königswinter erzählen. Um viertel nach neun bin ich losgefahren – das Wetter war mit dreiundzwanzig Komma fünf Grad überraschend warm für einen Novembertag. Unterwegs habe ich eintausendzweihundertfünfunddreißig Kilometer auf dem Tacho gezählt, was natürlich übertrieben klingt, aber so ist es nun mal.

Besonders schwierig fand ich die Straße durch Bödefeld; dort gibt es nämlich eine Baustelle, die seit dem einunddreißigsten März besteht. Ein Schild wies darauf hin, dass die Umleitung über die B zweihunderteinundsechzig führt. Na ja, dachte ich mir, dann fahre ich eben einen kleinen Umweg.

Ach, übrigens: Hätten Sie gewusst, dass das Wort „Streichholzschächtelchen" eines der längsten deutschen Alltagswörter ist? Oder dass man „Schleswig-Holstein" oft falsch betont? Sprache ist schon eine kuriose Angelegenheit.
Der Verlauf dieses Chats ging über 49min, falls du es selbst mal machen willst und die Zeit vergleichen willst. nur dass ich halt nicht 49min lang gewartet habe, sondern andere Dinge getan habe.



Bei solchen erfolgreichen Tests gehen mehrere Millionen Token über die API. Wer also pro Token bezahlt, sollte das im Blick haben. Und, dass hier ALLE DATEN einmal zu den Chinesen geschickt werden. In einer Woche Testen sind via API so bei mir knapp 90 Mio. Token verarbeitet worden, und ich habe nicht permanent getestet.


Fazit:
Lokale LLMs kann man nutzen für ganz gezielte Aufgaben, z. B. auch in Sub-Agents. Als allgemeines Modell, um damit wirklich „von der Küche aus" ein Backup zu erstellen z. B., taugen sie ganz klar noch nicht. Dort müssen die großen Modelle ran, und diese verschlingen derart viel Rechenzeit, dass selbst mir hier anders wird. Daten und Screenshots nicht mehr von Hand von links nach rechts und zurück kopieren zu müssen, ist alleine schon ein klarer Fortschritt, die Selbstständigkeit über große Aufgabendefinitionen hinweg faszinierend. Die großen Modelle machen dabei erstaunlich wenig Fehler und funktionieren wirklich gut. Es ist aber auch ein nicht unerheblicher Teil Kontrollverlust, und die Risiken sind immens.
 
Zuletzt bearbeitet: (Tabellen im Dialog-Spoiler aufgehübscht und vorgelesenen Text als referenz angefügt.)
Servus Leute, cooler thread, ich habe jetzt erste Erfahrungen mit Qwen 3 30b a3b gemacht. Kontextlimit ist echt nen Thema. Selbst mit 64GB unified ram zu wenig für openclaw.

Die Frage ist nun wo ist der sweet spot, wieviel Ram brauch man für agentic workflow um eben nicht auf die cloud modelle zugreifen zu müssen?

Eine schnelle suche spuckt mir Qwen 3 9B a2b 8bit , Nemotron 3 Nano a2b in 4bit und GLM 4.7 flash in 4bit aus um mehr platz für kontext zu haben. Die teste ich wohl mal.
 
Zuletzt bearbeitet:
Also lokale Dateien kann er gut verarbeiten, organisieren, lesen, zusammenfassen etc. Er fummelt auch gerne an seinen eigenen configs rum, bis nix mehr geht :-) Webseiten müssen leider sehr einfach sein, damit er sie steuern kann. Da suche ich noch gute /Skills. Die Aufgabe "beantworte alle meine Facebook-Anfragen" hab ich schlußendlich aufgegeben. Ebenso die Softwaresteuerung, also meine Thunderbird-Emails umorganiseren wäre nice. Hat das jemand hinbekommen? Token-Kosten hab ich gebändigt, hab via Netzwerk auf RTX 3090-Spiele-PC lokales LLM und gratis Ollama DeepseekCloud im Einsatz. Er schaltet auch selber auf teures chatgpt um, wenn er juristisch kniffliges beantworten soll. Für den Alltag reicht auch billige deepseek-API. Die laufende Verblödung hab ich noch nicht festgestellt, dazu stürzt er eh zu oft ab, alle 2 Tage. Er hat sich aber selbst einen Restart gebastelt (service). Sein Memory hat er lausig im Griff.. kommt immer wieder mit alten Sachen angedackelt.. :-)) Alles noch sehr frisch und mit heisser Nadel gestrickt, aber sobald man "seinen" Usecase gefunden hat, ist es um einen geschehen... magic...nicht mehr ohne.. P.S. Claude Code soll das alles auch können, auch ZUgriff auf lokale Dateien, Webseiten, Software? Stimmt das? Über command-line sind sie alle stark, aber bei GUI-Software ist noch viel Marketing drin. Ich glaube, die Menschheit hat noch mind. 3 Monate, wenn nicht sogar 6, bis sie ersetzbar ist :-)
 
Ich habe die letzten Tage VS Code mit Cline ausprobiert. Lokales Modell über LM Studio ging problemlos (wenn auch langsam auf meiner RTX 3060) bei Mistral habe ich über die API leider einen Fehler noch nicht beheben können.
Zugriff auf lokale Dateien und das Internet (zumindest für eine Websuche oder git clone) ist damit möglich. Es lässt sich auch ein gewisser Rahmen abstecken, was er darf und wofür er eine extra Erlaubnis braucht (File-Zugriff, ausführen von Kommandos, etc.).
 
Zurück
Oben