Lokale KI zur Skript-Erstellung? (Powershell, VBS)

Ergänzend zu dem was oicfar geschrieben hat, hier noch ganz grob ein paar Antworten:
AssassinWarlord schrieb:
1. was bedeutet diese Quantisierung?
Schrumpfen auf weniger Bits -> geringerer VRAM-Bedarf -> zu wenige Bits liefern aber keine guten Ergebnisse mehr. 4-6 bpw sind gut. Will man große Modelle (70b) noch in die 32GB VRAM packen, muss man weiter bis auf 2-3 bpw runter.
Roh sind die meisten Modelle FP16 bzw. BF16. Brauchen also deutlich mehr Platz.

AssassinWarlord schrieb:
2. die Kontext-Länge bezeichnet ja, wieviel sich die KI beim aktuellem Chat merken kann, oder?
"Kurzzeitgedächtnis" bzw. das womit der LLM tatsächlich arbeitet. Für ein Langzeitgedächtnis benutzt man dann RAG oder sowas. Aus das kann übrigens quantisiert werden um VRAM zu sparen. Solange man den VRAM hat, kann man es hochdrehen. Langsamer wird es erst, wenn es sich füllt (über die Zeit). Einfach ausprobieren.

AssassinWarlord schrieb:
3. Kann ich solche herunterladbaren Modelle selber irgendwie weiter trainieren, sodass sich das ding das merkt? z.B. wenn der irgendwo nen Fehler gemacht hat und ich ihn korrigiere - kann man das dann dauerhaft speichern?
Ist erstmal im Context. Solange es da drinnen ist, merkt sich das LLM das. Dauerhaft, entweder als feste Instruction die immer mitgeschickt wird oder RAG.

AssassinWarlord schrieb:
4. was bedeuten die ganzen zahlen und Bezeichnungen hinter einem Model? 70b oder 30b steht wohl für die Befehle in Billionen was das ding kann, aber was heißt z.B. A3B, oder Q4, Q8, instruct, oder GGUF?
Q4, Q8 -> quantisiert auf 4 bzw. 8 bit. Wobei es da noch deutlich mehr unterschiede gibt. Die i-Quants sind besser als die alten ohne i. Das gilt hier v.a. für GGUF (was ein Quantisierungsformat ist). Bei EXL2 oder EXL3 sieht es anders aus. Da heißen die dann z.B. 6.00bpw_H6. Ist aber im Prinzip ähnlich.

1761898820344.png

(graph by ikawrakow)

AssassinWarlord schrieb:
5. Was ist der unterschied zwischen einem "Thinking Chat" und "non Thinking Chat" model?
Das eine denkt nach, bevor es antwortet. Das kostet mehr Zeit (und Tokens), hilft dem Modell aber, bessere Antworten zu geben.
 
  • Gefällt mir
Reaktionen: AssassinWarlord
Wow, danke :)
Ich spiele erstmal damit rum, hab aber schon festgestellt, das man mit LM Studio scheinbar keine Bilder erstellen lassen kann, wohl aber dass es Bilder erkennen kann.
Und - gibt es Möglichkeiten die KI mit dem Internet zu koppen, dass sie im netz nach infos sucht we was gehen könnte? oder ist das dann zu komplex?
 
Von allen Modellen die ich getestet habe ist Qwen3-Coder-30B-A3B-Instruct aktuell zum code schreiben sehr zu empfehlen.
 
Zuletzt bearbeitet:
Zurück
Oben