Lokale KI zur Skript-Erstellung? (Powershell, VBS)

Ergänzend zu dem was oicfar geschrieben hat, hier noch ganz grob ein paar Antworten:
AssassinWarlord schrieb:
1. was bedeutet diese Quantisierung?
Schrumpfen auf weniger Bits -> geringerer VRAM-Bedarf -> zu wenige Bits liefern aber keine guten Ergebnisse mehr. 4-6 bpw sind gut. Will man große Modelle (70b) noch in die 32GB VRAM packen, muss man weiter bis auf 2-3 bpw runter.
Roh sind die meisten Modelle FP16 bzw. BF16. Brauchen also deutlich mehr Platz.

AssassinWarlord schrieb:
2. die Kontext-Länge bezeichnet ja, wieviel sich die KI beim aktuellem Chat merken kann, oder?
"Kurzzeitgedächtnis" bzw. das womit der LLM tatsächlich arbeitet. Für ein Langzeitgedächtnis benutzt man dann RAG oder sowas. Aus das kann übrigens quantisiert werden um VRAM zu sparen. Solange man den VRAM hat, kann man es hochdrehen. Langsamer wird es erst, wenn es sich füllt (über die Zeit). Einfach ausprobieren.

AssassinWarlord schrieb:
3. Kann ich solche herunterladbaren Modelle selber irgendwie weiter trainieren, sodass sich das ding das merkt? z.B. wenn der irgendwo nen Fehler gemacht hat und ich ihn korrigiere - kann man das dann dauerhaft speichern?
Ist erstmal im Context. Solange es da drinnen ist, merkt sich das LLM das. Dauerhaft, entweder als feste Instruction die immer mitgeschickt wird oder RAG.

AssassinWarlord schrieb:
4. was bedeuten die ganzen zahlen und Bezeichnungen hinter einem Model? 70b oder 30b steht wohl für die Befehle in Billionen was das ding kann, aber was heißt z.B. A3B, oder Q4, Q8, instruct, oder GGUF?
Q4, Q8 -> quantisiert auf 4 bzw. 8 bit. Wobei es da noch deutlich mehr unterschiede gibt. Die i-Quants sind besser als die alten ohne i. Das gilt hier v.a. für GGUF (was ein Quantisierungsformat ist). Bei EXL2 oder EXL3 sieht es anders aus. Da heißen die dann z.B. 6.00bpw_H6. Ist aber im Prinzip ähnlich.

1761898820344.png

(graph by ikawrakow)

AssassinWarlord schrieb:
5. Was ist der unterschied zwischen einem "Thinking Chat" und "non Thinking Chat" model?
Das eine denkt nach, bevor es antwortet. Das kostet mehr Zeit (und Tokens), hilft dem Modell aber, bessere Antworten zu geben.
 
  • Gefällt mir
Reaktionen: AssassinWarlord
Wow, danke :)
Ich spiele erstmal damit rum, hab aber schon festgestellt, das man mit LM Studio scheinbar keine Bilder erstellen lassen kann, wohl aber dass es Bilder erkennen kann.
Und - gibt es Möglichkeiten die KI mit dem Internet zu koppen, dass sie im netz nach infos sucht we was gehen könnte? oder ist das dann zu komplex?
 
Von allen Modellen die ich getestet habe ist Qwen3-Coder-30B-A3B-Instruct aktuell zum code schreiben sehr zu empfehlen.
 
Zuletzt bearbeitet:
Muss mal mein alten thread hier hochholen um mal nachzufragen: das LMStudio kann man wohl auch über ein webservice oder API ansprechen, also sodass das ding theoretisch von mehreren Benutzern im Netzwerk genutzt werden kann, oder?

Meine Frage ist - Gibt es ein LLM welches richtig gut texte übersetzen kann, oder gar mit AddOns ganze Word-Dokumente laden, übersetzen und speichern kann? Also ähnlich wie DeepL Business?
Oder was könnte man für sowas hernehmen?
Ich überlege halt, sowas mal für die Firma zu konstruieren, also rei weg Netzwerk intern im kleinen Maße... Doof ist halt beim LM Studio, dass man scheinbar immer nur ein Model laden kann, und das es keine Bild-generierungs Modelle gibt direkt fürs LMStudio...
 
Ja, gemma3 27b hatte ich schon mehrmals von gelesen... Aber kann man damit DocX übersetzen?

Und habe da aber auch gehört, dass gemma3 stark zensiert sein soll, und wenn im Text auch nur ansatzweise etwas anzügliches oder gefährliches drin steht - dass es dann totalen kaudawelsch übersetzt :-/
 
  • Gefällt mir
Reaktionen: JumpingCat und AssassinWarlord
AssassinWarlord schrieb:
Ja, gemma3 27b hatte ich schon mehrmals von gelesen... Aber kann man damit DocX übersetzen?
translategemma ist neu und gut. LLMs selbst können keine speziellen Formate nicht lesen.
AssassinWarlord schrieb:
Und habe da aber auch gehört, dass gemma3 stark zensiert sein soll, und wenn im Text auch nur ansatzweise etwas anzügliches oder gefährliches drin steht - dass es dann totalen kaudawelsch übersetzt :-/
Ob es das macht, weiß ich nicht. Einfach versuchen und schauen, ob das gehörte auch zu 100% stimmt.
Ergänzung ()

AssassinWarlord schrieb:
Für Bildgenerierung nutze ich aktuell ein StableDiffusion Ding was mit nem Webserver daher kommt, aber schaue mir da gerne auch andere Sachen an :)
Es ist halt noch experimentell in Ollama.
 
  • Gefällt mir
Reaktionen: AssassinWarlord
AssassinWarlord schrieb:
Doof ist halt beim LM Studio, dass man scheinbar immer nur ein Model laden kann,

Ollama oder vllm-switch.


AssassinWarlord schrieb:
Ich überlege halt, sowas mal für die Firma zu konstruieren, also rei weg Netzwerk intern im kleinen Maße...

Da baut man halt mehrere Rechner auf. Du willst ja nicht ständig das die Modelle geladen und entladen werden.
 
  • Gefällt mir
Reaktionen: AssassinWarlord
AssassinWarlord schrieb:
Jau schau ich mir auf alle Fälle mal an, danke :)
Das 27b Model wird sicherlich nicht in die 32GB der RTX5090 passen, oder?
translategemma:27b-it-q4_K_M -> 17GB
translategemma:27b-it-q8_0 -> 30GB
6Bit Variante ~22GB
 
  • Gefällt mir
Reaktionen: AssassinWarlord und SirKhan
Zurück
Oben