Lokale KI zur Skript-Erstellung? (Powershell, VBS)

SirKhan · 31. Oktober 2025

Ergänzend zu dem was oicfar geschrieben hat, hier noch ganz grob ein paar Antworten:

AssassinWarlord schrieb:
1. was bedeutet diese Quantisierung?

Schrumpfen auf weniger Bits -> geringerer VRAM-Bedarf -> zu wenige Bits liefern aber keine guten Ergebnisse mehr. 4-6 bpw sind gut. Will man große Modelle (70b) noch in die 32GB VRAM packen, muss man weiter bis auf 2-3 bpw runter.
Roh sind die meisten Modelle FP16 bzw. BF16. Brauchen also deutlich mehr Platz.

AssassinWarlord schrieb:
2. die Kontext-Länge bezeichnet ja, wieviel sich die KI beim aktuellem Chat merken kann, oder?

"Kurzzeitgedächtnis" bzw. das womit der LLM tatsächlich arbeitet. Für ein Langzeitgedächtnis benutzt man dann RAG oder sowas. Aus das kann übrigens quantisiert werden um VRAM zu sparen. Solange man den VRAM hat, kann man es hochdrehen. Langsamer wird es erst, wenn es sich füllt (über die Zeit). Einfach ausprobieren.

AssassinWarlord schrieb:
3. Kann ich solche herunterladbaren Modelle selber irgendwie weiter trainieren, sodass sich das ding das merkt? z.B. wenn der irgendwo nen Fehler gemacht hat und ich ihn korrigiere - kann man das dann dauerhaft speichern?

Ist erstmal im Context. Solange es da drinnen ist, merkt sich das LLM das. Dauerhaft, entweder als feste Instruction die immer mitgeschickt wird oder RAG.

AssassinWarlord schrieb:
4. was bedeuten die ganzen zahlen und Bezeichnungen hinter einem Model? 70b oder 30b steht wohl für die Befehle in Billionen was das ding kann, aber was heißt z.B. A3B, oder Q4, Q8, instruct, oder GGUF?

Q4, Q8 -> quantisiert auf 4 bzw. 8 bit. Wobei es da noch deutlich mehr unterschiede gibt. Die i-Quants sind besser als die alten ohne i. Das gilt hier v.a. für GGUF (was ein Quantisierungsformat ist). Bei EXL2 oder EXL3 sieht es anders aus. Da heißen die dann z.B. 6.00bpw_H6. Ist aber im Prinzip ähnlich.

(graph by ikawrakow)

AssassinWarlord schrieb:
5. Was ist der unterschied zwischen einem "Thinking Chat" und "non Thinking Chat" model?

Das eine denkt nach, bevor es antwortet. Das kostet mehr Zeit (und Tokens), hilft dem Modell aber, bessere Antworten zu geben.

AssassinWarlord · 31. Oktober 2025

Wow, danke

Ich spiele erstmal damit rum, hab aber schon festgestellt, das man mit LM Studio scheinbar keine Bilder erstellen lassen kann, wohl aber dass es Bilder erkennen kann.
Und - gibt es Möglichkeiten die KI mit dem Internet zu koppen, dass sie im netz nach infos sucht we was gehen könnte? oder ist das dann zu komplex?

foxC · 18. November 2025

Von allen Modellen die ich getestet habe ist Qwen3-Coder-30B-A3B-Instruct aktuell zum code schreiben sehr zu empfehlen.

AssassinWarlord · 3. Februar 2026

Muss mal mein alten thread hier hochholen um mal nachzufragen: das LMStudio kann man wohl auch über ein webservice oder API ansprechen, also sodass das ding theoretisch von mehreren Benutzern im Netzwerk genutzt werden kann, oder?

Meine Frage ist - Gibt es ein LLM welches richtig gut texte übersetzen kann, oder gar mit AddOns ganze Word-Dokumente laden, übersetzen und speichern kann? Also ähnlich wie DeepL Business?
Oder was könnte man für sowas hernehmen?
Ich überlege halt, sowas mal für die Firma zu konstruieren, also rei weg Netzwerk intern im kleinen Maße... Doof ist halt beim LM Studio, dass man scheinbar immer nur ein Model laden kann, und das es keine Bild-generierungs Modelle gibt direkt fürs LMStudio...

oicfar · 3. Februar 2026

Für Übersetzungen: translategemma:27b

https://golem.de/news/translategemma-google-oeffnet-seine-uebersetzungs-ki-2601-204254.html

AssassinWarlord · 3. Februar 2026

Ja, gemma3 27b hatte ich schon mehrmals von gelesen... Aber kann man damit DocX übersetzen?

Und habe da aber auch gehört, dass gemma3 stark zensiert sein soll, und wenn im Text auch nur ansatzweise etwas anzügliches oder gefährliches drin steht - dass es dann totalen kaudawelsch übersetzt :-/

oicfar · 3. Februar 2026

AssassinWarlord schrieb:
keine Bild-generierungs Modelle gibt direkt fürs LMStudio...

Ollama baut gerade was: https://ollama.com/blog/image-generation

AssassinWarlord · 3. Februar 2026

Für Bildgenerierung nutze ich aktuell ein StableDiffusion Ding was mit nem Webserver daher kommt, aber schaue mir da gerne auch andere Sachen an

oicfar · 3. Februar 2026

AssassinWarlord schrieb:
Ja, gemma3 27b hatte ich schon mehrmals von gelesen... Aber kann man damit DocX übersetzen?

translategemma ist neu und gut. LLMs selbst können keine speziellen Formate nicht lesen.

AssassinWarlord schrieb:
Und habe da aber auch gehört, dass gemma3 stark zensiert sein soll, und wenn im Text auch nur ansatzweise etwas anzügliches oder gefährliches drin steht - dass es dann totalen kaudawelsch übersetzt :-/

Ob es das macht, weiß ich nicht. Einfach versuchen und schauen, ob das gehörte auch zu 100% stimmt.

Ergänzung (3. Februar 2026)

AssassinWarlord schrieb:
Für Bildgenerierung nutze ich aktuell ein StableDiffusion Ding was mit nem Webserver daher kommt, aber schaue mir da gerne auch andere Sachen an

Es ist halt noch experimentell in Ollama.

AssassinWarlord · 3. Februar 2026

Jau schau ich mir auf alle Fälle mal an, danke

Das 27b Model wird sicherlich nicht in die 32GB der RTX5090 passen, oder?
Und auf einem halbwegs aktuellen Server mit 768GB in 12 Chanel-RAM Anbindung wird deutlichst zu langsam sein nehme ich an?

JumpingCat · 3. Februar 2026

AssassinWarlord schrieb:
Doof ist halt beim LM Studio, dass man scheinbar immer nur ein Model laden kann,

Ollama oder vllm-switch.

AssassinWarlord schrieb:
Ich überlege halt, sowas mal für die Firma zu konstruieren, also rei weg Netzwerk intern im kleinen Maße...

Da baut man halt mehrere Rechner auf. Du willst ja nicht ständig das die Modelle geladen und entladen werden.

oicfar · 3. Februar 2026

AssassinWarlord schrieb:
Jau schau ich mir auf alle Fälle mal an, danke
Das 27b Model wird sicherlich nicht in die 32GB der RTX5090 passen, oder?

translategemma:27b-it-q4_K_M -> 17GB
translategemma:27b-it-q8_0 -> 30GB
6Bit Variante ~22GB

JumpingCat · 3. Februar 2026

AssassinWarlord schrieb:
Das 27b Model wird sicherlich nicht in die 32GB der RTX5090 passen, oder?

Welches?

https://ollama.com/library/translategemma/tags

Suche

Lokale KI zur Skript-Erstellung? (Powershell, VBS)

SirKhan

Lt. Commander

AssassinWarlord

Lt. Commander

foxC

Cadet 2nd Year

AssassinWarlord

Lt. Commander

oicfar

Captain

AssassinWarlord

Lt. Commander

oicfar

Captain

AssassinWarlord

Lt. Commander

oicfar

Captain

AssassinWarlord

Lt. Commander

JumpingCat

Rear Admiral

oicfar

Captain

JumpingCat

Rear Admiral

Ähnliche Themen