SirKhan
Lt. Commander
- Registriert
- Dez. 2021
- Beiträge
- 1.028
Ergänzend zu dem was oicfar geschrieben hat, hier noch ganz grob ein paar Antworten:
Roh sind die meisten Modelle FP16 bzw. BF16. Brauchen also deutlich mehr Platz.
(graph by ikawrakow)
Schrumpfen auf weniger Bits -> geringerer VRAM-Bedarf -> zu wenige Bits liefern aber keine guten Ergebnisse mehr. 4-6 bpw sind gut. Will man große Modelle (70b) noch in die 32GB VRAM packen, muss man weiter bis auf 2-3 bpw runter.AssassinWarlord schrieb:1. was bedeutet diese Quantisierung?
Roh sind die meisten Modelle FP16 bzw. BF16. Brauchen also deutlich mehr Platz.
"Kurzzeitgedächtnis" bzw. das womit der LLM tatsächlich arbeitet. Für ein Langzeitgedächtnis benutzt man dann RAG oder sowas. Aus das kann übrigens quantisiert werden um VRAM zu sparen. Solange man den VRAM hat, kann man es hochdrehen. Langsamer wird es erst, wenn es sich füllt (über die Zeit). Einfach ausprobieren.AssassinWarlord schrieb:2. die Kontext-Länge bezeichnet ja, wieviel sich die KI beim aktuellem Chat merken kann, oder?
Ist erstmal im Context. Solange es da drinnen ist, merkt sich das LLM das. Dauerhaft, entweder als feste Instruction die immer mitgeschickt wird oder RAG.AssassinWarlord schrieb:3. Kann ich solche herunterladbaren Modelle selber irgendwie weiter trainieren, sodass sich das ding das merkt? z.B. wenn der irgendwo nen Fehler gemacht hat und ich ihn korrigiere - kann man das dann dauerhaft speichern?
Q4, Q8 -> quantisiert auf 4 bzw. 8 bit. Wobei es da noch deutlich mehr unterschiede gibt. Die i-Quants sind besser als die alten ohne i. Das gilt hier v.a. für GGUF (was ein Quantisierungsformat ist). Bei EXL2 oder EXL3 sieht es anders aus. Da heißen die dann z.B. 6.00bpw_H6. Ist aber im Prinzip ähnlich.AssassinWarlord schrieb:4. was bedeuten die ganzen zahlen und Bezeichnungen hinter einem Model? 70b oder 30b steht wohl für die Befehle in Billionen was das ding kann, aber was heißt z.B. A3B, oder Q4, Q8, instruct, oder GGUF?
(graph by ikawrakow)
Das eine denkt nach, bevor es antwortet. Das kostet mehr Zeit (und Tokens), hilft dem Modell aber, bessere Antworten zu geben.AssassinWarlord schrieb:5. Was ist der unterschied zwischen einem "Thinking Chat" und "non Thinking Chat" model?