Für Gemma 3 27B von 32GB Q6 zu 64GB Q8?

sycoraxx

Cadet 1st Year
Registriert
Apr. 2024
Beiträge
9
Hallo.

Ich brauche deine Hilfe. Ich wunder mich, ob ich von 32GB und Gemma 3 Q6 auf 64GB und Q8 upgraden soll.

Ich brauche es für silly tavern und nutze Kobold.

Ist Q8 wirklich besser oder würdet manche von euch sagen "genügt" Q6?

Huggingface meint ich könnte Q8 laufenlassen, wenn ich denn 64GB hätte. Stimmt das überhaupt?



Falls Ja, sollte ich neu kaufen 2x32GB? Läuft es dann? Oder habe ich weitere Stolpersteine?
Dazu stecken solle ja zu Problemen führen?

Falls Nein, warum? (Motto: Kann man sich sparen)



HW:
core-265K,32GB 6400,RTX5080

LLM:

https://huggingface.co/mlabonne/gemma-3-27b-it-abliterated-GGUF


Vielen lieben Dank für deine Antwort.

 
Ich hab mal 2x32GB bestellt und teste selbst. Ich halte euch auf dem Laufenden. Danke.
 
Wenn du mit der Geschwindigkeit klar kommst, wenn es über CPU/RAM läuft. Du hast dein Setup aber schon mal mit kleineren LLM getestet, oder?
 
danke Azdak.

ich komme mit der geschindigkeit klar.

es läuft mit 2x32gb, das q8.

kleinere will ich nicht wirklich.
Ergänzung ()

Was mich stört ist das Kobold auf allen cores rechnet. Kann man Kobold nicht auf efficiency cores legen?
 
Aber macht es einen merklichen Unterschied in der Qualität, ob du jetzt Q6 oder Q8 nimmst?
 
Sehr schwer zu messen. Anhand der Antworten im sillytavern würde ich sagen, Ja. Meine Charakter verwenden bessere Worte im Kontext. Folgen den Befehlen (Programmierung) besser. Ich bin jedenfalls zufrieden.

Das mit den efficiency cores können wir in die Tonne kloppen. Mir wurde klar, dass ja beim Arbeiten im LLM andere Arbeiten zu leiden beginnen aufgrund des belegen RAM-Bandwidth.
Ergänzung ()

Ich durfte ebenso feststellen, dass die companions den Text besser verstehen und kurze Auflistungen, die ich mit einer Nummer bestätige, nun folgen. Was sie früher nicht taten.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Garmor
Zurück
Oben