Klingt ja in der Theorie alles schön und gut, aber so ein normaler "High-End"-Rechner mit 32GB RAM und 16GB Grafikkarte ist einfach zu klein, um bessere Modelle mit einem großen Kontextfenster auszuführen.
Schauen wir uns z.B. Gemma 4 an, nur das kleinere E4B Modell läuft auch ohne starke Quantifizierung und mit einem großen Kontextfenster gut auf einer 5080. Also hier habe ich mit meiner schon über 120 Token pro Sekunde gemessen. Das ist super.
Aber, das nächstbessere Modell wäre das 26b A4B Modell und da sieht die Sache schon anders aus. Das passt auch mit 4 Bit Quantifizierung und kleinem Kontextfenster kaum auf die 5080. Das läuft auf dem Rechner zwar schon noch irgendwie, aber Teile müssen in den System-RAM ausgelagert werden, wodurch es deutlich langsamer läuft. Hier komme ich noch auf rund 40 Token pro Sekunde, das ist noch brauchbar, aber der Arbeitsspeicher des Systems ist dann auch schon fast voll bis zur Kotzgrenze und die Eingabe-Token sind stark begrenzt, sodass es für Dinge wie Softwareentwicklung oder gar OpenClaw eher nicht zu gebrauchen ist. Jetzt bräuchte man im Grunde schon einen zweiten Rechner, auf dem man dann arbeitet, während das andere System nur die KI ausführt und sonst nichts.
Andere Modelle wie Qwen 3.6 35b-A3B brauche ich da gar nicht mehr ausprobieren. Da bräuchte man schon mindestens eine 3090 oder besser eine 5090, damit das vernünftig läuft. Und diese sind aktuell quasi unbezahlbar.
Immerhin, erfahrungsgemäß erzeugt z.B. das kleine E4B Modell von Gemma 4 schon bessere Ergebnisse als das größere GPT-OSS 20b Modell von OpenAI (welches in etwa die Obergrenze für ne 16GB Grafikkarte ist) oder auch Qwen 3.5 27b. Daher bin ich zuversichtlich, dass wir immer bessere Modelle sehen werden, die auch mit 16GB Speicher gute Ergebnisse erzielen. Aber bisher sind die Modelle meist entweder auf kleinere oder größere Hardware ausgerichtet. Gemma E4B beispielsweise würde auch auf 8GB noch einigermaßen laufen und verschenkt somit Potential, wenn man es mit einer größeren Karte ausführt. Dann kann man zwar auf 8 Bit Quantifizierung hoch gehen, aber ob das am Ende so viel bringt?