Lokale LLM Empfehlung

Garmor schrieb:
Ah, ich hatte immer angenommen, GPT-OSS wäre auch dense. Das erklärt, warum es halbwegs schnell ist. Ich habe bei Gemma4 auch nicht das dense-Modell genommen, weil das auf meiner Hardware tödlich langsam wäre. Daher beziehe ich mich auch eher auf E4B bzw. 26B A4B, wo auch nur jeweils 4 Milliarden aktiv sind. Die oben gesetzte Grenze war ja bei 12GB, wo eigentlich nur das E4B reinpasst.
Mal dazu "Mixture of Experts (MoE) vs Dense LLMs" nachlesen, was das bedeutet. ;)
andy_m4 schrieb:
Modelle wie gpt-oss-120B hat zwar 117 Milliarden Parameter, aber davon sind immer bis 5,1 Milliarden aktiviert.
Sowas wie Gemma 4 31B hat zwar nur 31 Milliarden Parameter, aber die werden halt auch alle bei der Verarbeitung genutzt.
Auch wenn weniger aktiviert sind, muss das gesamte Modell in den VRAM geladen werden.
 
Habe jetzt auf dem PC Gemma 4 26B A4B und Gemma 4 E4B ausprobiert. Zur Inferenz Geschwindigkeit kann ich nichts sagen, läuft auf CPU (238V) und RAM (32 GB). Aufgabe war Grammatikfehler und ähnliches in Textdokumenten zu finden, die Word nicht findet. E4B hat die Aufgabe mäßig erfüllt, 26B sehr gut. Interessanterweise war das Modell bei dieser Aufgabe schneller UND besser, wenn man Reasoning ausstellte. War dann auf den 32 GB mit 8192 Token KV Cache aber auch wirklich eng (31,6 GB belegt).

Dann habe ich noch auf dem iPhone E2B laufen, da habe ich aber eher sowas wie "Erstell mir ein Konzept für XY" getestet. Das hat mich ziemlich positiv überrascht, auch wenn die Inferenzgeschwindigkeit schnell einbrach.

Mit Mistral mache ich leider keine guten Erfahrungen mehr... die hängen gefühlt weit hinterher.

Mein Setup ist immer Claude für das Programmieren selbst zu nutzen und dann mit dem lokalen Modell "produktiv" zu arbeiten. Das klappt eigentlich ganz gut.
 
Garmor schrieb:
Kenn ich schon. Aber andere Modelle geben wenigstens Hinweise darauf in ihrer Bezeichnung.
Gemma 4 31B = Dense
Gemma 4 26B A4B = MoE. Das A4B steht für „active 4B“, also 26 Milliarden Gesamtparameter, von denen pro Token nur 4 Milliarden aktiv sind. Das ist ein klarer Hinweis auf Mixture-of-Experts.

Bei den kleineren Modellen wird es schon schwieriger.
 
Pyrukar schrieb:
Hatte das Modell zugriff auf das Internet oder wurden nur die Internen Daten abgefragt?
Es hatte Zugriff auf das Internet.
Ich nehme einfach mal an, dass beim Crawlen der Webseite da auch irgendwo Werbung für dieses Jahr stand und es deswegen zu Fehlinterpretationen kam.
 
Kann das Modell auch empfehlen, ich nutze in einer 16 GB Graka aber eine kleinere Quantisierung, damit ich auch noch genügend Platz für das Kontextfenster habe. Man merkt an dem Modell leider auch genau, wie sehr einem die 16GB weh tun und dass es derzeit keine Alternative zur 5090 gibt, wenn man darüber hinaus will (und CUDA behalten möchte).
 
MuhSagtDieKuh schrieb:
Gemma 4 26BA4B ist ein hervorragendes allround Modell - Und mit einer 16 GB GPU und ensprechendem Quant auch sehr schnell.

https://huggingface.co/mudler/gemma-4-26B-A4B-it-heretic-APEX-GGUF

Das ist meine bevorzugte Variante - gemma-4-26B-A4B-heretic-APEX-I-Compact.gguf läuft komplett im VRAM meiner 16GB 5070Ti und ist komplett unzensiert.
Ist das hier das gleiche Modell? Ich komm mit den Bezeichnungen leicht durcheinander.
https://ollama.com/GX-Telecom/gemma-4-26B-A4B-it-ultra-uncensored-heretic-Q5-APEX

Also ich verwende jetzt gerne https://ollama.com/fredrezones55/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive.
Unzensiert ist ein muss wenn es um kreatives schreiben geht. Es sei denn man will explizit generische familienfreundliche Unterhaltungsliteratur schreiben. Moralin bekommt man dann ganz umsonst in dreifacher Dosis mit.

Aber Achtung, sämtlichen Offlinemodellen mangelt es an verschiedensten Stellen an Allgemeinwissen aus dem Literatur und Unterhaltungssektor.
Ich lasse sie deshalb gern durch ein paar Testreihen laufen, je nachdem welche Themen ich behandeln möchte.
ZB Charakterbögen sehr bekannter Genre-reihen erstellen lassen. Die eine kann zb noch nicht einmal die Namen der Drei Fragezeichen aufsagen während n anderes Modell dann ausführlichste Charakterprofile zusammenstellen kann.
Teste einfach mit eigenem fundierten Wissen ob die LLM über genügend Allgemeinwissen über das Genre verfügt.

Drüberlesen und Überarbeiten muss man die Texte der offline Modelle allerdings immer. Ich hab festgestellt das zb Deepl Write online hier ganz gute Ergebnisse liefert was Korrektur und Satzbau angeht zum überarbeiten. Zudem kann man so dann prekäre Stellen die man nicht der "Cloud" anvertrauen möchte einfach weglassen und manuell überarbeiten.
 
Zuletzt bearbeitet:
samuelclemens schrieb:
Ist das hier das gleiche Modell? Ich komm mit den Bezeichnungen leicht durcheinander.
https://ollama.com/GX-Telecom/gemma-4-26B-A4B-it-ultra-uncensored-heretic-Q5-APEX
Ähnlich im Sinne dass beide mit dem Heretic script uncensored wurden und APEX als quantisierungsverfahren verwenden.

Ob sie qualitativ gleich gut sind, lässt sich nur durch ausprobieren herausfinden…ich nutze LM Studio und das Modell schreibt ohne Probleme unzensierte kreative Geschichten in einem guten schreibstil und praktisch fehlerfrei.
 
  • Gefällt mir
Reaktionen: samuelclemens
MuhSagtDieKuh schrieb:
komplett unzensiert
Was heißt das denn genau?
Also was funktioniert da, was bei dem "normalen" Gemma-4-26B-A4B nicht funktioniert?

interesTED schrieb:
Man merkt an dem Modell leider auch genau, wie sehr einem die 16GB weh tun
Wobei man es ja gar nicht zwangsläufig (komplett) im VRAM betreiben muss.
Man verliert zwar an Geschwindigkeit aber dann muss man halt gucken, was einem wichtig ist.

samuelclemens schrieb:
Aber Achtung, sämtlichen Offlinemodellen mangelt es an verschiedensten Stellen an Allgemeinwissen aus dem Literatur und Unterhaltungssektor.
LLMs sind ja auch gar nicht dafür gedacht, Wissen abzufragen. Wer die so benutzt, macht ohnehin was falsch und hat LLMs nicht verstanden.
Man kann natürlich aber LLMs benutzen, um Wissensquellen anzuzapfen.

samuelclemens schrieb:
Unzensiert ist ein muss wenn es um kreatives schreiben geht.
Aha. Du meinst, wenn im Modellnamen nicht "uncensored" dran steht, dann taugen die (außer zur Kinderunterhaltung) nix? :-)
So ein Quatsch. Solche Aussagen klingen immer so ein bisschen nach Schulhof-Gequatsche. Wo es ja auch immer Typen gab, die immer auf den voll harten Stoff (oder was auch immer) bestanden haben weil alles andere wäre Kinderkram, nur um damit allen zu "beweisen" und zur Schau zu stellen wie cool/krass sie sind.

samuelclemens schrieb:
Vielleicht waren es aber auch die prekären Stellen. :-)
 
@andy_m4 Ja, du hast mit allem recht wenns dich glücklich macht! Und danke für die kostenlose Grammatikberatung! 🖖☮️
 
Zuletzt bearbeitet:
@MuhSagtDieKuh Ich würde diese Testprompts nicht direkt als Pro Argument anführen für unzensierte Modelle.😉
Aber ja, man kann damit den grad der Zensur gut testen.
Zeigt aber auch das man bei unzensierten Modellen den Output niemals ungefiltert online stellen sollte ohne drüberzulesen.

Mir geht es aber eher darum das die Texte oft in gewisse moralische richtungen gedrängt werden. Auch wenn der Prompt was komplett anderes verlangt. Wobei dann auch noch viel zu viele Köche im hintergrund mitreden.
Als würde Disney versuchen nen ernsthaften Star Wars Film zu drehen.🤣
 
  • Gefällt mir
Reaktionen: MuhSagtDieKuh
MuhSagtDieKuh schrieb:
Standard Modell ein paar dieser prompts probieren ...
Ah ok. Das gibt immerhin eine Vorstellung, was gemeint ist.

samuelclemens schrieb:
Zeigt aber auch das man bei unzensierten Modellen den Output niemals ungefiltert online stellen sollte ohne drüberzulesen.
Sollte man generell so handhaben. Egal ob das Modell "zensiert" ist oder nicht.

samuelclemens schrieb:
Mir geht es aber eher darum das die Texte oft in gewisse moralische richtungen gedrängt werden.
Da ist durchaus etwas dran.

samuelclemens schrieb:
Als würde Disney versuchen nen ernsthaften Star Wars Film zu drehen.🤣
:-) Zugegebenermaßen war das lustig.
 
Zurück
Oben