andy_m4
Admiral
- Registriert
- Aug. 2015
- Beiträge
- 9.271
Ah ok. Gut zu wissen.Garmor schrieb:Daher beziehe ich mich auch eher auf E4B bzw. 26B A4B, wo auch nur jeweils 4 Milliarden aktiv sind.
Folge dem Video um zu sehen, wie unsere Website als Web-App auf dem Startbildschirm installiert werden kann.
Anmerkung: Diese Funktion ist in einigen Browsern möglicherweise nicht verfügbar.
Ah ok. Gut zu wissen.Garmor schrieb:Daher beziehe ich mich auch eher auf E4B bzw. 26B A4B, wo auch nur jeweils 4 Milliarden aktiv sind.
Mal dazu "Mixture of Experts (MoE) vs Dense LLMs" nachlesen, was das bedeutet.Garmor schrieb:Ah, ich hatte immer angenommen, GPT-OSS wäre auch dense. Das erklärt, warum es halbwegs schnell ist. Ich habe bei Gemma4 auch nicht das dense-Modell genommen, weil das auf meiner Hardware tödlich langsam wäre. Daher beziehe ich mich auch eher auf E4B bzw. 26B A4B, wo auch nur jeweils 4 Milliarden aktiv sind. Die oben gesetzte Grenze war ja bei 12GB, wo eigentlich nur das E4B reinpasst.
Auch wenn weniger aktiviert sind, muss das gesamte Modell in den VRAM geladen werden.andy_m4 schrieb:Modelle wie gpt-oss-120B hat zwar 117 Milliarden Parameter, aber davon sind immer bis 5,1 Milliarden aktiviert.
Sowas wie Gemma 4 31B hat zwar nur 31 Milliarden Parameter, aber die werden halt auch alle bei der Verarbeitung genutzt.
Ja. Versteht sich ja von selbst. :-)oicfar schrieb:Auch wenn weniger aktiviert sind, muss das gesamte Modell in den VRAM geladen werden.
Kenn ich schon. Aber andere Modelle geben wenigstens Hinweise darauf in ihrer Bezeichnung.oicfar schrieb:Mal dazu "Mixture of Experts (MoE) vs Dense LLMs" nachlesen, was das bedeutet.![]()
Gemma 4 31B = DenseGarmor schrieb:Kenn ich schon. Aber andere Modelle geben wenigstens Hinweise darauf in ihrer Bezeichnung.
Es ging um die Bezeichnung der beiden GPT-OSS-Modelle. Wie oft wollen wir jetzt noch aneinander vorbeireden?oicfar schrieb:Das ist ein klarer Hinweis auf Mixture-of-Experts.
Es hatte Zugriff auf das Internet.Pyrukar schrieb:Hatte das Modell zugriff auf das Internet oder wurden nur die Internen Daten abgefragt?
Ist das hier das gleiche Modell? Ich komm mit den Bezeichnungen leicht durcheinander.MuhSagtDieKuh schrieb:Gemma 4 26BA4B ist ein hervorragendes allround Modell - Und mit einer 16 GB GPU und ensprechendem Quant auch sehr schnell.
https://huggingface.co/mudler/gemma-4-26B-A4B-it-heretic-APEX-GGUF
Das ist meine bevorzugte Variante - gemma-4-26B-A4B-heretic-APEX-I-Compact.gguf läuft komplett im VRAM meiner 16GB 5070Ti und ist komplett unzensiert.
Ähnlich im Sinne dass beide mit dem Heretic script uncensored wurden und APEX als quantisierungsverfahren verwenden.samuelclemens schrieb:Ist das hier das gleiche Modell? Ich komm mit den Bezeichnungen leicht durcheinander.
https://ollama.com/GX-Telecom/gemma-4-26B-A4B-it-ultra-uncensored-heretic-Q5-APEX
Was heißt das denn genau?MuhSagtDieKuh schrieb:komplett unzensiert
Wobei man es ja gar nicht zwangsläufig (komplett) im VRAM betreiben muss.interesTED schrieb:Man merkt an dem Modell leider auch genau, wie sehr einem die 16GB weh tun
LLMs sind ja auch gar nicht dafür gedacht, Wissen abzufragen. Wer die so benutzt, macht ohnehin was falsch und hat LLMs nicht verstanden.samuelclemens schrieb:Aber Achtung, sämtlichen Offlinemodellen mangelt es an verschiedensten Stellen an Allgemeinwissen aus dem Literatur und Unterhaltungssektor.
Aha. Du meinst, wenn im Modellnamen nicht "uncensored" dran steht, dann taugen die (außer zur Kinderunterhaltung) nix? :-)samuelclemens schrieb:Unzensiert ist ein muss wenn es um kreatives schreiben geht.
Vielleicht waren es aber auch die prekären Stellen. :-)samuelclemens schrieb:prekere
Kannst ja mit einem normalen Gemma oder irgendeinem anderen Standard Modell ein paar dieser prompts probieren - Ist ein Test Set für das heretic script 😉andy_m4 schrieb:Was heißt das denn genau?
Also was funktioniert da, was bei dem "normalen" Gemma-4-26B-A4B nicht funktioniert?
Ah ok. Das gibt immerhin eine Vorstellung, was gemeint ist.MuhSagtDieKuh schrieb:Standard Modell ein paar dieser prompts probieren ...
Sollte man generell so handhaben. Egal ob das Modell "zensiert" ist oder nicht.samuelclemens schrieb:Zeigt aber auch das man bei unzensierten Modellen den Output niemals ungefiltert online stellen sollte ohne drüberzulesen.
Da ist durchaus etwas dran.samuelclemens schrieb:Mir geht es aber eher darum das die Texte oft in gewisse moralische richtungen gedrängt werden.
:-) Zugegebenermaßen war das lustig.samuelclemens schrieb:Als würde Disney versuchen nen ernsthaften Star Wars Film zu drehen.🤣