Lokale LLM Empfehlung

Pyrukar

Commodore
Registriert
Jan. 2013
Beiträge
4.245
Hallo zusammen,

vorab, sollte ich einen Sammelthread übersehen haben bitte ich um einen Hinweis.

Ich habe eine rtx 3060 12gb und nutze hin und wieder via Text Generation Web UI Lokale LLMs für den Privaten eher Kreativen Bereich. Also eher Promts wie "Schreibe mir eine Geschichte in der xyz und abc passiert" oder auch mal als sparring partner für die Entwicklung einer Pen and Paper Rollenspiel Runde. Bisher verwendeich dazu ein relativ altes Modell (The Bloke Storytime) und grundsätzlich tut das Modell was es soll aber vermutlich gibts da inzwischen auch für meine Hardware bessere Modelle.

Und genau darum soll es gehen.
Ich suche eine LLM für "kreative" Aufgaben. Englisch ist in Ordnung, wenn die LLM auf Deutsch arbeitet wäre das natürlich toll (meine derzeitige kann zwar auf Deutsch übersetzen, aber man merkt an der Struktur sehr klar dass es auf englisch generiert und dann ins deutsche übersetzt wurde)

bitte keine Modelle vorschlagen, die mehr als 12GB VRAM benötigen.

gruß
Pyrukar
 
P&P-Geschichten aus dem Computer sind ja mal geil. Endlose Abenteuer! :cheerlead:

Hast du dich schon mal auf Hugginface umgeschaut? Das ist die Anlaufstelle für KI-Modelle. Wahrscheinlich wirst du aber ein englischsprachliches Modell für die Story nehmen müssen. Aber hinterher kannst du die ja in ein Modell werfen, dass nach Deutsch übersetzen kann. Sollte auch gehen. ;)
 
Krik schrieb:
Hast du dich schon mal auf Hugginface umgeschaut?
Ja klar, da habe ich auch mein derzeitiges her, aber die Seite ist ja nicht unbedingt geeiget um mal blind zu suchen.
eweu schrieb:
schau ich mir mal an, danke
runagrog schrieb:
einem der neuen Mistral Modelle
auch dir Danke für den Tipp.


Krik schrieb:
P&P-Geschichten aus dem Computer sind ja mal geil. Endlose Abenteuer!
Wenn ich eine Kampagne leite ist die meistens eh so offen, dass sie defakto ewig laufen könnte. Und ich hab das durchaus auch schon vor LLMs populär waren hin bekommen ... aber gerade beim Details ausarbeiten oder auch mal "Hey ihr findet ein Schriftstück". Da habe ich mich früher eben aufs wesentliche beschränkt ... heute kanns halt auch mal sein, dass ich meinen Spielern wirklich ein Schriftstück vorlege, in dem dann die Relevanten Infos noch versteckt sind. Das wäre mir Ohne LLM definitiv zu viel arbeit :D
 
  • Gefällt mir
Reaktionen: Krik
Anstatt ollama vielleicht lieber LM Studio. Da ist die Auswahl der Modelle größer und die Parameter sind besser anpassbar.
 
  • Gefällt mir
Reaktionen: Snakeeater und TomH22
Ich würde nach ein Kombi suchen. D.h. eins für englisch und dann ein anderes für Übersetzungen. schaue dir paar Modelle an und probiere aus, was für die am Besten passt. Man kann viel empfehlen. Aber am Ende musst du ausprobieren und entscheiden.

Wie lang sollen die Geschichten werden?
 
Wieviel RAM hast du?
Bei LM Studio kannst du auch größere Modelle laden, als du VRAM hast. Dann wird eben nur ein Teil des Modells im VRAM gehalten, der Rest im System-RAM. Wird dadurch langsamer, funktioniert aber trotzdem.
Bei 96GB RAM und 16GB VRAM kann beispielsweise das GPT-OSS-120B genutzt werden.
 
@JumpingCat keine Ahnung wo @runagrog Ollama her hat ... ich nutze Text Generation Web UI und bin mit den Einstellmöglichkeiten durchaus zufrieden, ich suche kein basis sondern neue modelle. Bei TGWUI muss man soweit ich das sehe ein beliebiges Modell herunterladen und das wird dann eingelesen, wobei die art des Modells sehr flexibel ist.

@oicfar ja schon klar, aber wie schon erwähnt finde ich die Findbarkeit auf Huggingface nicht unbedingt so gut, und einfach Blind zig Modelle auszuprobieren ist halt nur wenig zielführend, daher habe ich einfach mal um hinweise gebeten (auch in der Hoffnung, dass hier auf CB schon leute ähnliche Anwendungszwecke für KI haben)

Wie groß ... na ja 1 Din A 4 Seite sollten sie schon gut füllen können :D Aber jetzt keine riesigen Geschichten aber eben auch keine 10 Sätze.

@EDV-Leiter Ja das geht bei TGWUI auch, ist mir aber zu nervig langsam, also nein! Die Modelle sollen bitte in den VRAM. Aber um die Frage zu beantworten. Ich habe 64GB DDR 4 RAM (damals war der Bilig aufzurüsten) weil ich damit angefangen habe, bevor ich die 3060 12GB hatte. Aber seither habe ich kein Bock mehr auf RAM Modelle, es sei denn da hat sich extrem viel getan was die Geschwindigkeit angeht, aber ich würde vermuten, dass das technisch Limitiert ist.
 
Pyrukar schrieb:
@oicfar ja schon klar, aber wie schon erwähnt finde ich die Findbarkeit auf Huggingface nicht unbedingt so gut, und einfach Blind zig Modelle auszuprobieren ist halt nur wenig zielführend, daher habe ich einfach mal um hinweise gebeten (auch in der Hoffnung, dass hier auf CB schon leute ähnliche Anwendungszwecke für KI haben)

Wie groß ... na ja 1 Din A 4 Seite sollten sie schon gut füllen können :D Aber jetzt keine riesigen Geschichten aber eben auch keine 10 Sätze.
Du kannst mit Llama 3.1 8B Instruct für die Übersetzung EN->DE versuchen.

Wenn du mehr als 1 DIN-A4 Seite hast, dann würde ich die Übersetzung Seitenweise machen.
 
Ich hatte ja schon mal vorgeschlagen, bei dem hier zu stöbern: https://huggingface.co/DavidAU/collections

Das ist zwar nahezu unüberblickbar, was er da alles gebastelt hat, aber wenn du dich auf Modelle beschränkst, die mit Qwen 3 oder Gemma 3 gemacht wurden, solltest du genügend Optionen mit 4B oder 8B Parametern finden, die in deine Grafikkarte passen. Llama 3.2 und älter (oft auch einfach als L3 dort abgekürzt) sind schon etwas angestaubt, dürften aber auch neuer sein als alles von The Bloke.
 
ich nehme
LFM2-8B-A1B-Q8_0.gguf
läuft recht flott auch ohne GPU mit llama.cpp
deutsch geht auch sowie Geschichten, Programmieren etc.
 
Was würde man so heutzutage (April 2026) als lokales Modell nehmen?

Ich hab mal u.a. so ein bisschen rumgespielt mit gpt-oss. Vornehmlich mit dem 120b Modell.
Das kann Reasoning und ist auch ziemlich flott. Aber auch sehr geschwätzig.

Mistral Small 4 finde ich aber besser (wenngleich es nicht ganz so schnell ist). Allerdings gibts davon keine kleinere Variante. Das hat 119B Parameter und ist entsprechend groß. Bei kleinerer Hardware müsste man ggf. entsprechend quantisieren.

Ganz spannend finde ich auch die Qwen 3.5 Reihe und Google Gemma 4.
 
andy_m4 schrieb:
Aber auch sehr geschwätzig.
Kann man da nicht irgendwo eine Personalisierung angeben, also wie sich das Modell dir gegenüber verhalten soll?

Ich habe bei mir so was drin:
System Instruction: Absolute Mode
Eliminate: emojis, filler, hype, soft asks, conversational transitions, call-to-action appendixes.
Assume: user retains high-perception despite blunt tone.
Prioritize: blunt, directive phrasing; aim at cognitive rebuilding, not tone-matching.
Disable: engagement/sentiment-boosting behaviors.
Suppress: metrics like satisfaction scores, emotional softening, continuation bias.
Never mirror: user’s diction, mood, or affect.
Speak only: to underlying cognitive tier.
No: questions, offers, suggestions, transitions, motivational content.
Terminate reply: immediately after delivering info — no closures.
Goal: restore independent, high-fidelity thinking.
Outcome: model obsolescence via user self-sufficiency.
Und das Teil hält die Klappe, wenn es nichts zu sagen hat.

Prompt:
Welcher ist der beste Film 2025?
Antwort mit Filter:
Es gibt keinen einzelnen „besten" Film 2025. Verschiedene Quellen listen unterschiedliche Titel:
Google Featured Answer: Wake Up, Dead Man; Superman; F1; Bugonia; Fantastic Four: First Steps; Roofman; A House of Dynamite; Wicked: For Good
The Gate (Top 100): Honey Bunch (Gothic-Horror), Boxcutter (kanadisches Drama)
Rotten Tomatoes (Certified Fresh): The Plague, Eephus, Sister Midnight, The Secret Agent 2025, A House of Dynamite
Rolling Stone (Top 20): J-Horror Debüt von Yûta Shimotsu, ein Ensemble-Stück mit Gwyneth Paltrow, Fran Drescher, Tyler the Creator
Reddit Nutzer: Lurker, Materialists, Warfare
Die Bewertungen variieren je nach Quelle und Genre-Präferenz. Kritikerlisten bevorzugen oft Independent-Produktionen, während Mainstream-Quellen Blockbuster wie Superman oder Fantastic Four hervorheben.
Antwort ohne Filter:
Hallo Krik,
Die Frage nach dem „besten" Film 2025 ist natürlich subjektiv und hängt davon ab, welche Kriterien man heranzieht – Kritikerbewertungen, Publikumsmeinungen oder kommerziellen Erfolg. Basierend auf den aktuellen Quellen gibt es jedoch einige Titel, die sich durchsetzen:
Kritiker-Highlights:
Laut Rolling Stone und anderen Kritiker-Rundschauen gehören zu den meistgelobten Filmen 2025:
  • A House of Dynamite – Wird von mehreren Quellen als herausragend genannt
  • Wicked: For Good – Der zweite Teil des Musicals
  • Superman – Das neue Superhelden-Abenteuer
  • F1 – Rennsport-Drama
  • Fantastic Four: First Steps – Marvel-Neustart
  • Wake Up, Dead Man – Horror-Thriller
Kulturfilm-Spezialisten wie The Gate und Racket MN heben zudem hervor:

  • Honey Bunch – Gothic-Horror von Madeline Sims-Fewer und Dustin Mancinelli
  • Boxcutter – Toronto-zentriertes Drama über einen Musiker
  • J-Horror Debüt von Yûta Shimotsu – Von Rolling Stone als bester japanischer Horror seit Jahrzehnten bezeichnet
Rotten Tomatoes listet mehrere „Certified Fresh"-Titel, darunter:

  • The Plague
  • Eephus
  • Sister Midnight
  • The Secret Agent 2025
Es gibt also keine eindeutige Antwort, aber wenn ich eine Empfehlung geben müsste: A House of Dynamite scheint am konsistentesten in den Top-Listen aller Quellen zu erscheinen.

Hast du ein bestimmtes Genre, das dich besonders interessiert? Dann könnte ich die Empfehlungen noch spezifischer anpassen.
 
  • Gefällt mir
Reaktionen: JumpingCat
@Krik ich finde das ergebnis deines Promts irgendwie interessant ... Oscargewinner für Bester Film war wohl nicht unter den Suchparametern, dabei wäre das doch zumindest eine valide Antwort gewesen. Hatte das Modell zugriff auf das Internet oder wurden nur die Internen Daten abgefragt? oder verwirrt sich das Modell damit dass die Filme für 2025 im Jahr 2026 prämiert werden?
 
Krik schrieb:
Kann man da nicht irgendwo eine Personalisierung angeben, also wie sich das Modell dir gegenüber verhalten soll?
Ja. Ein entsprechender Prompt hilft natürlich.
Da man bei GPT-OSS aber nicht wirklich das Reasoning komplett abschalten kann, werden trotzdem noch relativ viele Tokens produziert.
Will ja auch gar nicht gesagt haben, das gpt-oss unbrauchbar ist oder so was. Im Gegenteil. Das funktioniert super und hin und wieder benutze ich das auch.

Im direkten Vergleich würde ich aber sagen, das (für mich) Mistral Small 4 angenehmer zu benutzen ist.
 
Der Reasoning-Prozess von Qwen 3.5 ist manchmal extrem schizo und kann bei Wissensfragen (die man ja so einem Ding eh nicht stellen sollte) zu einer unendlichen Kette an Selbstverbesserungen führen. Qwen 3.6 wirkte da ein bisschen entschärft. GPT-OSS hat theoretisch sogar eine Option, um die Länge des Reasonings zu beeinflussen.

Für so Geschichten fand ich aktuell Gemma 4 ganz gut. Das hat bei meinem wirren Geschreibsel erstaunlich gut die Charaktere zuordnen können bzw. meine Intention gut wiedergegeben. Aber deine Meilenanzahl könnte variieren.
 
Garmor schrieb:
GPT-OSS hat theoretisch sogar eine Option, um die Länge des Reasonings zu beeinflussen.
Ja. Hat es.

Garmor schrieb:
Für so Geschichten fand ich aktuell Gemma 4 ganz gut. Das hat bei meinem wirren Geschreibsel erstaunlich gut die Charaktere zuordnen können
Ich würde mal sagen, solche Dinge funktionieren tendenziell besser, umso mehr Parameter bei der Generierung aktiviert sind.

Modelle wie gpt-oss-120B hat zwar 117 Milliarden Parameter, aber davon sind immer bis 5,1 Milliarden aktiviert.
Sowas wie Gemma 4 31B hat zwar nur 31 Milliarden Parameter, aber die werden halt auch alle bei der Verarbeitung genutzt.
Allerdings bezahlt man dann auch spürbar mit Geschwindigkeit.
 
Ah, ich hatte immer angenommen, GPT-OSS wäre auch dense. Das erklärt, warum es halbwegs schnell ist. Ich habe bei Gemma4 auch nicht das dense-Modell genommen, weil das auf meiner Hardware tödlich langsam wäre. Daher beziehe ich mich auch eher auf E4B bzw. 26B A4B, wo auch nur jeweils 4 Milliarden aktiv sind. Die oben gesetzte Grenze war ja bei 12GB, wo eigentlich nur das E4B reinpasst.
 
Zurück
Oben