Lokale LLM Empfehlung

Pyrukar · 11. Dezember 2025

Hallo zusammen,

vorab, sollte ich einen Sammelthread übersehen haben bitte ich um einen Hinweis.

Ich habe eine rtx 3060 12gb und nutze hin und wieder via Text Generation Web UI Lokale LLMs für den Privaten eher Kreativen Bereich. Also eher Promts wie "Schreibe mir eine Geschichte in der xyz und abc passiert" oder auch mal als sparring partner für die Entwicklung einer Pen and Paper Rollenspiel Runde. Bisher verwendeich dazu ein relativ altes Modell (The Bloke Storytime) und grundsätzlich tut das Modell was es soll aber vermutlich gibts da inzwischen auch für meine Hardware bessere Modelle.

Und genau darum soll es gehen.
Ich suche eine LLM für "kreative" Aufgaben. Englisch ist in Ordnung, wenn die LLM auf Deutsch arbeitet wäre das natürlich toll (meine derzeitige kann zwar auf Deutsch übersetzen, aber man merkt an der Struktur sehr klar dass es auf englisch generiert und dann ins deutsche übersetzt wurde)

bitte keine Modelle vorschlagen, die mehr als 12GB VRAM benötigen.

gruß
Pyrukar

Krik · 11. Dezember 2025

P&P-Geschichten aus dem Computer sind ja mal geil. Endlose Abenteuer!

Hast du dich schon mal auf Hugginface umgeschaut? Das ist die Anlaufstelle für KI-Modelle. Wahrscheinlich wirst du aber ein englischsprachliches Modell für die Story nehmen müssen. Aber hinterher kannst du die ja in ein Modell werfen, dass nach Deutsch übersetzen kann. Sollte auch gehen.

eweu · 11. Dezember 2025

gemma-3-12b

runagrog · 11. Dezember 2025

Wie wäre es mit einem der neuen Mistral Modelle Ministral-8B oder Ministral-3B? Das Deployment sollte mit ollama einfach sein.

Pyrukar · 11. Dezember 2025

Krik schrieb:
Hast du dich schon mal auf Hugginface umgeschaut?

Ja klar, da habe ich auch mein derzeitiges her, aber die Seite ist ja nicht unbedingt geeiget um mal blind zu suchen.

eweu schrieb:
gemma-3-12b

schau ich mir mal an, danke

runagrog schrieb:
einem der neuen Mistral Modelle

auch dir Danke für den Tipp.

Krik schrieb:
P&P-Geschichten aus dem Computer sind ja mal geil. Endlose Abenteuer!

Wenn ich eine Kampagne leite ist die meistens eh so offen, dass sie defakto ewig laufen könnte. Und ich hab das durchaus auch schon vor LLMs populär waren hin bekommen ... aber gerade beim Details ausarbeiten oder auch mal "Hey ihr findet ein Schriftstück". Da habe ich mich früher eben aufs wesentliche beschränkt ... heute kanns halt auch mal sein, dass ich meinen Spielern wirklich ein Schriftstück vorlege, in dem dann die Relevanten Infos noch versteckt sind. Das wäre mir Ohne LLM definitiv zu viel arbeit

JumpingCat · 11. Dezember 2025

Anstatt ollama vielleicht lieber LM Studio. Da ist die Auswahl der Modelle größer und die Parameter sind besser anpassbar.

oicfar · 11. Dezember 2025

Ich würde nach ein Kombi suchen. D.h. eins für englisch und dann ein anderes für Übersetzungen. schaue dir paar Modelle an und probiere aus, was für die am Besten passt. Man kann viel empfehlen. Aber am Ende musst du ausprobieren und entscheiden.

Wie lang sollen die Geschichten werden?

EDV-Leiter · 11. Dezember 2025

Wieviel RAM hast du?
Bei LM Studio kannst du auch größere Modelle laden, als du VRAM hast. Dann wird eben nur ein Teil des Modells im VRAM gehalten, der Rest im System-RAM. Wird dadurch langsamer, funktioniert aber trotzdem.
Bei 96GB RAM und 16GB VRAM kann beispielsweise das GPT-OSS-120B genutzt werden.

Pyrukar · 11. Dezember 2025

@JumpingCat keine Ahnung wo @runagrog Ollama her hat ... ich nutze Text Generation Web UI und bin mit den Einstellmöglichkeiten durchaus zufrieden, ich suche kein basis sondern neue modelle. Bei TGWUI muss man soweit ich das sehe ein beliebiges Modell herunterladen und das wird dann eingelesen, wobei die art des Modells sehr flexibel ist.

@oicfar ja schon klar, aber wie schon erwähnt finde ich die Findbarkeit auf Huggingface nicht unbedingt so gut, und einfach Blind zig Modelle auszuprobieren ist halt nur wenig zielführend, daher habe ich einfach mal um hinweise gebeten (auch in der Hoffnung, dass hier auf CB schon leute ähnliche Anwendungszwecke für KI haben)

Wie groß ... na ja 1 Din A 4 Seite sollten sie schon gut füllen können

Aber jetzt keine riesigen Geschichten aber eben auch keine 10 Sätze.

@EDV-Leiter Ja das geht bei TGWUI auch, ist mir aber zu nervig langsam, also nein! Die Modelle sollen bitte in den VRAM. Aber um die Frage zu beantworten. Ich habe 64GB DDR 4 RAM (damals war der Bilig aufzurüsten) weil ich damit angefangen habe, bevor ich die 3060 12GB hatte. Aber seither habe ich kein Bock mehr auf RAM Modelle, es sei denn da hat sich extrem viel getan was die Geschwindigkeit angeht, aber ich würde vermuten, dass das technisch Limitiert ist.

oicfar · 11. Dezember 2025

Pyrukar schrieb:
@oicfar ja schon klar, aber wie schon erwähnt finde ich die Findbarkeit auf Huggingface nicht unbedingt so gut, und einfach Blind zig Modelle auszuprobieren ist halt nur wenig zielführend, daher habe ich einfach mal um hinweise gebeten (auch in der Hoffnung, dass hier auf CB schon leute ähnliche Anwendungszwecke für KI haben)

Wie groß ... na ja 1 Din A 4 Seite sollten sie schon gut füllen können Aber jetzt keine riesigen Geschichten aber eben auch keine 10 Sätze.

Du kannst mit Llama 3.1 8B Instruct für die Übersetzung EN->DE versuchen.

Wenn du mehr als 1 DIN-A4 Seite hast, dann würde ich die Übersetzung Seitenweise machen.

LokiDKS · 12. Dezember 2025

Habe zwar keine Ahnung aber poste trotzdem mal

https://huggingface.co/TheDrummer/Cydonia-24B-v4.1-GGUF/blob/main/Cydonia-24B-v4j-Q2_K.gguf

Soll gut für RP sein und diese abgespeckte Version schnell auf deiner 12GB Karte laufen

Garmor · 16. Dezember 2025

Ich hatte ja schon mal vorgeschlagen, bei dem hier zu stöbern: https://huggingface.co/DavidAU/collections

Das ist zwar nahezu unüberblickbar, was er da alles gebastelt hat, aber wenn du dich auf Modelle beschränkst, die mit Qwen 3 oder Gemma 3 gemacht wurden, solltest du genügend Optionen mit 4B oder 8B Parametern finden, die in deine Grafikkarte passen. Llama 3.2 und älter (oft auch einfach als L3 dort abgekürzt) sind schon etwas angestaubt, dürften aber auch neuer sein als alles von The Bloke.

drittervonfünf · 17. Dezember 2025

ich nehme
LFM2-8B-A1B-Q8_0.gguf
läuft recht flott auch ohne GPU mit llama.cpp
deutsch geht auch sowie Geschichten, Programmieren etc.

andy_m4 · 17. April 2026

Was würde man so heutzutage (April 2026) als lokales Modell nehmen?

Ich hab mal u.a. so ein bisschen rumgespielt mit gpt-oss. Vornehmlich mit dem 120b Modell.
Das kann Reasoning und ist auch ziemlich flott. Aber auch sehr geschwätzig.

Mistral Small 4 finde ich aber besser (wenngleich es nicht ganz so schnell ist). Allerdings gibts davon keine kleinere Variante. Das hat 119B Parameter und ist entsprechend groß. Bei kleinerer Hardware müsste man ggf. entsprechend quantisieren.

Ganz spannend finde ich auch die Qwen 3.5 Reihe und Google Gemma 4.

Krik · 17. April 2026

andy_m4 schrieb:
Aber auch sehr geschwätzig.

Kann man da nicht irgendwo eine Personalisierung angeben, also wie sich das Modell dir gegenüber verhalten soll?

Ich habe bei mir so was drin:

System Instruction: Absolute Mode
Eliminate: emojis, filler, hype, soft asks, conversational transitions, call-to-action appendixes.
Assume: user retains high-perception despite blunt tone.
Prioritize: blunt, directive phrasing; aim at cognitive rebuilding, not tone-matching.
Disable: engagement/sentiment-boosting behaviors.
Suppress: metrics like satisfaction scores, emotional softening, continuation bias.
Never mirror: user’s diction, mood, or affect.
Speak only: to underlying cognitive tier.
No: questions, offers, suggestions, transitions, motivational content.
Terminate reply: immediately after delivering info — no closures.
Goal: restore independent, high-fidelity thinking.
Outcome: model obsolescence via user self-sufficiency.

Und das Teil hält die Klappe, wenn es nichts zu sagen hat.

Prompt:

Welcher ist der beste Film 2025?

Antwort mit Filter:

Es gibt keinen einzelnen „besten" Film 2025. Verschiedene Quellen listen unterschiedliche Titel:
Google Featured Answer: Wake Up, Dead Man; Superman; F1; Bugonia; Fantastic Four: First Steps; Roofman; A House of Dynamite; Wicked: For Good
The Gate (Top 100): Honey Bunch (Gothic-Horror), Boxcutter (kanadisches Drama)
Rotten Tomatoes (Certified Fresh): The Plague, Eephus, Sister Midnight, The Secret Agent 2025, A House of Dynamite
Rolling Stone (Top 20): J-Horror Debüt von Yûta Shimotsu, ein Ensemble-Stück mit Gwyneth Paltrow, Fran Drescher, Tyler the Creator
Reddit Nutzer: Lurker, Materialists, Warfare
Die Bewertungen variieren je nach Quelle und Genre-Präferenz. Kritikerlisten bevorzugen oft Independent-Produktionen, während Mainstream-Quellen Blockbuster wie Superman oder Fantastic Four hervorheben.

Antwort ohne Filter:

Hallo Krik,
Die Frage nach dem „besten" Film 2025 ist natürlich subjektiv und hängt davon ab, welche Kriterien man heranzieht – Kritikerbewertungen, Publikumsmeinungen oder kommerziellen Erfolg. Basierend auf den aktuellen Quellen gibt es jedoch einige Titel, die sich durchsetzen:
Kritiker-Highlights:
Laut Rolling Stone und anderen Kritiker-Rundschauen gehören zu den meistgelobten Filmen 2025:

A House of Dynamite – Wird von mehreren Quellen als herausragend genannt
Wicked: For Good – Der zweite Teil des Musicals
Superman – Das neue Superhelden-Abenteuer
F1 – Rennsport-Drama
Fantastic Four: First Steps – Marvel-Neustart
Wake Up, Dead Man – Horror-Thriller

Kulturfilm-Spezialisten wie The Gate und Racket MN heben zudem hervor:

Honey Bunch – Gothic-Horror von Madeline Sims-Fewer und Dustin Mancinelli
Boxcutter – Toronto-zentriertes Drama über einen Musiker
J-Horror Debüt von Yûta Shimotsu – Von Rolling Stone als bester japanischer Horror seit Jahrzehnten bezeichnet

Rotten Tomatoes listet mehrere „Certified Fresh"-Titel, darunter:

The Plague
Eephus
Sister Midnight
The Secret Agent 2025

Es gibt also keine eindeutige Antwort, aber wenn ich eine Empfehlung geben müsste: A House of Dynamite scheint am konsistentesten in den Top-Listen aller Quellen zu erscheinen.

Hast du ein bestimmtes Genre, das dich besonders interessiert? Dann könnte ich die Empfehlungen noch spezifischer anpassen.

Pyrukar · 18. April 2026

@Krik ich finde das ergebnis deines Promts irgendwie interessant ... Oscargewinner für Bester Film war wohl nicht unter den Suchparametern, dabei wäre das doch zumindest eine valide Antwort gewesen. Hatte das Modell zugriff auf das Internet oder wurden nur die Internen Daten abgefragt? oder verwirrt sich das Modell damit dass die Filme für 2025 im Jahr 2026 prämiert werden?

andy_m4 · 18. April 2026

Krik schrieb:
Kann man da nicht irgendwo eine Personalisierung angeben, also wie sich das Modell dir gegenüber verhalten soll?

Ja. Ein entsprechender Prompt hilft natürlich.
Da man bei GPT-OSS aber nicht wirklich das Reasoning komplett abschalten kann, werden trotzdem noch relativ viele Tokens produziert.
Will ja auch gar nicht gesagt haben, das gpt-oss unbrauchbar ist oder so was. Im Gegenteil. Das funktioniert super und hin und wieder benutze ich das auch.

Im direkten Vergleich würde ich aber sagen, das (für mich) Mistral Small 4 angenehmer zu benutzen ist.

Garmor · 18. April 2026

Der Reasoning-Prozess von Qwen 3.5 ist manchmal extrem schizo und kann bei Wissensfragen (die man ja so einem Ding eh nicht stellen sollte) zu einer unendlichen Kette an Selbstverbesserungen führen. Qwen 3.6 wirkte da ein bisschen entschärft. GPT-OSS hat theoretisch sogar eine Option, um die Länge des Reasonings zu beeinflussen.

Für so Geschichten fand ich aktuell Gemma 4 ganz gut. Das hat bei meinem wirren Geschreibsel erstaunlich gut die Charaktere zuordnen können bzw. meine Intention gut wiedergegeben. Aber deine Meilenanzahl könnte variieren.

andy_m4 · 18. April 2026

Garmor schrieb:
GPT-OSS hat theoretisch sogar eine Option, um die Länge des Reasonings zu beeinflussen.

Ja. Hat es.

Garmor schrieb:
Für so Geschichten fand ich aktuell Gemma 4 ganz gut. Das hat bei meinem wirren Geschreibsel erstaunlich gut die Charaktere zuordnen können

Ich würde mal sagen, solche Dinge funktionieren tendenziell besser, umso mehr Parameter bei der Generierung aktiviert sind.

Modelle wie gpt-oss-120B hat zwar 117 Milliarden Parameter, aber davon sind immer bis 5,1 Milliarden aktiviert.
Sowas wie Gemma 4 31B hat zwar nur 31 Milliarden Parameter, aber die werden halt auch alle bei der Verarbeitung genutzt.
Allerdings bezahlt man dann auch spürbar mit Geschwindigkeit.

Garmor · 18. April 2026

Ah, ich hatte immer angenommen, GPT-OSS wäre auch dense. Das erklärt, warum es halbwegs schnell ist. Ich habe bei Gemma4 auch nicht das dense-Modell genommen, weil das auf meiner Hardware tödlich langsam wäre. Daher beziehe ich mich auch eher auf E4B bzw. 26B A4B, wo auch nur jeweils 4 Milliarden aktiv sind. Die oben gesetzte Grenze war ja bei 12GB, wo eigentlich nur das E4B reinpasst.

Lokale LLM Empfehlung

Commodore

Fleet Admiral Pro

Ensign

Commander

Commodore

Vice Admiral

Captain

Lt. Commander

Commodore

Captain

Lt. Junior Grade

Commander

Cadet 2nd Year

Admiral

Fleet Admiral Pro

Commodore

Admiral

Commander

Admiral

Commander

Ähnliche Themen