Lokale LLM Empfehlung

Pyrukar · 11. Dezember 2025

Hallo zusammen,

vorab, sollte ich einen Sammelthread übersehen haben bitte ich um einen Hinweis.

Ich habe eine rtx 3060 12gb und nutze hin und wieder via Text Generation Web UI Lokale LLMs für den Privaten eher Kreativen Bereich. Also eher Promts wie "Schreibe mir eine Geschichte in der xyz und abc passiert" oder auch mal als sparring partner für die Entwicklung einer Pen and Paper Rollenspiel Runde. Bisher verwendeich dazu ein relativ altes Modell (The Bloke Storytime) und grundsätzlich tut das Modell was es soll aber vermutlich gibts da inzwischen auch für meine Hardware bessere Modelle.

Und genau darum soll es gehen.
Ich suche eine LLM für "kreative" Aufgaben. Englisch ist in Ordnung, wenn die LLM auf Deutsch arbeitet wäre das natürlich toll (meine derzeitige kann zwar auf Deutsch übersetzen, aber man merkt an der Struktur sehr klar dass es auf englisch generiert und dann ins deutsche übersetzt wurde)

bitte keine Modelle vorschlagen, die mehr als 12GB VRAM benötigen.

gruß
Pyrukar

Krik · 11. Dezember 2025

P&P-Geschichten aus dem Computer sind ja mal geil. Endlose Abenteuer!

Hast du dich schon mal auf Hugginface umgeschaut? Das ist die Anlaufstelle für KI-Modelle. Wahrscheinlich wirst du aber ein englischsprachliches Modell für die Story nehmen müssen. Aber hinterher kannst du die ja in ein Modell werfen, dass nach Deutsch übersetzen kann. Sollte auch gehen.

eweu · 11. Dezember 2025

gemma-3-12b

runagrog · 11. Dezember 2025

Wie wäre es mit einem der neuen Mistral Modelle Ministral-8B oder Ministral-3B? Das Deployment sollte mit ollama einfach sein.

Pyrukar · 11. Dezember 2025

Krik schrieb:
Hast du dich schon mal auf Hugginface umgeschaut?

Ja klar, da habe ich auch mein derzeitiges her, aber die Seite ist ja nicht unbedingt geeiget um mal blind zu suchen.

eweu schrieb:
gemma-3-12b

schau ich mir mal an, danke

runagrog schrieb:
einem der neuen Mistral Modelle

auch dir Danke für den Tipp.

Krik schrieb:
P&P-Geschichten aus dem Computer sind ja mal geil. Endlose Abenteuer!

Wenn ich eine Kampagne leite ist die meistens eh so offen, dass sie defakto ewig laufen könnte. Und ich hab das durchaus auch schon vor LLMs populär waren hin bekommen ... aber gerade beim Details ausarbeiten oder auch mal "Hey ihr findet ein Schriftstück". Da habe ich mich früher eben aufs wesentliche beschränkt ... heute kanns halt auch mal sein, dass ich meinen Spielern wirklich ein Schriftstück vorlege, in dem dann die Relevanten Infos noch versteckt sind. Das wäre mir Ohne LLM definitiv zu viel arbeit

JumpingCat · 11. Dezember 2025

Anstatt ollama vielleicht lieber LM Studio. Da ist die Auswahl der Modelle größer und die Parameter sind besser anpassbar.

oicfar · 11. Dezember 2025

Ich würde nach ein Kombi suchen. D.h. eins für englisch und dann ein anderes für Übersetzungen. schaue dir paar Modelle an und probiere aus, was für die am Besten passt. Man kann viel empfehlen. Aber am Ende musst du ausprobieren und entscheiden.

Wie lang sollen die Geschichten werden?

EDV-Leiter · 11. Dezember 2025

Wieviel RAM hast du?
Bei LM Studio kannst du auch größere Modelle laden, als du VRAM hast. Dann wird eben nur ein Teil des Modells im VRAM gehalten, der Rest im System-RAM. Wird dadurch langsamer, funktioniert aber trotzdem.
Bei 96GB RAM und 16GB VRAM kann beispielsweise das GPT-OSS-120B genutzt werden.

Pyrukar · 11. Dezember 2025

@JumpingCat keine Ahnung wo @runagrog Ollama her hat ... ich nutze Text Generation Web UI und bin mit den Einstellmöglichkeiten durchaus zufrieden, ich suche kein basis sondern neue modelle. Bei TGWUI muss man soweit ich das sehe ein beliebiges Modell herunterladen und das wird dann eingelesen, wobei die art des Modells sehr flexibel ist.

@oicfar ja schon klar, aber wie schon erwähnt finde ich die Findbarkeit auf Huggingface nicht unbedingt so gut, und einfach Blind zig Modelle auszuprobieren ist halt nur wenig zielführend, daher habe ich einfach mal um hinweise gebeten (auch in der Hoffnung, dass hier auf CB schon leute ähnliche Anwendungszwecke für KI haben)

Wie groß ... na ja 1 Din A 4 Seite sollten sie schon gut füllen können

Aber jetzt keine riesigen Geschichten aber eben auch keine 10 Sätze.

@EDV-Leiter Ja das geht bei TGWUI auch, ist mir aber zu nervig langsam, also nein! Die Modelle sollen bitte in den VRAM. Aber um die Frage zu beantworten. Ich habe 64GB DDR 4 RAM (damals war der Bilig aufzurüsten) weil ich damit angefangen habe, bevor ich die 3060 12GB hatte. Aber seither habe ich kein Bock mehr auf RAM Modelle, es sei denn da hat sich extrem viel getan was die Geschwindigkeit angeht, aber ich würde vermuten, dass das technisch Limitiert ist.

oicfar · 11. Dezember 2025

Pyrukar schrieb:
@oicfar ja schon klar, aber wie schon erwähnt finde ich die Findbarkeit auf Huggingface nicht unbedingt so gut, und einfach Blind zig Modelle auszuprobieren ist halt nur wenig zielführend, daher habe ich einfach mal um hinweise gebeten (auch in der Hoffnung, dass hier auf CB schon leute ähnliche Anwendungszwecke für KI haben)

Wie groß ... na ja 1 Din A 4 Seite sollten sie schon gut füllen können Aber jetzt keine riesigen Geschichten aber eben auch keine 10 Sätze.

Du kannst mit Llama 3.1 8B Instruct für die Übersetzung EN->DE versuchen.

Wenn du mehr als 1 DIN-A4 Seite hast, dann würde ich die Übersetzung Seitenweise machen.

LokiDKS · 12. Dezember 2025

Habe zwar keine Ahnung aber poste trotzdem mal

https://huggingface.co/TheDrummer/Cydonia-24B-v4.1-GGUF/blob/main/Cydonia-24B-v4j-Q2_K.gguf

Soll gut für RP sein und diese abgespeckte Version schnell auf deiner 12GB Karte laufen

Garmor · 16. Dezember 2025

Ich hatte ja schon mal vorgeschlagen, bei dem hier zu stöbern: https://huggingface.co/DavidAU/collections

Das ist zwar nahezu unüberblickbar, was er da alles gebastelt hat, aber wenn du dich auf Modelle beschränkst, die mit Qwen 3 oder Gemma 3 gemacht wurden, solltest du genügend Optionen mit 4B oder 8B Parametern finden, die in deine Grafikkarte passen. Llama 3.2 und älter (oft auch einfach als L3 dort abgekürzt) sind schon etwas angestaubt, dürften aber auch neuer sein als alles von The Bloke.

drittervonfünf · 17. Dezember 2025

ich nehme
LFM2-8B-A1B-Q8_0.gguf
läuft recht flott auch ohne GPU mit llama.cpp
deutsch geht auch sowie Geschichten, Programmieren etc.

Suche

Lokale LLM Empfehlung

Pyrukar

Commodore

Krik

Fleet Admiral Pro

eweu

Ensign

runagrog

Commander

Pyrukar

Commodore

JumpingCat

Rear Admiral

oicfar

Captain

EDV-Leiter

Lt. Commander

Pyrukar

Commodore

oicfar

Captain

LokiDKS

Lt. Junior Grade

Garmor

Commander

drittervonfünf

Cadet 2nd Year

Ähnliche Themen