möglichst unzensierte LLM

Alister1 · 3. Oktober 2025

dms schrieb:
stimmt ... da gabs ja den anderen Tröt

das war eine andere Frage, das hat sich aber erübrigt und wird nicht weiter verfolgt.

dms schrieb:
@Alister1 - seufz - das "LLM" wird auf der Grafikkarte ausgeführt

Ergänzung (3. Oktober 2025)

Gibt es eine Cloudlösung oder etwas, was man online machen kann? Steuerung unterwegs, wäre natürlich top!

Rickmer · 3. Oktober 2025

Alister1 schrieb:
Gibt es eine Cloudlösung oder etwas, was man online machen kann? Steuerung unterwegs, wäre natürlich top!

Klar

Google Colab falls du dich erstmal kostenlos versuchen willst

Ansonsten gibt's natürlich jede Menge Cloud Hoster, bei denen du GPUs oder GPU Cluster mieten kannst, z.B. https://www.runpod.io/

Alister1 · 3. Oktober 2025

Mit Colab habe ich in anderen Zusammenhängen gearbeitet, welches gelegentlich leider zensiert.

Die optimale Lösung wäre die Möglichkeit auf eine unzensierte LLM vom Smartphone aus.

kali-hi · 3. Oktober 2025

Alister1 schrieb:
Wir reden hier ausschließlich von TEXT , nichts visuelles.
Meine Grafikkarte ist nichtmal von Nvidia und zudem ein steinalt-Modell.

Du hast doch ein fast identisches Thema hier gestern auch schon einmal gehabt...

Schmuddeleien mögen KIs nicht - bzw. die "Betreiber" versuchen tunlichst, dies zu unterbinden. Deshalb bliebe nur das Selber-Machen übrig, aber das geht mit der HW jedoch nicht

madmax2010 · 3. Oktober 2025

Rickmer schrieb:
... und die Faustregel ist für Q4 Quantisierung, also schon stark 'komprimierte' LLMs

Yep. Seh ich auch so . Vor allem wenn der Kontext mal halbwegs brauchbar sein soll.
Irgendwie dachte ich beim tippen schon, dass wenn ich das so abschicke quantisierung angesprochen wird.
Q4 ist aber schon ok und @oicfar hat schon recht, ne A6000 tut es auch.

Naja, oder halt online spot Instanzen. Sowas geht inzwischen um 30 Cent / Stunde

Alister1 schrieb:
Wir reden hier ausschließlich von TEXT , nichts visuelles.
Meine Grafikkarte ist nichtmal von Nvidia und zudem ein steinalt-Modell.

Bild Modelle brauchen im Schnitt weniger vram. Da ist man schon mit 8 bis 16GB echt gut dabei.
Gibt auch LLMs in dem Bereich die für Kleinkram ok sind, ich Regel todo listen und Aufgaben sortieren, arbeiten mit 1-2 Seiten langen PDFs mit ein paar 8b Modellen auf NPUs, aber wenn du Texten willst rennst du mit denen in sehr viel Frust, wie @Pyrukar schön beschrieb

Ergänzung (3. Oktober 2025)

Alister1 schrieb:
Gibt es eine Cloudlösung oder etwas, was man online machen kann? Steuerung unterwegs, wäre natürlich top!

Klar. Hier Geizhals für ai compute

https://app.primeintellect.ai/dashb...apest&pricing_type=Cheapest&security=Cheapest

Oder halt operouter.ai da zahlst du dann pro token statt pro Stunde

Pyrukar · 3. Oktober 2025

Garmor schrieb:
Aber warum so ein uraltes Modell?

warum nicht, für meine Zwecke funktioniert es und kommt ganz gut mit den verfügbaren 12GB VRAM zurecht

Ich hab mir das vor ewigkeiten mal runtergeladen und mich seither nicht mehr drum geschert weils seinen Zweck erfüllt.

Welches Modell würdest du denn empfehlen, wenn es darum geht sich aus ein paar Stichpunkten eine Geschichte schreiben zu lassen und ist das dann wirklich so viel besser als mein "Uralt" Model?

Garmor · 4. Oktober 2025

Probiert hab ich es noch nie so richtig, aber Davidau hat Unmengen an halbwegs modernen Modellen auf so Storyschreiben trainiert. Die laufen bei dem meist unter dem Label "Horror", aber wahrscheinlich sind die nicht alle so spezifisch.

Alister1 · 4. Oktober 2025

Das Problem ist nicht, dass ultraüble Schweinereien damit generiert werden soll, wie einige hier vielleicht meinen, sondern dass die üblichen LLMs immer weiter eingeschränkt werden. Vor zwei Wochen konnte man problemlos noch schreiben "sexy", "verführerisch", etc. pp. Mittlerweile alles blockiert. Es wird immer weiter alles "entschärft" und man kann nicht alle 2 Monate ein neues Abo abschließen, damit dann immer wieder das gleiche passiert...

dernettehans · 4. Oktober 2025

dms schrieb:
seufz - das "LLM" wird auf der Grafikkarte ausgeführt

stimmt doch überhaupt nicht, siehe die videos die ich verlinkt habe. geht genauso auch rein mit CPU ist halt langsam.

madmax2010 · 4. Oktober 2025

@Alister1 Dann schau dir mal openrouter an. Im webinterface kannst du beliebige Modelle aller Anbieter wählen. Eigene System prompts hinterlegen und die Modelle justieren wie du es willst.
Sämtliche freien desktopanwendungen kannst du dort mit api key anbinden und Nutzung darüber abrechnen.
Spart dir auch die Abos, und ich zweifle daran, dass du 20 Euro pro Monat verbraucht bekommst.
Eine recht simple Anwendung in der Richtung ist jan.ai
Viele nutzen lm studio, aber das ist vllt overkill

@dernettehans um @dms satz im sinn gleich zu halten, aber vielleicht etwas zu umschreiben:

Wenn man brauchbare Modelle in brauchbarer Geschwindigkeit nutzen will, betreibt man sie auf GPUs, TPUs oder NPUs mit maximaler Speicherbandbreite. Für Endanwender bedeutet das am einfachsten eine passende gpu zu verbauen, oder eine eher langwierige Lern Kurve und viel gehacke in Kauf zu nehmen.
Irgend ne fummel Lösung findet sich immer.

Suche

möglichst unzensierte LLM

Alister1

Ensign

Rickmer

Silent-Fanatiker Pro

Alister1

Ensign

kali-hi

Banned

madmax2010

Fleet Admiral

Pyrukar

Commodore

Garmor

Commander

Alister1

Ensign

dernettehans

Lt. Commander

madmax2010

Fleet Admiral

Ähnliche Themen