möglichst unzensierte LLM

dms schrieb:
stimmt ... da gabs ja den anderen Tröt

das war eine andere Frage, das hat sich aber erübrigt und wird nicht weiter verfolgt.
dms schrieb:
@Alister1 - seufz - das "LLM" wird auf der Grafikkarte ausgeführt
Ergänzung ()

Gibt es eine Cloudlösung oder etwas, was man online machen kann? Steuerung unterwegs, wäre natürlich top!
 
Alister1 schrieb:
Gibt es eine Cloudlösung oder etwas, was man online machen kann? Steuerung unterwegs, wäre natürlich top!
Klar

Google Colab falls du dich erstmal kostenlos versuchen willst

Ansonsten gibt's natürlich jede Menge Cloud Hoster, bei denen du GPUs oder GPU Cluster mieten kannst, z.B. https://www.runpod.io/
 
  • Gefällt mir
Reaktionen: kali-hi
Mit Colab habe ich in anderen Zusammenhängen gearbeitet, welches gelegentlich leider zensiert.

Die optimale Lösung wäre die Möglichkeit auf eine unzensierte LLM vom Smartphone aus.
 
Alister1 schrieb:
Wir reden hier ausschließlich von TEXT , nichts visuelles.
Meine Grafikkarte ist nichtmal von Nvidia und zudem ein steinalt-Modell.
Du hast doch ein fast identisches Thema hier gestern auch schon einmal gehabt...

Schmuddeleien mögen KIs nicht - bzw. die "Betreiber" versuchen tunlichst, dies zu unterbinden. Deshalb bliebe nur das Selber-Machen übrig, aber das geht mit der HW jedoch nicht
 
Rickmer schrieb:
... und die Faustregel ist für Q4 Quantisierung, also schon stark 'komprimierte' LLMs
Yep. Seh ich auch so . Vor allem wenn der Kontext mal halbwegs brauchbar sein soll.
Irgendwie dachte ich beim tippen schon, dass wenn ich das so abschicke quantisierung angesprochen wird.
Q4 ist aber schon ok und @oicfar hat schon recht, ne A6000 tut es auch.

Naja, oder halt online spot Instanzen. Sowas geht inzwischen um 30 Cent / Stunde
Alister1 schrieb:
Wir reden hier ausschließlich von TEXT , nichts visuelles.
Meine Grafikkarte ist nichtmal von Nvidia und zudem ein steinalt-Modell.
Bild Modelle brauchen im Schnitt weniger vram. Da ist man schon mit 8 bis 16GB echt gut dabei.
Gibt auch LLMs in dem Bereich die für Kleinkram ok sind, ich Regel todo listen und Aufgaben sortieren, arbeiten mit 1-2 Seiten langen PDFs mit ein paar 8b Modellen auf NPUs, aber wenn du Texten willst rennst du mit denen in sehr viel Frust, wie @Pyrukar schön beschrieb
Ergänzung ()

Alister1 schrieb:
Gibt es eine Cloudlösung oder etwas, was man online machen kann? Steuerung unterwegs, wäre natürlich top!
Klar. Hier Geizhals für ai compute :)
https://app.primeintellect.ai/dashb...apest&pricing_type=Cheapest&security=Cheapest

Oder halt operouter.ai da zahlst du dann pro token statt pro Stunde
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: kali-hi
Garmor schrieb:
Aber warum so ein uraltes Modell?
warum nicht, für meine Zwecke funktioniert es und kommt ganz gut mit den verfügbaren 12GB VRAM zurecht :D Ich hab mir das vor ewigkeiten mal runtergeladen und mich seither nicht mehr drum geschert weils seinen Zweck erfüllt.

Welches Modell würdest du denn empfehlen, wenn es darum geht sich aus ein paar Stichpunkten eine Geschichte schreiben zu lassen und ist das dann wirklich so viel besser als mein "Uralt" Model?
 
Probiert hab ich es noch nie so richtig, aber Davidau hat Unmengen an halbwegs modernen Modellen auf so Storyschreiben trainiert. Die laufen bei dem meist unter dem Label "Horror", aber wahrscheinlich sind die nicht alle so spezifisch.
 
Das Problem ist nicht, dass ultraüble Schweinereien damit generiert werden soll, wie einige hier vielleicht meinen, sondern dass die üblichen LLMs immer weiter eingeschränkt werden. Vor zwei Wochen konnte man problemlos noch schreiben "sexy", "verführerisch", etc. pp. Mittlerweile alles blockiert. Es wird immer weiter alles "entschärft" und man kann nicht alle 2 Monate ein neues Abo abschließen, damit dann immer wieder das gleiche passiert...
 
@Alister1 Dann schau dir mal openrouter an. Im webinterface kannst du beliebige Modelle aller Anbieter wählen. Eigene System prompts hinterlegen und die Modelle justieren wie du es willst.
Sämtliche freien desktopanwendungen kannst du dort mit api key anbinden und Nutzung darüber abrechnen.
Spart dir auch die Abos, und ich zweifle daran, dass du 20 Euro pro Monat verbraucht bekommst.
Eine recht simple Anwendung in der Richtung ist jan.ai
Viele nutzen lm studio, aber das ist vllt overkill

@dernettehans um @dms satz im sinn gleich zu halten, aber vielleicht etwas zu umschreiben:

Wenn man brauchbare Modelle in brauchbarer Geschwindigkeit nutzen will, betreibt man sie auf GPUs, TPUs oder NPUs mit maximaler Speicherbandbreite. Für Endanwender bedeutet das am einfachsten eine passende gpu zu verbauen, oder eine eher langwierige Lern Kurve und viel gehacke in Kauf zu nehmen.
Irgend ne fummel Lösung findet sich immer.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: dms
Zurück
Oben