[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

samuelclemens · Mittwoch um 18:23

Mal etwas abseits der Bild und Videogenerierung.

Wie kann man unzensierte ki Modelle genau einpflegen in ComfyUi Workflows.
ZB die hier: https://huggingface.co/mlabonne/gemma-3-12b-it-abliterated/tree/main
Ich nehme an man muss die .safetensors Dateien in den Ordner "text_encoders" rein tun. Ich kapier aber nicht ob man alle rein tun soll oder sie iwie verknüpfen!?
Mein englisch ist bei weitem nicht so gut das zu durchschauen. Ich blick das ganze schon auf deutsch kaum durch.

blubberbirne · Mittwoch um 20:03

Bei einen LTX2 Workflow musst du das bei den DualClipEncoder auswählen.

samuelclemens · Mittwoch um 22:28

Ich will das als llm in nem Chat Workflow einbinden.
Vielleicht auch in Ollama mit grafischer Oberfläche.
Aber kein plan wie.

blubberbirne · Donnerstag um 07:49

Schau dir mal dieses Video an:

An dieser Stelle steht ein externer Inhalt von YouTube, der den Forumbeitrag ergänzt. Er kann mit einem Klick geladen und auch wieder ausgeblendet werden.

YouTube-Embeds laden

Keuleman · Donnerstag um 10:11

neues Bildmodell, gar nicht verkehrt:

Keuleman · Donnerstag um 14:26

Ach so, Sprachmodelle: wenn es kleine Modelle sind (12b würde ich da auch noch testen): da nehme ich gerne was Portables, "Local LLM Notepad". Da lasse ich nebenbei gerne laufen. Hat den Vorteil, im Programm einfach das Modell auswählen (das kann irgendwo liegen). Nutze ich gern für 4b Varianten von Gemma oder auch 8b Meta-Llama.

samuelclemens · Donnerstag um 16:33

Ich kapier immer noch nicht wie man ein unzensiertes Sprachmodell in ein ComfyUI Workflow einbindet.
Es gibt ja ein vorgefertigtes Template mit Qwen 3.0.
Wie bekomme ich das oben verlinkte Modell nun in den Workflow das es funktioniert?
Es scheint nicht zu reichen die 5 Teilstücke (.safetensors) ins "text_encoders" ordner zu kopieren.
Oder kennt jemand ein anderes fertiges Workflow mit einem unzensierten ähnlichen Modell das ich nehmen könnte um daraus zu lernen?
Die Templates sind ja sehr einsteigerfreundlich da sie neben denm erforderlichen dowloads auch aufzeigen wo man jeden download unterbringen muss.

blubberbirne · Donnerstag um 23:39

So leute, heute nach langer Zeit mal wieder Suno reaktiviert.

Wie findet ihr den Song? https://suno.com/s/luKczDHVVIcfTcRZ
Ich feier den gerade Hard

MechanimaL · Freitag um 12:20

samuelclemens schrieb:
Ich kapier immer noch nicht wie man ein unzensiertes Sprachmodell in ein ComfyUI Workflow einbindet.
Es gibt ja ein vorgefertigtes Template mit Qwen 3.0.
Wie bekomme ich das oben verlinkte Modell nun in den Workflow das es funktioniert?
Es scheint nicht zu reichen die 5 Teilstücke (.safetensors) ins "text_encoders" ordner zu kopieren.
Oder kennt jemand ein anderes fertiges Workflow mit einem unzensierten ähnlichen Modell das ich nehmen könnte um daraus zu lernen?

Es geht bei Dir ja anscheinend nicht darum, einfach einen unzensierten CLIP in Bild/Video zu verwenden, sondern etwas mit LLM Benutzung als solche und das über ComfyUI? Wäre mir jetzt nicht bekannt, dass comfyui dafür besonders geeignet ist. Natürlich kann man sachen einbinden, um Prompts zu erstellen/verbessern usw. aber für LLM Anwendung ist zb LM Studio besser geeignet (oder ähnliche). Bei LM Studio kannst du einafch die Modelle automatisch laden lassen, das besitzt eine Suchfunktion für HF. Dann den Modelnamen und Begriffe wie heretic oder abliterated dazu und runterladen lassen, anschließend als chat-model auswählen. Geht es nur darum in Workflows die Modelle durch unzensierte zu ersetzen, musst du sie als einzelne Dateien im korrekten (gleichen) Format wie im Workflow finden und einfach das vorherige durch sie ersetzen (entsprechend anwählen).

Ich hatte die Tage anderes zu tun und habe das neue Ernie Modell noch nicht getestet, wollte aber trotzdem schonmal zwei Videos dazu hier lassen

Keuleman · Freitag um 12:23

King, The Best... naja. Es ist gut aber es hat auch harten Müll ausgeworfen :-D

samuelclemens · Freitag um 13:51

MechanimaL schrieb:
Es geht bei Dir ja anscheinend nicht darum, einfach einen unzensierten CLIP in Bild/Video zu verwenden, sondern etwas mit LLM Benutzung als solche und das über ComfyUI?

So ähnlich war es gedacht. Zuerst hab ich es ja mit Ollama versucht. Aber da bis ich komplett rausgestiegen nach den ganzen Technokauderwelsch auf Englisch.
Ich versuch es nochmal mit LMStudio.
Fürs erste würde mir sprach llm genügen für den anfang. Es geht mir beim kreativen scheiben total auf den Senkel ständig bei KIs auf diese extra Portion Moralin zu stoßen.
Selbst wenn man sowas harmloses wie ne in ner Dexter Szene schreiben wollte kommt der gleich mit ethischem blahblah...
Obwohl kreatives schreiben sowieso für offline KIs ne schwere Hürde zu sein scheint. Schon chatGPT liefert da um welten bessere Ergebnisse als jede offlien KI die ich bisher versucht habe. Aber eben nur mit doppelportion Moralin!
Natürlich wär ich auch an Bilder und Video mit unzensierten Modellen interessiert, später. Deshalb dacht ich lern das gleich mit ComfyUI weil ich damit bisher am besten klarkomme.

Keuleman · Freitag um 14:59

Ein Video "aus Spaß" für die Firma gemacht und nun "gehe ich gerade viral"... oha.

samuelclemens · Freitag um 15:07

@Keuleman Wollt ich auch machen. Aber ich fürchte um mein Leben wenn ich das mache laut dem Blick das ich auf den Vorschlag geerntet habe!
👀

Keuleman · Freitag um 15:22

Die sind hier voll steil gegangen... das habe ich noch nicht erlebt... nur einem hier geschickt "haha, guck mal" und nu ist das von selber eskaliert. Ich nehm das mal mit, vielleicht wird ja irgendwann doch noch nen Comfy-Kurs draus ;-P Reichweite für den Papa. Bis dahin mache ich einfach weiter mein Ding

zidius · Freitag um 16:56

samuelclemens schrieb:
Wie bekomme ich das oben verlinkte Modell nun in den Workflow das es funktioniert?
Es scheint nicht zu reichen die 5 Teilstücke (.safetensors) ins "text_encoders" ordner zu kopieren.

Wenn ich das richtig verstanden habe, dann ist diese Modellveröffentlichung nicht für comfyui gedacht.
Du müsstest per script die 5 Teilstücke zu einer .safetensors-Datei zusammenfügen.

Oder du suchst nach einem comfyui upload des Modells, wo man die Dateien schon zu einer zusammengefasst hat.

samuelclemens · Freitag um 16:59

zidius schrieb:
Du müsstest per script die 5 Teilstücke zu einer .safetensors-Datei zusammenfügen.

Und wie macht man das?

MechanimaL · Freitag um 19:34

Keuleman schrieb:
King, The Best... naja. Es ist gut aber es hat auch harten Müll ausgeworfen :-D

Ja das übliche clickbait, aber es gibt auch Vergleiche in dem einen Video zumindest.

Keuleman · Freitag um 20:21

Ja, stimmt schon. Und es kann ja auch tatsächlich was.

Was auch was kann ist das neue Ace Step XL. Bisschen rumprobiert und klingt tatsächlich sehr geil:

zidius · Samstag um 19:46

@samuelclemens musst du mal bei google suchen. Da gibt es mehrere Möglichkeiten.... hab das aber selber noch nie gemacht, weil nie gebraucht. Eigentlich werden sehr schnell kombinierte Dateien bei huggingface hochgeladen.
Was ist denn z.B. mit denen hier?: https://huggingface.co/Comfy-Org/ltx-2/tree/main/split_files/text_encoders

Und mit meinen Videotests komme ich gerade nicht weiter.
Frisst einfach zu viel Zeit um "mal eben" ein paar Sachen auszuprobieren.
Manchmal kommt es eher in slow motion raus, auch wenn ich das sowohl im Positiven- als auch Negativen-Prompt ausschließe. Sowohl bei t2v als auch bei i2v.
Hängt wohl stark davon ab, was man genau im prompt beschreibt.

@Keuleman wie hast du das bei deinem langen Video eigentlich mit der lippensynchron gesungenen Musik hinbekommen? Du hast hier doch bestimmt auch wieder mehrere Videostücke später zu dem langen zusammengefügt, oder?

Ace Step XL muss ich mir auch noch angucken. Von Version 1.5 war ich ehrlich gesagt nicht so angetan.
Lyrics wurden verdammt oft nicht eingehalten, Zeilen vermischt, oder Zeilen ignoriert. Und das "wie" gesungen werden sollte, passt auch nicht mit meiner Beschreibung zusammen.... aber das kann auch einfach an mangelnder Erfahrung meinerseits bezüglich der prompt Formulierung gelegen haben.

Keuleman · Samstag um 20:16

Ja, na klar. Ehrlich gesagt funktioniert 2.0 besser für Lip Sync, meiner Meinung nach. Ich jedenfalls habe da bessere Erfahrungen gesammelt und nehme das dafür lieber her (Workflow mit extra Musik und Sprache trennen - Workflow, den habe ich bis heute nicht stabil auf 2.3 laufen bekommen).

Das Lied Ace Step 1.5 XL oben ist bisher auch das Beste, ein paar andere "nette" Lieder sind aber auch raus gekommen. Ich fand aber auch 1.5 "light" schon echt großartig. Meine Ansprüche sind vielleicht sehr niedrig :-D

[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

Lt. Commander

Lt. Commander

Lt. Commander

Lt. Commander

Lt. Junior Grade

Lt. Junior Grade

Lt. Commander

Lt. Commander

Lt. Commander

Lt. Junior Grade

Lt. Commander

Lt. Junior Grade

Lt. Commander

Lt. Junior Grade

Lieutenant

Lt. Commander

Lt. Commander

Lt. Junior Grade

Anhänge

Lieutenant

Lt. Junior Grade