[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

Also natürlich kannst du auch ein Referenzbild nehmen. Wenn du dann von dem damit erzeugten Bild eine Variation erstellen möchtest, brauchst du wsl auch kein Referenzbild mehr (sondern eben das erstellte). LORA nach Model Load, ja.
 
Also ich will sowas wie diese Chibli Bildumwandler die so in Umlauf sind. Aber eher nach diesem LoRA:
https://civitai.com/models/750299/spirou-and-fantasio-bande-dessinee-style-franco-belgian-comic

Also Ausgangsbild einfügen und umwandeln lassen. Aber optional per Prompt änderungen vornehmen können.

So ganz funktioniert es mit obigen LoRA bisher in meine Workflow nicht. Auch wenn ich die ganzen Knoten mit dem zweiten Image lösche.
Bisher habe ich folgenden Prompt verwendet: "Turn Image 1 in to Comicstyle image."
Aber es kommt immer ungefähr dasselbe raus ob mit oder ohne LoRA.


Der Ansatz hinter der ganzen Geschichte ist das es einfacher sein wird Referenzbilder als Ausgangsmaterial zu verwenden statt Textprompts die immer etwas freier interpretierbar sind.
Da es schier unendlich viel an Fotomaterial unter freier Lizenz gib das man gegebenfalls mittels KI anpassen/retuschieren kann um es dann für das Ingame in ein Comicart umzuwandeln.
 
Einfach nur Chat GPT erbringt schon interessante Ergebnisse.
 

Anhänge

  • 5822bfa8-5e9f-41cb-badf-6a5d3749426f.png
    5822bfa8-5e9f-41cb-badf-6a5d3749426f.png
    2,8 MB · Aufrufe: 63
Den "dirty-look" kriegt Chattie super hin. So Oldschool Warhammer, 80er... absurd gut.
 
samuelclemens schrieb:
Also ich will sowas wie diese Chibli Bildumwandler die so in Umlauf sind. Aber eher nach diesem LoRA:
https://civitai.com/models/750299/spirou-and-fantasio-bande-dessinee-style-franco-belgian-comic
Ich glaube ich hatte ja ein Beispiel geschickt, wie das mit dem Umwandeln gut geht, das war aber mit einem anderen Modell (und LORA). Das hier ist Flux1. Diese LORA würde evtl mit Flux Kontext funktionieren. Nicht aber mit FLux2 Klein 9B. Die aktuell beliebtesten open source Modelle zum Editieren sind FluxKlein9B und QwenImageEdit2511.

Kurz getestet: Ja, die LORA funktioniert prinzipiell auch mit Flux Kontext.
 
Zuletzt bearbeitet:
Kann ich Flux Kontext auch einfach in mein obigen Workflow einbinden oder ist es besser ein komplett neues dafür zu erstellen?
Ist es überhaupt Sinnvoll Flux Kontext zu verwenden von der Qualität her? FLux2 Klein 9B scheint mir von der Qualität her noch die besten Ergebnisse bei mir zu liefern. Dafür müsste ich aber ein komplett neues LoRA selber erstellen. Zumindest finde ich keins das genau den gesuchten Stil hat wie das obige.
Ich versuch es erstmal aber mit FLux Kontext. ComfyUi scheint aber nur ein fertiges Template dafür zu bieten.

1774121442334.png


Wie ich den Loader da einbinden soll ist mir auch schleierhaft!?
 
Du musst, ähnlich wie ich es anhand des anderen Workflows gezeigt hatte, den Subgraph öffnen und dort hast Du die enstprechenden Nodes:
1774121641043.png

Dann den Prompt verwenden: turn the image into franco-belgian comic illustration with spirouEtFantasio style

(das beinhaltet das Trigger Wort für die LORA). PS: Evtl gefällts Dir besser, Bilder direkt selbst zu erstellen mit der Lora. Dann könntest Du ggf Flux1 Dev oder Flux1 Krea als Modelle dafür probieren.
 
A, OK! So langsam steig ich dahinter.
Muss man den LoRA Loader generell immer direkt nach dem Load Model einbinden?


MechanimaL schrieb:
(das beinhaltet das Trigger Wort für die LORA). PS: Evtl gefällts Dir besser, Bilder direkt selbst zu erstellen mit der Lora. Dann könntest Du ggf Flux1 Dev oder Flux1 Krea als Modelle dafür probieren.
Du meinst per Textprompt?
Das würde bzw müsste ich im weiteren Schritt ebenfalls einbinden um änderungen/anpassungen vornehmen zu können.
Andererseits muss ich wahrscheinlich eh verschieden Modelle und Workflows anwenden je nach bedarf. ZB um zunächst verschieden Kameraperspektiven von der Vorlage zu erzeugen. Das klappt schonmal einigermaßen. Wenn es auch Elends lang dauert auch nur 8 Shots zu erzeugen und grad realfotos mit Gesichtern manchmal etwas gewöhnungsbedürftig aussehen.


Edit: Es scheint jetzt mit dem LoRA besser zu funktionieren. Dennoch ergibt die selbe Vorlage mit selben Einstellungen immer leicht veränderte Ergebnisse. Auch wenn der grundsätzliche Stil beibehalten wird.
Das ist so nicht produktiv nutzbar wenn man zb verschiedene Perspektiven derselben Szene benötigt oder später wieder in eine vorherige Szene oder Location wieder zurück muss.
Auch würde das arg blöd rüberkommen wenn sich der Stil ständig leicht ändert.
Hängt das mit dem seed zusammen? Würde es was bringen wenn ich den auf einen festen wert einstelle?

Insgesammt sehen die Ergebnisse aber eher wie ein alter Photoshop Filter aus als das die KI hier den Stil wirklich nachahmen würde wie es bei diesen Cbibli Generatoren der fall ist. 🤔
 
Zuletzt bearbeitet:
Die Veränderung ist genau der Seed, der sich ändert. Für diese Perspektiv-Änderung würde ich auf Flux Klein oder Qwen-edit gehen. Natürlich etwas mehr Aufwand, wenn du jetzt die Basis Bilder mit Flux Kontext oder nem anderen Modell erstellst und das Perspektiv-Wechseln dann mit nem weiteren Modell machst. Wäre auch noch die Frage, ob Du lieber die Perspektive in den Fotos anpasst und dann umwandelst oder bei den umgewandelten Bilder in der Perspektive änderst.
Für Charaktere entweder LORA erstellen/lassen und diese dann verwenden (Modell-abhängig) oder mit Input Bildern versuchen. Inhaltich dann in der Art von: Die Person aus Bild 1 steht vor dem Haus von Bild 2 (o.ä.).
Du kannst auch die Szenerie ohne Personen erstellen und dann immer wieder die gleichen Ausgangsbilder nehmen und dort die Figuren/Personen platzieren (wegen Konsistenz). Da ich das selbst noch nicht gemacht habe, kann ich nur von dem Sprechen, was ich schon von anderen gesehen habe und wie es in der Theorie funktionieren sollte, aber Probieren geht über Studieren ;)

Schick mal ein Beispiel, was Du meintest mit dem Photoshop Filter, hier mal was aus dem vorher schon geposteten Hunde Bild mit der von Dir verlinkten LORA:
1774171748457.png
1774171703049.png
 
Wenn ich versuche etwas gezielt zu erreichen stelle ich den seed after generation auf increment statt random. Dann fallen die Änderungen kleiner aus und ich könnte theoretisch einfach den seed zurück stellen.

Sollte mir das grundlegend nicht gefallen gehts mit random weiter zwischendurch.
 
Ich spiel gerade auch etwas mit dem Videogenerator rum.
Das hat mit wan 2.2 fast 20 minuten gedauert für 5s.
Unten eingefügt als Anhang. Das letzte Bild ist das Ausgangsbild.
Bring the scenes to life. The boy blushes, and the woman smiles. A gentle breeze blows through her hair, and a bird poops on the umbrella from above. The boy jumps off the bench and runs toward the camera, laughing.
Bisher hatte es mir über 5s immer rausgehauen mit ner Fehlermeldung. Scheint aber jetzt wesentlich besser und flüssiger zu laufen das ich es nochmal wagen kann.
Weiss bloß nicht wo ich die länge im Workflow bestimmen kann. Hab nur die fps gefunden. Bei length steht da 81!?

Sehr interessant was man aus einem einzigen Image rausholen kann. Könnte man vielleicht auch Produktiv in der Animation einsetzen um Handgezeichnete Einzelframes stark zu reduzieren. Oder alte Animationen wo man sehrsparsam mit der Framerate umging aufzuwerten.
Die KI sollte dabei nicht hinzuerfinden sondern nur die logischen Bewegungen dazwischen interpolieren.
Könnte mir gut vorstellen das es ein guter Kompromiss zwischen Oldscholl Animation und Computergeneriert wäre. Mit dem Zeichnen hab ich vor langer Zeit aufgehört aber so könnte es wieder Spaß machen.




Edit: Das letzte Video ist zwar 13s lang aber es scheint nicht wirklich brauchbar einfach den length wert zu vervielfachen!? Hab sogar den Promomt etwas erweitert mit den Winken um mehr inhalt zu haben.
Weiss jemand was man da machen könnte?



Zusatzfrage: Wie bekomme ich das mit dem Audio hin in ComfyUI? Insbesondere mit Stimmen Klonen. Ich seh keine offline Templates die sich damit auseinandersetzen sondern nur für musikgenerierung.
Was für ein Spiel zwar auch wichtig ist aber ich würde gern für das Spielprojekt gern auch Audiodialoge einfügen mit lustigen Stimmen.
 

Anhänge

  • Wan2.2_image_to_video_00003_.mp4
    984,9 KB
  • Wan2.2_image_to_video_00004_.mp4
    961,3 KB
  • Bildschirmfoto_20-3-2026_223846_image-b2.civitai.com.jpeg
    Bildschirmfoto_20-3-2026_223846_image-b2.civitai.com.jpeg
    97,7 KB · Aufrufe: 31
  • Wan2.2_image_to_video_00006_.mp4
    3,4 MB
Zuletzt bearbeitet:
Finde ich sehr schön gelungen. Das lange Video hakelt natürlich... WAN kann lange Videos nicht wirklich. Hab da vor ewigen Zeiten mal 20 Sekunden gemacht (4 Videos aneinander gestückelt), letztes Frame des alten Videos -> erstes Frame neues Video genommen.

Bin von WAN tatsächlich komplett weg nun.

 
Keuleman schrieb:
Bin von WAN tatsächlich komplett weg nun.
Was würdest du für ein Workflow Template in ComyUI denn empfehlen bei meiner Hardware und Usecase?
Also animierte Videos von mindestens 20-30 Sekunden am besten mit vertonung Text über ein Prompt und am besten eine/mehrere geklonte Stimmen.
Es soll eine Visual Novel werden mit kurzen animierten Zwischensequenzen die dann natürlich auch vertont sind als Highlights im franko belgischen Stil ähnlich dem Video da oben. Das ich so natürlich nicht nehmen kann wegen Copyright und so... :mussweg:
 
Für WAN kommt nur noch wenig neues, die neueren Varianten von WAN sind auch alle closed source. Für LTX läuft die Entwicklung insgesamt gut und weiter, von daher würde ich auch versuchen, soweit wie möglich damit zu arbeiten. https://huggingface.co/RuneXX/LTX-2.3-Workflows kennst du ja, da kommen neue hinzu und werden auch besprochen und es gibt Support, ansonsten gibts, wie gesagt civitai, youtube und insb den banodoco discord als QUellen.
 
Updatre
MechanimaL schrieb:
Für LTX läuft die Entwicklung insgesamt gut und weiter

Hab damit jetzt ein kleines Update durchgeführt. Hier die Ergenbisse. Leider hab ich beim 3D Ausgangsbild nicht aufgepasst aber die KI hatt durchaus die dritte Hand der Frau auf der Rückenlehne erkannt und leider mit eingebaut. Ist also nicht LTX schuld. Nicht gänzlich. Aber irgendwie lustig! 👴
Hab jetzt auch ein bissel mit Vertonung gespielt aber noch nicht raus wie ich die stimmen genauer bestimme. Es wird jedes mal eine etwas andere Stimme verwendet.
Gibt es spezielle Knoten die man nachträglich mit einbauen kann für die Vertonung? Besonders mit Zuweisung der Charaktere durch Headshots!?
Oder ist es ratsamer die Vertonung komplett separat in einem anderen Workflow mit anderem Modell durchführen zu lassen?
Mich würde auch interessieren ob es möglich ist ein Videoclip in eine Animation umwandeln zu lassen!? 🤔

Zuletzt hab ich auch noch die alte Version mit der Zeichnung versucht. Was meiner Meinung nach schlechter ist als mit Wan.
Nebenbei, das mit dem verdecken der Kamera indem jemand daran vorbeiläuft ist eine alte Methode um einzelne Szenen (videos) miteinander zu verbinden zu einer großen Szene ohne das man es merkt.


Insgesammt sind aber alle Videos bei genauer Betrachtung über einen Editor Frame für Frame extrem fehlerhaft, Einiges könnte am verwendeten Codec liegen oder so. Aber insgesammt schludert die KI extrem bei jedem Einzelbild. Das würde man als Einzelbild sofort als ungenügend löschen.
Die menschliche Wahrnehmung bessert hier sehr viel automatisch aus.
Schade, hab mit dem Gedanken gespielt wegen der Kontinuität für mein Gameprojekt vielleicht sogar mit Videos zu arbeiten für die Einzelszenen.
So ein Rundgang durch ne Location würde gleich n dutzend stimmiger Einzelbilder ergeben die man verwenden kann aus verschiedenen Perspektiven. Oder ne Kamerafahrt um die Personen herum oder ähnliches. 🤔

Na, hat wer das kleine Easteregg gefunden!?😁
 

Anhänge

  • ltx2.3_flf2v_00001_.mp4
    1,2 MB
  • ltx2.3_flf2v_00002_.mp4
    1,8 MB
  • ltx2.3_flf2v_00003_.mp4
    1,9 MB
  • ltx2.3_flf2v_00005_.mp4
    2,9 MB
  • ltx2.3_flf2v_00006_.mp4
    3,1 MB
  • ltx2.3_flf2v_00007_.mp4
    1,9 MB
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Keuleman
Das letzte ist richtig gut, die 3D Optik / Pixar Style... ja, die 3 Arme, das ist immer was :-D
 
  • Gefällt mir
Reaktionen: samuelclemens
@Keuleman Ja, ich hab das Gefühl das die KI besser mit 3D umgehen kann. Allerdings verzeiht die menschliche Wahrnehmung bei Zeichnungen sehr viel mehr Unfug/Fehler/Unstimmigkeiten und es ist um Welten einfacher in der manuellen Nachbearbeitung/Retuschierung.
Ich bin aber immer noch baff das sogar solche dinge wie Schattenwürfe in der gezeichneten Animation richtig eingefügt werden wo man vorher keine hatte.
 
samuelclemens schrieb:
Gibt es spezielle Knoten die man nachträglich mit einbauen kann für die Vertonung? Besonders mit Zuweisung der Charaktere durch Headshots!?
Oder ist es ratsamer die Vertonung komplett separat in einem anderen Workflow mit anderem Modell durchführen zu lassen?
benutzt du Keyframes oder nur ein Eingangsframe? Du kannst custom Audio benutzen mit LTX. Wenn Du keyframes hast, weißt du ja, wann was (frame/sek. Zahl) und könntest das Audio entsprechend passend vorbereiten. Wenn du ansonsten das Audio ungefähr richtig vorbereitest und das gut promptest (mit nur einem Eingangs bzw. noch Endframe) dann könnte es aber genauso gut klappen. Im Prompt steht der Ablauf und was gesagt wird, aber du gibst das Audio vor. Sollte eigentlich gehen. Evtl probieren auch andere inkl. mir mal was aus, wenn du Daten (Audio, Ausgangsbild, gewünschter Ablauf) hier rein stellst.
 
@MechanimaL Ich hab einfach das Bild aus dem Civitai LoRA Model genommen.
Das 3D Bild (00008) müsste halt entweder manuell etwas gephotoshopt werden an der Hand auf der Rückenlehne der Bank von der Frau, oder neu erstellt.Leider hab ich den genauen Promt nicht mehr. Aber ich musste es noch etwas nachbessern nach dem ersten versuch. Bild 3 (00001) war der erste versuch.
Audiofiles hab ich noch nicht.
Im Spiel hab ich mir gedacht ich lasse die Charaktere in einem komischen pseudo- Kauderwelsch aus verschiedenen Südländischen Sprachen sprechen um Stimmung und Emotion zu transportieren. Die Spieldialoge werden ja eher über Textboxen geregelt wie es in Visual Novels üblich ist.

Bisher hab ich lediglich fertige Templates aus ComfyUI etwas angepasst. Hier ein Wert verändert, dort ein knoten deaktiviert usw. Ein komplexes Workflow selbst zu bauen liegt weit außerhalb meiner derzeitigen Fähigkeiten.
 

Anhänge

  • Bildschirmfoto_20-3-2026_223846_image-b2.civitai.com.jpeg
    Bildschirmfoto_20-3-2026_223846_image-b2.civitai.com.jpeg
    97,7 KB · Aufrufe: 32
  • Flux2_Klein_9b_kv_00008_.png
    Flux2_Klein_9b_kv_00008_.png
    1,6 MB · Aufrufe: 27
  • Flux2_Klein_9b_kv_00001_.png
    Flux2_Klein_9b_kv_00001_.png
    1,5 MB · Aufrufe: 27
Eine Weile nix hier gepostet, ich werfe es mal rein: KI wird uns alle versklaven, ich gebe Euch unseren neuen Herrscher :-D

Z-Image_Turbo_00143_.png
 
Zurück
Oben