[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

Wenigstens ist er kuschelig ;)

@samuelclemens Ich hab ja oben die Ressourcen gepostet, damit du nichts selbst bauen musst ;) Da werden Workflows geteilt, besprochen, neue Entwicklungen usw. (insb. auf dem besagten Discord). Und bzgl. Ausgangsbild, ja das sollte ohne Fehler sein, ist aber ja kein Problem mit entweder mehreren Versuchen oder Inpainting bzw. Editing, alles in AI wsl schneller als mit Photoshop (das kann natürlich auch für bestimmte Änderungen gut sein, aber weniger jetzt auf der Inhaltlichen Ebene).


Das könnte zum Erstellen vom Filmsequenzen interessant sein.
 
WanGP, ursprünglich zum Erstellen von Videos, das mittlerweile auch Audio und Bilderstellung und vieles mehr beinhaltet, hat ein Update bekommen, was quasi einen eigenen Agent im Programm zur verfügung stellt, namens Deepy. Das könnte für den ein oder anderen comfyui geplagten Video-Ersteller hier eine interessante Alternative sein.

Beispielsweise:
You can ask Deepy to perform for you tedious tasks such as:


generate a black frame, crop a video, extract a specific frame from a video, trim an audio, ...<br>


Deepy can also perform full workflows:


1) Generate an image of a robot disco dancing on top of a horse in a nightclub.<br>2) Now edit the image so the setting stays the same, but the robot has gotten off the horse and the horse is standing next to the robot.<br>3) Verify that the edited image matches the description; if it does not, generate another one.<br>4) Generate a transition between the two images.<br>


or


Create a high quality image portrait that you think represents you best in your favorite setting. Then create an audio sample in which you will introduce the users to your capabilities. When done generate a video based on these two files.<br>


Deepy can also transcribe the audio content of a video (new to WanGP 11.11)


extract the video from the moment it says "Deepy changed my life"<br>


Etwas in eine ähnliche RIchtung in Comfyui: MCP
 
Mit ID-Lora für LTX 2.3 kann man Stimmen direkt in LTX 2.3 clonen. Der Text wird weiterhin als Prompt ausgegeben. Das funktioniert soweit ganz gut wie man am Beispiel sehen kann.
Allerdings ist die VRAM auslastung höher.

 
  • Gefällt mir
Reaktionen: zidius
Zum besseren Verständnis: Das ist dann dafür gedacht, dass man über mehrere Szenen eine konsistente Stimme hat. Beim RuneXX ist auch ein entsprechender Workflow verlinkt. Rein vom Klang her, ist es wahrsch. mit Input Audio doch noch ein bisschen besser, aber so natürlich einfacher, war jedenfalls mal mein Eindruck davon.
 
Also ich habe jetzt das mal mit diesem Workflow versucht aber anscheinend muss ich bei der Installation der erforderlichen Knoten usw was zerschossen haben. Ich bekomme jetzt immer bei jedem Workflow, auch jene die bisher problemlos liefen eine Fehlermeldung im bzgl des "Save" Knotens am ende.
patch_validate_inputs.<locals>.wrapper_validate_inputs() takes 3 positional arguments but 4 were given

Ich habe auch jetzt die Portable Version versucht und alle Modelle übertragen. Aber immer die gleiche Fehlermeldung!
Könnte es mit dem letzten Update zusammenhängen? Ich glaub ich hab nach dem letzten Update kein Workflow mehr gestartet gehabt. 🤔

Edit: Nach nem clean install, also nochmal die Portable in neuem Ordner entpackt und nur die fetten Modelldateien übertrage scheint es wieder zu funktionieren.
Keim Plan ob das so bleib wenn ich nochmals den oben erwähnten Workflow versuche.
 
Zuletzt bearbeitet:
Ich würde mal schauen, ob die Kijai -Nodes aktuell sind. Sieht danach aus, dass was nicht aktuell ist.
 
Keuleman schrieb:
Mein Beitrag dazu grad :-D

Die harten Cuts im Video sind übrigens ein zeichen dafür das die Videolänge zu Kurz für den Prompt ist.
Ab 20Sek muss man bei ID-Lora auch damit rechnen das der Charakter verfälscht dargestellt wird.
 
Es ist roh, es ist dumm, es ist grob geschnitten und es funktioniert nur leidlich. Plus, es hat meinen sehr merkwürdigen Humor. Egal. Hier... hier ist es:​

 
  • Gefällt mir
Reaktionen: Tr8or
Alleine die Länge des Videos beeindruckt mich.
Hast du da maximal 10s lange Clips auf einmal gemacht, richtig? Du hast doch auch nur eine Grakka mit 16GB VRAM(?) Oder hast du es in einer Cloud gemacht.

Hatte mir jetzt auch mal LTX 2.3 angeguckt und da läuft mein Rechner mit 16GB VRAM und 32GB RAM halt schon extrem an der Kotzgrenze.
Nutze im Detail: LTX-2.3-distilled-Q4_K_S.gguf
Und da sollte ich im Hintergrund bei 10s Länge auch sonst nichts im Hintergrund laufen haben :rolleyes:
Die Modelle muss ich auch nach jedem Lauf rausschmeißen, weil er sonst bei der nächsten Runde mit OOM bzw. VRAM Error meckert.
 

Anhänge

  • LTX-2_00005.mp4
    3,1 MB
@zidius Nein, nicht Cloud, lokal. Der Faketrailer kommt vom RTX 4070 System (12 GB VRAM, 64 GB RAM). Mehrere Teile weil sonst bei wenigen langen Teilen schnell öde. Im französischen Musikvideo war das längste Einzelteil aber 20 Sekunden lang, ging ohne Probleme. Ich möchte und mache nur lokal. Aber ich habe auch kein Problem damit, die Auflösung runter zu drehen! 1280*720 ist so mein sweet spot. Mehr wäre möglich aber der grafische Vorteil ist mir zu gering zur erhöhten Rechenzeit. Spassvideos eher sogar noch niedriger.

Interessant ist eigentlich: Video länger kein Problem. Aber LTX2 fängt bei ca. 1 Minute an, beim Ton Quatsch zu machen (verrückt durcheinander gewürfeltes Audio aus dem Text im Prompt).
 
  • Gefällt mir
Reaktionen: Tr8or und zidius
welchen checkpoint nutzt du genau? und welchen workflow? meine 16 GB VRAM sind wie gesagt bis zum Anschlag voll. Beim RAM bist du mir natürlich komplett überlegen. Gerade beim vae am Ende ist das denke ich der entscheide Unterschied.
Ergänzung ()

bei der Auflösung bin ich auch bei nur 720x1280
 
Screenshot 2026-04-05 213546.png
Screenshot 2026-04-05 213649.png


HIer, wie die Dame im Anhang entstanden ist :-D Außerdem noch der VAE Decoder, den ich nutze und die Einstellungen dazu.
 

Anhänge

  • LTX-2.3_00029_.mp4
    3,3 MB
  • Gefällt mir
Reaktionen: zidius
zidius schrieb:
Hatte mir jetzt auch mal LTX 2.3 angeguckt und da läuft mein Rechner mit 16GB VRAM und 32GB RAM halt schon extrem an der Kotzgrenze.
Nutze im Detail: LTX-2.3-distilled-Q4_K_S.gguf
Die Modelle muss ich auch nach jedem Lauf rausschmeißen, weil er sonst bei der nächsten Runde mit OOM bzw. VRAM Error meckert.
Ein Upgrade auf 64GB Sys Ram lohnt sich für Video definitiv, dann kann mehr hin und her geschoben werden und das wurde in der letzten Zeit auch stark optimiert in comfyui, so dass es flotter von statten geht (von daher auf jedenfall neuste Version nutzen). Mit Kijai Nodes basierten Workflows hast Du generell noch mehr Optionen zum RAM sparen/Beschleunigung/Optimierung. Z.B. diese "Chunk FeedForward"- Node, die die Peak Vram Nutzung minimiert. Auch hier drauf achten, dass alles UP2Date ist.
 
  • Gefällt mir
Reaktionen: zidius
@Keuleman Danke.
Der LTXV Spatio Temporal Tiled VAE hilft mir hier enorm.
Erster Versuch mit einem 15s Video lief direkt ohne Probleme durch.
Ich muss mich aber eh noch durch die ganzen Workflows wühlen. Bestimmt gibt es da noch mehr Optimierungspotenzial.
Ergänzung ()

@MechanimaL Danke. Welche workflows meinst du genau? Diese hier?: https://huggingface.co/RuneXX/LTX-2.3-Workflows
Bin die auf jeden Fall gerade am durchgucken, aber über "Chunk FeedForward"- Node bin ich noch nicht gestolpert.
Wie auch immer, mehr RAM wäre wirklich sinnvoll...
 

Anhänge

  • LTX-2_00014-audio.mp4
    7,4 MB
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Keuleman und MechanimaL
zidius schrieb:
Wie auch immer, mehr RAM wäre wirklich sinnvoll...
Hieß es nicht immer mehr RAM wäre nicht wichtig bei KI?
Ich könnt zu meinen 32gb noch nen älteren 16er oder zwei 8er reinbasteln wenn das spürbar was bringt. Leider passen Slotmäßig nicht alle 4 zu den jetztigen 2x16 rein. Der 16er und 8er wär wohl von der performance her nicht zu empfehlen oder? Wären insgesammt sonst 3x16 und 1x8...
 
tja, bei video scheint es sich zu ändern. Ich habe akt halt überwiegen OutOfMemory errors.
Preise sind natürlich aktuell ideal zum kaufen, aber wem sage ich das :rolleyes:
 

Anhänge

  • LTX-2_00015-audio.mp4
    9,1 MB
  • Gefällt mir
Reaktionen: blubberbirne und Keuleman
Ich hatte einfach Glück bzw. bin seit Anfangszeiten immer auf max RAM gegangen. Dann sind die Preise jetzt explodiert... ich wäre nicht mit meinen Körperteilen hingekommen sonst :-D
 

Anhänge

  • LTX-2.3_00037_.mp4
    4,9 MB
  • Gefällt mir
Reaktionen: zidius
@zidius geiles Video!
@Keuleman auch ein geiles Video!

Ich glaube den Tiled VAE hatte ich in einen alten Workflow noch drin. In meine aktuellen ist der nicht mehr drin.
Werde ich mal ändern und schauen was bei mir bei rum kommt!
 
  • Gefällt mir
Reaktionen: zidius und Keuleman
Zurück
Oben