[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

@Dennis_BW Das ist mir gestern Abend noch so eingefallen und zum testen erst mal was Ruhiges halt, hehe.

Ich werde jetzt testen, in der Reihenfolge:
1) längere Videos, Ziel vielleicht 1 Minute
2) Bewegung in die Szene bringen, vielleicht eine Kamera Drehung um eine Person im Park? Habe da ein Lora. Gucken, ob Lora verkraftet wird
3) Bliss... also.. wenn das geht...
4) Richtig cool wäre ein Video: verrauchter Blues Club, eine schwarze Sängerin singt ein Geburtstagslied für einen Bekannten und sagt am Ende in das Mikrofon: "Herzlichen Glückwunsch zum Geburtstag!"
 
@Keuleman
Bin gespannt auf das Ergebnis, oder auch nicht ganz gelungene Zwischenschritte.

Video steht bei mir gerade hinten an, hab einfach nicht genug Zeit zum Testen bis auf meiner Maschine ein brauchbares Ergebnis rauskommt.
 
Hat erstaunlich gut geklappt. Anbei zwei Ergebnisse, einmal in langweilig und einmal in Shakespeare. Keine Oom oder Inkontinenzen, erst ab 1:15 und da nur beim Audio (am Handy grad, kein Beispiel greifbar).

Übrigens auch bei den langen Videos immer genug VRAM und RAM frei gehabt. Ich denke, Modell und Sampler begrenzen. RAM zum Beispiel nie über 60% voll und VRAM immer ca. 4 GB Luft. Habe extra erst mal eine geringe Auflösung gewählt.

Edit... Jan ist nen Kumpel von mir und den wollte ich grüßen :-)
 

Anhänge

  • VID-20260227-WA0019.mp4
    2,4 MB
  • VID-20260227-WA0013.mp4
    3,2 MB
Zuletzt bearbeitet:
Hier noch nachgereicht eins mit 01:15, da fällt es auseinander :-)
 

Anhänge

  • LTX-2_00041_.mp4
    2,8 MB
Video klappt bei mir immer noch nicht. Ständig irgendwelche probleme und abstürze mit comfyui oder pinokio Neulich siagr nen bluescreen das ich per powerknopf nach 10 minuten abwürgen musste. Danach ging die kiste gar nicht mehr an. Hat sich tot gestellt bis ich das netzteil manuell aus und wieder eingeschaltet habe. Seitdem hab ich bissel bammel das ich meine Hardware kille wenn ich es weiter versuche
Kann es sein das der alte Prozessor den ich immer nich nicht ausgetauscht habe das hauptproblem ist?
Oder vielleicht die 64 GB Auslagerungsdatei die auf der internen sata ssd liegt?
 
Zuletzt bearbeitet:
Klingt stark nach Hardwareproblem... Netzteil? Bislang maximal das Comfy abgestürzt, nix, was ein Neustart Server nicht retten konnte :-O
 
Netzteil ist Nagelneu eingebaut worden. Ansonsten auch kein abstürze bei vollbelastung der gpu. Bluescreen kann ja immer mal vorkommen. Ist aber nach den 100% wohl eingefroren und musste manuell per powerknopg runterfahren. Hab halt erstmal panik geschoben als es dann nicht mehr anging. Hab schon befürchtet gehabt das Comfy die neue 5070ti gekillt hätte...
 
Wie waren denn die Temperaturen während der Generierung so? KI knallt ja volle Möhre auf GPU und VRAM gleichzeitig.
 
@samuelclemens An Temperatur und Verbrauch lässt sich evtl mit Power Limit noch was senken, jedenfalls wirkt sich das auf KI Generierung weitaus geringer aus, als auf andere Bereiche, spart aber ggf. ordentlich Energie und Du hast niedrigere Temps.

@Keuleman Bin jetzt auch nochmal mit LTX beschäftigt, gab keinen Anlass in der letzten Zeit, aber jetzt gibts nochmal einen und mein Video wird ~50 Sek lang sein mit Input Audio. Mal schauen, wie ichs bewerkstellige, grade bereite ich noch das Audio vor. Heute Mittag nochmal Sage und Triton installiert, das war nicht mehr drin, nach einer Neuinstallation, ist aber für Video Gen schon sehr zu empfehlen.
 
Du testest Audio zu Video? Wenn ja, da bin ich gespannt. Bei mir kam bislang was raus aber immer mit psychedelischen Farben. Warum auch immer...
 

Anhänge

  • LTX-2_00052_.mp4
    786,5 KB
Dass man zb mit MSI Afterburner ein PowerLimit setzen kann (wieviel eine Karte maximal verbrauchen darf). Ist aber evtl etwas von der Karte abhängig inwiefern es sinnvoll ist, bei der 5090 hat es sich auf jedenfall gelohnt, die 5070 ti backt aber ja generell schon kleinere Brötchen, wenn die 300W Angabe stimmt ^^ (vgl vs 600W+).

@Keuleman Es hat prima geklappt :) Habe den Workflow hier benutzt, allerdings mit distilled Lora (hinzugefügt) auf 0.6 (statt distilled modell) -das sieht einfach besser aus - und am Ende hab ich (Deine Worte im Ohr) direkt mal den LTX Spatial VAE Loader (aus dem LTX Node Pack) benutzt, statt diesen generischen von comfy. Hat 10min gedauert bei 8 Steps mit 1280x720 und 1553 Frames. Wäre evtl auch noch etwas schneller möglich gewesen, mit höhrem "temporal tile length". Mit den Settings unten ist das ganze beim decoden so bei ~17GB VRAM gewesen, während mein RAM bis zum Anschlag genutzt wurde.

Muss aber mal ohne TiledVAE oder mit anderen Settings testen, da es (sieht man insb. beim Abblenden am Ende gut), weiße, kastenförmige Übergänge hinterlassen hat, zwischen den Tiles). Fällt beim Ansehen - ist nur ein Spaßvideo für die Familie - nicht direkt ins Auge, aber ich teste mal, wie ich es wegbekomme..
 

Anhänge

  • 1772320446030.png
    1772320446030.png
    20,4 KB · Aufrufe: 46
Zuletzt bearbeitet:
Keuleman schrieb:
Edit 2: anbei mal das 2. Video. Der Sound ist grässlich, die Arme "all over the place"... naja, habe FP8 Modelle genommen, wo es nur geht :-D Ich entschuldige mich vorab.

Drei Arme hat die Arme :D
Allerdings schwer zu sagen ob die Fingeranzahl stimmt oder ob da der eine oder andere abgehackt wurde.

Bildschirmfoto_20260301_201437.png
 
Wie sieht es eigentlich mit Videoesynchronisation/Übersetzung aus. Ist das genauso Hardwarehungrig?
Ich meine so dass das Audio lippensynchron zum Bild erzeugt wird ohne dabei das Bild zu verändern.
Gibt es da überhaupt schon Tools die man ausprobieren könnte die sowas können?
 
Hmpf, kriege Melbandroformer nicht stabil zum Starten, crasht immer im Workflow weg. Hm. Liegt laut ChatGPT am aktuellsten Cuda und Python.
 
Ich hatte es bei dem Workflow oben deaktiviert, weil ich nur Audio (Sprache Input) hatte und das teil ja dafür da ist, sprache von Musik zu trennen (ich tippe, damit es innerhalb des Prozesses besser klappt mit lip sync). teste es jetzt auch mal mit nem stück eines liedes und dem teil. (pt2.9.1, cu130, python 3.13.9)
 
Zuletzt bearbeitet:
Aso! Oha. Habe mir also umsonst Comfy zerschossen X-D Naja, macht nix. Backup rein und morgen teste ich noch mal. Berichte mal, @MechanimaL ! Also, wenn ich eine mp3 habe mit einer Stimme: Kann raus, dann einfach die extra Kiste da nehmen und das Melbrandroformer strg-b?
 
Also ich hoffe Du hast Dir nichts zerschossen, in der Repo der Node (von Kijai) ist der Fehler seit heute gemeldet und hat wohl mit dem letzten ComfyUI-Update zu tun, d.h. auf einen Fix warten (alternative ähnliche Nodes mag es geben, weiß ich nicht, ich teste mal das Ergebnis ohne diese). Wenn Du nur eine Stimme hast (ohne Musik) dann brauchst Du die Node nicht. Was sie macht: Die Stimme extrahieren, so dass LTX rein mit der Stimme arbeiten kann. Hinten wird dann wieder das Original Audio reingesetzt. D.h. LTX hört nur die Stimme, das Video hat aber am Ende genau das am Anfang eingefügte Audio.

Edit: auch wenn der Fehler bei der Repo vom "Roformer" reported wird, scheint das Problem am VAE Audio Encoder zu liegen. Jedenfalls bekomme ich auch den Fehler: "cuFFT error: CUFFT_INTERNAL_ERROR" OHNE die Melbrandroformer Nodes. (Was gestern ja noch lief.)

 
Zuletzt bearbeitet:
Ach ärgerlich, Node schuld? Mein Comfy geht wieder aberder Manager mag nicht mehr mitstarten. Morgen mal weiter schauen. Oder ohne arbeiten.
 
Zuletzt bearbeitet:
ComfyUI hat jetzt "Dynamic VRAM Usage" standardmäßig aktiviert, das hatte aber ein Problem verursacht. Habe grade ComfyUI Update gemacht und der Fehler erscheint nicht mehr (nodes laufen durch) :)

Welcher manager geht nicht mehr? Der custom node manager von ltrdata? Dann lösch seinen Ordner und installier ihn neu. (git clone ... )
 
Zuletzt bearbeitet:
Zurück
Oben