[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

z-image_00007_.png
z-image_00003_.png
 
  • Gefällt mir
Reaktionen: Dennis_BW
Ich versuche seit Tagen einen Teddybär (meinen) als Hauptdarsteller in ein Video zu integrieren.
I2V funktioniert leider nicht, da der Teddy immer auf seinen Hintergrund beschränkt ist. Ich vermute, T2V sollte gehen, wenn ich den Teddy als Foto irgendwie einpflege. Aber wo? Bei Imageerstellung ist Bildnutzung ja recht einfach.
Oder muss beim Video tatsächlich eine eigene Lora odgl erstellt werden um die 3D Ansicht des Teddys zu haben? Sollte nicht auch ein Foto mit allen 4 Seiten ausreichen? Fragen über Fragen...
Comfy/SwarmUI
 
Ich würde mir einen HIntergrund / Umgebung generieren, in der der Teddy sein Ding machen soll. Und dann ein Bild vom Teddy und den Hintergrund in Qwen "verheiraten" als STart-Frame fürs Video. Und dann Image to Video machen.
 
  • Gefällt mir
Reaktionen: Tr8or
Also wo genau ist das Problem mit dem Teddy? Du kannst ihn ja mit Flux klein oder Qwen image in eine x beliebige Umgebung setzen und dann eine szene damit erstellen?

Also mit Qwen Image Edit 2511 kann man alle möglichen Winkel einer Szene erstellen. Dafür gibts auch noch ne Node um es ohne Prompting sondern mit ner optischen Ansicht einzustellen, welchen Winkel man möchte.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Tr8or
LTX2 mit Custom Audio. WAN bekommt das nicht so gut hin.

 
Ok. Custom Audio = eigene Musik / whatever. Wie? Ich kann nur Audio "mitgenerieren".
 
Ja sehr schön, dass kann es ziemlich gut. Falls Du dem Banodoco Discord folgst, hast Du vll auch die Ansätze von VRGamerGirl verfolgt, die schon länger an einem Workflow arbeitet, zur erstellung ganzer Musikvideos (der auch dort unter ltx ressources zu finden ist). Das neuste Ergebnis von ihr ist ein 5 min Musikvideo mit LTX und Z Image erstellt. https://discord.com/channels/1076117621407223829/1138790534987661363/1464368142938800283 (Keine Ahnung ob man das wird öffnen können ^^)
 
  • Gefällt mir
Reaktionen: blubberbirne
Ah, bin nicht (mehr) bei Discord unterwegs. Ist mir zu wuselig gewesen :-D Aber irgendwann wird es bestimmt einen Workflow geben, an den ich auch ran komme. 5 Minuten klingt krass! Link geht nicht, passt aber schon. Hat bestimmt auch mega Hardware am Start.
 
Ich muss mich auch mal daran versuchen meine mit Suno erstellen Songs in ein Video zu verwurschteln.
Aber dazu fehlt mir einfach die Zeit. Das Video von VRGamerGirl ist nicht schlecht. Ich denke sowas bekomme ich auch hin. Mal schauen was die Zeit so mit sich bringt.

Ich teste gerade ob LTX2 auch ein 3:30 Audio File direkt Lipsync in ein Video packen kann. Bin gerade bei 24% und noch kein OOM in sicht :daumen:
 
Ui! Aber klar, RTX 5090, da geht schon was ;-D Ich suche mal einen ansprechenden Workflow "mp3+Bild=bäm".
 
Hier mal ein lipsync workflow @Keuleman (hab ihn selbst nicht getestet, aber ergebnisse davon gesehen)
 

Anhänge

sieht vielversprechend aus! Muss mir aber, wenn ich Zeit habe, erst mal die custom nodes dazu ziehen. LTXVSpatioTemproalTiledVAEDecode. Zungenbrecher für temporale Konsistenz, vermute ich ;-D Vielen Dank Dir!
 
@MechanimaL Den Workflow kenne ich. Hat bei mir nicht funktioniert :(

Ich nutze den im Anhang. Ist auch etwas aufgeräumter.

EDIT: Bin bei 84%. Mal schauen ob der Workflow bei 3min 30sek auch den VAE Decoder packt :freak:
 

Anhänge

Wenn der 3min 30 packt... dann kriege ich den auch auf meine normalo Hardware zurecht gestutzt :-)

1280p, RTX 4070 :-) Nur 5 Sekunden aber lauffähig gebracht. Nicht mal gguf.
 
Hat leider nicht geklappt. Beim Upscaler verließen sie ihn. Zwar kein OOM, aber die GPU muss zuviel im RAM auslagern. Ich haben Workflow nach 60min im Upscaler Abgebrochen.
 
Ohne jetzt genau gesehen zu haben: Upscaling braucht ja wirklich extrem viel Leistung, ich habe letztens einmal ein 15 Sekunden Video upgescaled, das hat auf der 4070 eine ganze Stunde gedauert. Vielleicht erstmal nur die native Auflösung, auch wenn die niedriger ist?
 
nochmal kurz zu Z-Image "Base". Muss meine Aussage von weiter oben etwas revidieren, das EIGENTLICHE Base Modell heißt Omni. Das häufig z-image base genannte, jetzt erschienene, ist schon ein finetune davon, allerdings kann darauf aufgebaut werden, mit community finetunes/LORAs usw.:
1769677827962.png

Direkte Vorteile von z-image gegenüber z-image-turbo:
  • Wesentlich mehr Unterschiede bei verschiedenem Seed. Bei Turbo hatte man häufig das gleiche oder ähnliche Bild/Gesicht.
  • Negativ Prompt/CFG: Bessere Einflussmöglichkeiten auf den Output
(Besonders gute Quliatät bekomme ich aber zumindest jetzt noch nicht aus dem Modell. Ergebnisse sehen unfertig aus.)
 
Zuletzt bearbeitet:
Jedes Modell hat noch Stärken und Schwächen.

Aber Flux 2 gefällt mir immer besser!

Ich hatts schon erwäht: ich arbeite mit Krita AI Diffusion.

Damit kann man sehr gut die jeweiligen Stärken der Modelle einsetzen.
SDXL Modelle sind in einigen Situationen doch "Kreativer" und haben einen eigenen Stil. Wenn man dann noch mit Flux drüber geht, kann man noch den Realismus Touch mitnehmen. Sehr oft werden dann auch noch Hände und das Gesicht gefixt. Noch vor einiger Zeit hat man dafür eigene Tools genutzt, um die Fehler der SDXL-Modelle entgegenzuwirken.

blubberbirne schrieb:
Hat leider nicht geklappt. Beim Upscaler verließen sie ihn. Zwar kein OOM, aber die GPU muss zuviel im RAM auslagern. Ich haben Workflow nach 60min im Upscaler Abgebrochen.
Mit welchem Tool/ Workflow machst du das?
 
Habe ich weiter oben gepostet ;)
 
  • Gefällt mir
Reaktionen: Keuleman und Meta.Morph
Zurück
Oben