[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

Keuleman · 27. Januar 2026

MechanimaL · 28. Januar 2026

Dennis_BW schrieb:
Z-Image wurde veröffentlicht
https://huggingface.co/Tongyi-MAI/Z-Image

Wollts auch grad posten, gut aufgepasst

hier sind die Files für ComfyUI (die haben auch schon ein Template gemacht).

https://huggingface.co/Comfy-Org/z_image/tree/main/split_files

fp8:
https://huggingface.co/drbaph/Z-Image-fp8/tree/main

Tr8or · 28. Januar 2026

Ich versuche seit Tagen einen Teddybär (meinen) als Hauptdarsteller in ein Video zu integrieren.
I2V funktioniert leider nicht, da der Teddy immer auf seinen Hintergrund beschränkt ist. Ich vermute, T2V sollte gehen, wenn ich den Teddy als Foto irgendwie einpflege. Aber wo? Bei Imageerstellung ist Bildnutzung ja recht einfach.
Oder muss beim Video tatsächlich eine eigene Lora odgl erstellt werden um die 3D Ansicht des Teddys zu haben? Sollte nicht auch ein Foto mit allen 4 Seiten ausreichen? Fragen über Fragen...
Comfy/SwarmUI

Keuleman · 28. Januar 2026

Ich würde mir einen HIntergrund / Umgebung generieren, in der der Teddy sein Ding machen soll. Und dann ein Bild vom Teddy und den Hintergrund in Qwen "verheiraten" als STart-Frame fürs Video. Und dann Image to Video machen.

MechanimaL · 28. Januar 2026

Also wo genau ist das Problem mit dem Teddy? Du kannst ihn ja mit Flux klein oder Qwen image in eine x beliebige Umgebung setzen und dann eine szene damit erstellen?

Also mit Qwen Image Edit 2511 kann man alle möglichen Winkel einer Szene erstellen. Dafür gibts auch noch ne Node um es ohne Prompting sondern mit ner optischen Ansicht einzustellen, welchen Winkel man möchte.

blubberbirne · 28. Januar 2026

LTX2 mit Custom Audio. WAN bekommt das nicht so gut hin.

Keuleman · 28. Januar 2026

Ok. Custom Audio = eigene Musik / whatever. Wie? Ich kann nur Audio "mitgenerieren".

MechanimaL · 28. Januar 2026

Ja sehr schön, dass kann es ziemlich gut. Falls Du dem Banodoco Discord folgst, hast Du vll auch die Ansätze von VRGamerGirl verfolgt, die schon länger an einem Workflow arbeitet, zur erstellung ganzer Musikvideos (der auch dort unter ltx ressources zu finden ist). Das neuste Ergebnis von ihr ist ein 5 min Musikvideo mit LTX und Z Image erstellt. https://discord.com/channels/1076117621407223829/1138790534987661363/1464368142938800283 (Keine Ahnung ob man das wird öffnen können ^^)

Keuleman · 28. Januar 2026

Ah, bin nicht (mehr) bei Discord unterwegs. Ist mir zu wuselig gewesen :-D Aber irgendwann wird es bestimmt einen Workflow geben, an den ich auch ran komme. 5 Minuten klingt krass! Link geht nicht, passt aber schon. Hat bestimmt auch mega Hardware am Start.

blubberbirne · 28. Januar 2026

Ich muss mich auch mal daran versuchen meine mit Suno erstellen Songs in ein Video zu verwurschteln.
Aber dazu fehlt mir einfach die Zeit. Das Video von VRGamerGirl ist nicht schlecht. Ich denke sowas bekomme ich auch hin. Mal schauen was die Zeit so mit sich bringt.

Ich teste gerade ob LTX2 auch ein 3:30 Audio File direkt Lipsync in ein Video packen kann. Bin gerade bei 24% und noch kein OOM in sicht

Keuleman · 28. Januar 2026

Ui! Aber klar, RTX 5090, da geht schon was ;-D Ich suche mal einen ansprechenden Workflow "mp3+Bild=bäm".

MechanimaL · 28. Januar 2026

Hier mal ein lipsync workflow @Keuleman (hab ihn selbst nicht getestet, aber ergebnisse davon gesehen)

Keuleman · 28. Januar 2026

sieht vielversprechend aus! Muss mir aber, wenn ich Zeit habe, erst mal die custom nodes dazu ziehen. LTXVSpatioTemproalTiledVAEDecode. Zungenbrecher für temporale Konsistenz, vermute ich ;-D Vielen Dank Dir!

blubberbirne · 28. Januar 2026

@MechanimaL Den Workflow kenne ich. Hat bei mir nicht funktioniert

Ich nutze den im Anhang. Ist auch etwas aufgeräumter.

EDIT: Bin bei 84%. Mal schauen ob der Workflow bei 3min 30sek auch den VAE Decoder packt

Keuleman · 28. Januar 2026

Wenn der 3min 30 packt... dann kriege ich den auch auf meine normalo Hardware zurecht gestutzt :-)

1280p, RTX 4070 :-) Nur 5 Sekunden aber lauffähig gebracht. Nicht mal gguf.

blubberbirne · 29. Januar 2026

Hat leider nicht geklappt. Beim Upscaler verließen sie ihn. Zwar kein OOM, aber die GPU muss zuviel im RAM auslagern. Ich haben Workflow nach 60min im Upscaler Abgebrochen.

Keuleman · 29. Januar 2026

Ohne jetzt genau gesehen zu haben: Upscaling braucht ja wirklich extrem viel Leistung, ich habe letztens einmal ein 15 Sekunden Video upgescaled, das hat auf der 4070 eine ganze Stunde gedauert. Vielleicht erstmal nur die native Auflösung, auch wenn die niedriger ist?

MechanimaL · 29. Januar 2026

nochmal kurz zu Z-Image "Base". Muss meine Aussage von weiter oben etwas revidieren, das EIGENTLICHE Base Modell heißt Omni. Das häufig z-image base genannte, jetzt erschienene, ist schon ein finetune davon, allerdings kann darauf aufgebaut werden, mit community finetunes/LORAs usw.:

Direkte Vorteile von z-image gegenüber z-image-turbo:

Wesentlich mehr Unterschiede bei verschiedenem Seed. Bei Turbo hatte man häufig das gleiche oder ähnliche Bild/Gesicht.
Negativ Prompt/CFG: Bessere Einflussmöglichkeiten auf den Output

(Besonders gute Quliatät bekomme ich aber zumindest jetzt noch nicht aus dem Modell. Ergebnisse sehen unfertig aus.)

Meta.Morph · 29. Januar 2026

Jedes Modell hat noch Stärken und Schwächen.

Aber Flux 2 gefällt mir immer besser!

Ich hatts schon erwäht: ich arbeite mit Krita AI Diffusion.

Damit kann man sehr gut die jeweiligen Stärken der Modelle einsetzen.
SDXL Modelle sind in einigen Situationen doch "Kreativer" und haben einen eigenen Stil. Wenn man dann noch mit Flux drüber geht, kann man noch den Realismus Touch mitnehmen. Sehr oft werden dann auch noch Hände und das Gesicht gefixt. Noch vor einiger Zeit hat man dafür eigene Tools genutzt, um die Fehler der SDXL-Modelle entgegenzuwirken.

blubberbirne schrieb:
Hat leider nicht geklappt. Beim Upscaler verließen sie ihn. Zwar kein OOM, aber die GPU muss zuviel im RAM auslagern. Ich haben Workflow nach 60min im Upscaler Abgebrochen.

Mit welchem Tool/ Workflow machst du das?

blubberbirne · 29. Januar 2026

Habe ich weiter oben gepostet

[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

Lt. Junior Grade

Lt. Commander

Commander

Lt. Junior Grade

Lt. Commander

Lt. Commander

Lt. Junior Grade

Lt. Commander

Lt. Junior Grade

Lt. Commander

Lt. Junior Grade

Lt. Commander

Anhänge

Lt. Junior Grade

Lt. Commander

Anhänge

Lt. Junior Grade

Lt. Commander

Lt. Junior Grade

Lt. Commander

Meta.Morph

Gast

Lt. Commander