Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden.
Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)
- Ersteller MechanimaL
- Erstellt am
- Registriert
- Nov. 2005
- Beiträge
- 1.196
Wollts auch grad posten, gut aufgepasstDennis_BW schrieb:Z-Image wurde veröffentlicht
https://huggingface.co/Tongyi-MAI/Z-Image
https://huggingface.co/Comfy-Org/z_image/tree/main/split_files
fp8:
https://huggingface.co/drbaph/Z-Image-fp8/tree/main
Ich versuche seit Tagen einen Teddybär (meinen) als Hauptdarsteller in ein Video zu integrieren.
I2V funktioniert leider nicht, da der Teddy immer auf seinen Hintergrund beschränkt ist. Ich vermute, T2V sollte gehen, wenn ich den Teddy als Foto irgendwie einpflege. Aber wo? Bei Imageerstellung ist Bildnutzung ja recht einfach.
Oder muss beim Video tatsächlich eine eigene Lora odgl erstellt werden um die 3D Ansicht des Teddys zu haben? Sollte nicht auch ein Foto mit allen 4 Seiten ausreichen? Fragen über Fragen...
Comfy/SwarmUI
I2V funktioniert leider nicht, da der Teddy immer auf seinen Hintergrund beschränkt ist. Ich vermute, T2V sollte gehen, wenn ich den Teddy als Foto irgendwie einpflege. Aber wo? Bei Imageerstellung ist Bildnutzung ja recht einfach.
Oder muss beim Video tatsächlich eine eigene Lora odgl erstellt werden um die 3D Ansicht des Teddys zu haben? Sollte nicht auch ein Foto mit allen 4 Seiten ausreichen? Fragen über Fragen...
Comfy/SwarmUI
- Registriert
- Nov. 2005
- Beiträge
- 1.196
Also wo genau ist das Problem mit dem Teddy? Du kannst ihn ja mit Flux klein oder Qwen image in eine x beliebige Umgebung setzen und dann eine szene damit erstellen?
Also mit Qwen Image Edit 2511 kann man alle möglichen Winkel einer Szene erstellen. Dafür gibts auch noch ne Node um es ohne Prompting sondern mit ner optischen Ansicht einzustellen, welchen Winkel man möchte.
Also mit Qwen Image Edit 2511 kann man alle möglichen Winkel einer Szene erstellen. Dafür gibts auch noch ne Node um es ohne Prompting sondern mit ner optischen Ansicht einzustellen, welchen Winkel man möchte.
Zuletzt bearbeitet:
blubberbirne
Lt. Commander
- Registriert
- Okt. 2005
- Beiträge
- 1.693
LTX2 mit Custom Audio. WAN bekommt das nicht so gut hin.
- Registriert
- Nov. 2005
- Beiträge
- 1.196
Ja sehr schön, dass kann es ziemlich gut. Falls Du dem Banodoco Discord folgst, hast Du vll auch die Ansätze von VRGamerGirl verfolgt, die schon länger an einem Workflow arbeitet, zur erstellung ganzer Musikvideos (der auch dort unter ltx ressources zu finden ist). Das neuste Ergebnis von ihr ist ein 5 min Musikvideo mit LTX und Z Image erstellt. https://discord.com/channels/1076117621407223829/1138790534987661363/1464368142938800283 (Keine Ahnung ob man das wird öffnen können ^^)
Keuleman
Lt. Junior Grade
- Registriert
- Aug. 2014
- Beiträge
- 386
Ah, bin nicht (mehr) bei Discord unterwegs. Ist mir zu wuselig gewesen :-D Aber irgendwann wird es bestimmt einen Workflow geben, an den ich auch ran komme. 5 Minuten klingt krass! Link geht nicht, passt aber schon. Hat bestimmt auch mega Hardware am Start.
blubberbirne
Lt. Commander
- Registriert
- Okt. 2005
- Beiträge
- 1.693
Ich muss mich auch mal daran versuchen meine mit Suno erstellen Songs in ein Video zu verwurschteln.
Aber dazu fehlt mir einfach die Zeit. Das Video von VRGamerGirl ist nicht schlecht. Ich denke sowas bekomme ich auch hin. Mal schauen was die Zeit so mit sich bringt.
Ich teste gerade ob LTX2 auch ein 3:30 Audio File direkt Lipsync in ein Video packen kann. Bin gerade bei 24% und noch kein OOM in sicht
Aber dazu fehlt mir einfach die Zeit. Das Video von VRGamerGirl ist nicht schlecht. Ich denke sowas bekomme ich auch hin. Mal schauen was die Zeit so mit sich bringt.
Ich teste gerade ob LTX2 auch ein 3:30 Audio File direkt Lipsync in ein Video packen kann. Bin gerade bei 24% und noch kein OOM in sicht
- Registriert
- Nov. 2005
- Beiträge
- 1.196
blubberbirne
Lt. Commander
- Registriert
- Okt. 2005
- Beiträge
- 1.693
@MechanimaL Den Workflow kenne ich. Hat bei mir nicht funktioniert 
Ich nutze den im Anhang. Ist auch etwas aufgeräumter.
EDIT: Bin bei 84%. Mal schauen ob der Workflow bei 3min 30sek auch den VAE Decoder packt
Ich nutze den im Anhang. Ist auch etwas aufgeräumter.
EDIT: Bin bei 84%. Mal schauen ob der Workflow bei 3min 30sek auch den VAE Decoder packt
Anhänge
blubberbirne
Lt. Commander
- Registriert
- Okt. 2005
- Beiträge
- 1.693
Hat leider nicht geklappt. Beim Upscaler verließen sie ihn. Zwar kein OOM, aber die GPU muss zuviel im RAM auslagern. Ich haben Workflow nach 60min im Upscaler Abgebrochen.
Keuleman
Lt. Junior Grade
- Registriert
- Aug. 2014
- Beiträge
- 386
Ohne jetzt genau gesehen zu haben: Upscaling braucht ja wirklich extrem viel Leistung, ich habe letztens einmal ein 15 Sekunden Video upgescaled, das hat auf der 4070 eine ganze Stunde gedauert. Vielleicht erstmal nur die native Auflösung, auch wenn die niedriger ist?
- Registriert
- Nov. 2005
- Beiträge
- 1.196
nochmal kurz zu Z-Image "Base". Muss meine Aussage von weiter oben etwas revidieren, das EIGENTLICHE Base Modell heißt Omni. Das häufig z-image base genannte, jetzt erschienene, ist schon ein finetune davon, allerdings kann darauf aufgebaut werden, mit community finetunes/LORAs usw.:
Direkte Vorteile von z-image gegenüber z-image-turbo:
Direkte Vorteile von z-image gegenüber z-image-turbo:
- Wesentlich mehr Unterschiede bei verschiedenem Seed. Bei Turbo hatte man häufig das gleiche oder ähnliche Bild/Gesicht.
- Negativ Prompt/CFG: Bessere Einflussmöglichkeiten auf den Output
Zuletzt bearbeitet:
Meta.Morph
Lieutenant
- Registriert
- März 2022
- Beiträge
- 657
Jedes Modell hat noch Stärken und Schwächen.
Aber Flux 2 gefällt mir immer besser!
Ich hatts schon erwäht: ich arbeite mit Krita AI Diffusion.
Damit kann man sehr gut die jeweiligen Stärken der Modelle einsetzen.
SDXL Modelle sind in einigen Situationen doch "Kreativer" und haben einen eigenen Stil. Wenn man dann noch mit Flux drüber geht, kann man noch den Realismus Touch mitnehmen. Sehr oft werden dann auch noch Hände und das Gesicht gefixt. Noch vor einiger Zeit hat man dafür eigene Tools genutzt, um die Fehler der SDXL-Modelle entgegenzuwirken.
Aber Flux 2 gefällt mir immer besser!
Ich hatts schon erwäht: ich arbeite mit Krita AI Diffusion.
YouTube
An dieser Stelle steht ein externer Inhalt von YouTube, der den Forumbeitrag ergänzt. Er kann mit einem Klick geladen und auch wieder ausgeblendet werden.
Ich bin damit einverstanden, dass YouTube-Embeds geladen werden. Dabei können personenbezogene Daten an YouTube übermittelt werden. Mehr dazu in der Datenschutzerklärung.
Damit kann man sehr gut die jeweiligen Stärken der Modelle einsetzen.
SDXL Modelle sind in einigen Situationen doch "Kreativer" und haben einen eigenen Stil. Wenn man dann noch mit Flux drüber geht, kann man noch den Realismus Touch mitnehmen. Sehr oft werden dann auch noch Hände und das Gesicht gefixt. Noch vor einiger Zeit hat man dafür eigene Tools genutzt, um die Fehler der SDXL-Modelle entgegenzuwirken.
Mit welchem Tool/ Workflow machst du das?blubberbirne schrieb:Hat leider nicht geklappt. Beim Upscaler verließen sie ihn. Zwar kein OOM, aber die GPU muss zuviel im RAM auslagern. Ich haben Workflow nach 60min im Upscaler Abgebrochen.
blubberbirne
Lt. Commander
- Registriert
- Okt. 2005
- Beiträge
- 1.693
Habe ich weiter oben gepostet 