[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

Hier ist eine gute Anleitung für Stable Video Diffusion - ist zwar doch leider noch sehr rudimentär und eingeschränkt was Auflösung, Länge und Framerate betrifft, aber es lassen sich brauchbare Ergebnisse erzielen.


Mit meiner RTX 3070 benötige ich pro Video ca 1:30min zum generieren. Die Inputbilder kommen alle aus Midjourney, aber sicherlich kann man sich da auch etwas passendes in ComfyUI bauen.

Ich bin gerade an einem weiteren AI Video Projekt dran - ein kleiner SciFi Trailer. Für mich persönlich liefert die besten Image2Video Ergebnisse zur Zeit Runaway Gen2, welches ja auch gerade ein dickes Uprgrade in Form von Motion Brushes bekommen hat. Leider waren meine Credits für diesen Monat schon aufgebraucht bevor das Update kam.







 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: MechanimaL
Hier das finale Werk, ein fiktiver Trailer
Ghost in the Shell - City of Mirrors

Tools und Programme die ich genutzt habe:
Image: Midjourney
Image2Video: Runaway Gen2, Pika and Stable Video Diffusion
Depth Map: Runaway, Midas, Photoshop Neural Network Filter and Depth Scanner AE Plugin
Upscale: Topaz Video AI
NLE & Sound: Premiere Pro
GFX: After Effects

 
Zuletzt bearbeitet:
Stability AI hat Würstchen umgesetzt - lang lebe Stable Cascade.

https://stability.ai/news/introducing-stable-cascade

Weil das zwei-Modell-Prinzip von SDXL nicht schon nervig genug war gibt's jetzt von jedem Modell zwei Versionen :D
Thanks to Stable Cascade’s modular approach, the expected VRAM requirements for inference can be kept to approximately 20gb but can be further lowered by using the smaller variants
Uff. Wer keine RTX 3090 / 4090 hat ist da erstmal raus bzw. muss auf die kleineren - schlechteren - Versionen zurückgreifen. Das wird in der Community wohl eher lauwarm ankommen...
 
  • Gefällt mir
Reaktionen: MechanimaL
Thanks to Stable Cascade’s modular approach, the expected VRAM requirements for inference can be kept to approximately 20gb but can be further lowered by using the smaller variants
Das nenne ich mal eine schlanke Pipeline :D
 
Wenn Sora bietet was die Homepage verspricht dann ist openai allen anderen in Text2Video unglaublich weit voraus...

https://openai.com/sora
 
  • Gefällt mir
Reaktionen: SpartanerTom
@MechanimaL Ich würde im Start-Post statt A1111 jetzt die Forge-WebUI empfehlen.

Das ist eine Variante von A1111 mit einer Vielzahl von Verbesserungen, am wichtigsten:
  • Deutlich verbessertes Speichermanagement
  • Controlnet (und einige andere Addins) direkt integriert

Karten mit 6~8GB VRAM haben extreme Verbesserungen was die Geschwindigkeit angeht, insbesondere mit SDXL.
Mit meiner RTX 4090 merke ich bei 'normalen' Auflösungen nichts, aber beim Upscaling konnte ich 5120x2160 ohne irgendwelche Tricks erreichen und 3440x1440 passst locker in den VRAM der GPU.
 
Hört sich an als konnten sie einen Teil des exzellenten Fooocus Backends in ein etwas offeneres General Purpose WebUI portieren.

Werde es mir definitiv mal anschauen.
 
StableCascade hat jetzt ersten Support in ComfyUI und läuft (nach kurzem Plausch mit dem Entwickler) auch auf meiner ROCm Mühle.

Hier mal ein allererstes (unoptimiertes) Ergebnis eines minimalen Workflows:
ComfyUI_00023_.png


Generation funktioniert mit dieser Pipeline auch in hohen Auflösungen bei mir (ob das Ergebnis entsprechend gut ist und ob das für die Modelle vs Upscaling sinnvoll ist sei an dieser Stelle mal dahin gestellt). 1440p hat etwa 13GB VRAM benötigt (mit den BF16 models) und hat auf meiner RX6800 240s gerechnet.
 
  • Gefällt mir
Reaktionen: MechanimaL und Rickmer
Rickmer schrieb:
@MechanimaL Ich würde im Start-Post statt A1111 jetzt die Forge-WebUI empfehlen.
Ja, das werde ich wahrscheinlich machen!

Ich bin selbst dabei, mir Forge-Webui näher anzusehen, d.h. insbesondere die Features, die noch nicht in A1111 sd-webui enthalten waren.

Wer webui-forge parallel zu A1111 testweise installieren möchte, kann es einfach so machen:

Die gepackte Datei hier runterladen

Einen neuen Ordner (am besten ohne Leerzeichen in der Ordnerstruktur) dafür erstellen und das 7z-Paket dort entpacken.

update.bat ausführen

In den webui-forge gehen und dort die datei webui-user.bat mit dem Editor öffnen und sie wie folgt ändern, damit sie weiß, wo der A1111- Ordner ist (dadurch benutzt du alle models usw. wie sie bereits installiert sind). "e:/SD/stable-diffusion-webui" durch den Pfad zu A1111-webui auf deinem System entsprechend ersetzen.

@echo off

set PYTHON=
set GIT=
set VENV_DIR=e:/SD/stable-diffusion-webui
set COMMANDLINE_ARGS=--forge-ref-a1111-home e:/SD/stable-diffusion-webui
call webui.bat

Anschließend mit run.bat starten (update via update.bat manuell oder man fügt wieder git pull in die webui-user.bat ein)
 
SpartanerTom schrieb:
Hier mal ein allererstes (unoptimiertes) Ergebnis eines minimalen Workflows:
Ich habe jetzt auch etwas mehr damit rumexperimentiert und, naja... ich glaube nicht, dass SDXL sich noch lange halten wird.

Ich hoffe, dass Leute ihre Trainings-Sets für SDXL nicht gelöscht haben, weil die können für Forge Stable Cascade vermutlich 1zu1 wieder verwendet werden und dürften laut Stability AI deutlich weniger Trainingsaufwand benötigen.

CivitAI hat mittlerweile auch eine Kathegorie für Forge Stable Cascade. Mal schauen wie lange es dauert, bis das in den gängigen UIs offiziell implementiert ist.
Wobei natürlich auch ein bisschen die offene Frage ist - wenn das in der Forschungs-Vorschau ist, wird da nochmal was von OpenAI kommen in den nächsten Wochen?
 
Zuletzt bearbeitet:
@Rickmer Wie meinst du das genau? Ich dachte das Forge eher ein Backend ist, dass das schwere Heben und vor allem die Speicherveraltung übernimmt. Kann es sein, dass du Forge und Stable Cascade in deinem Post vertauscht hast? Oder kommt Forge auch mit einem eigenen Modell-Format daher das ich bislang übersehen habe?

Ansonsten sieht es nach einem allerersten Test so aus, als sei Stable Cascade deutlich leichter und ressourcenschonender anzuwenden als SDXL. Selbst bei den Standard StabilityAI Modellen, die ja meist sehr schnell von der Community outperformt werden.
 
SpartanerTom schrieb:
Kann es sein, dass du Forge und Stable Cascade in deinem Post vertauscht hast?
Das ist durchaus möglich - fixed
Ergänzung ()

Was bei mir in Stable Cascade überhaupt nicht funktionieren will:

a cat laying on a table and a dog lying under the table

Meistens sind nur zwei Katzen im Bild, ab und zu mal sitzen eine Katze und ein Hund nebeneinander auf dem Tisch. Ein Hund unterm Tisch auf dem eine Katze ist? Niemals.

SDXL schafft das zumindest ca. 1/4 der Versuche und Dall-E3 hat nahezu eine 100% Trefferquote.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: SpartanerTom
Ich möchte gern mit euch mein neustes Werk teilen:

A Tale of Light and Darkness
Der gesamte Prozess für ein Bild von Midjourney bis zum hochskalierten Video hat mich 3:30-4:00 Minuten gekostet. Ich habe an diesem Projekt ca. 40 Stunden gearbeitet und durch die Erfahrungen aus dem letuzten Projekt einen ganz guten Workflow gefunden:
Zuerst hatte ich eine grobe Idee für die Story, den Look und das Artwork von Fantasy-Filme der 80er Jahre zu verwenden, wie Labyrinth, Der Dunkle Crystal, Die unendliche Geschichte etc. Dann habe ich mir eine kleine Geschichte ausgedacht und diese immer weiter verfeinert und den Text für das Voiceover geschrieben und mit Elvenlabs erstellt. Als nächstes habe ich mit Midjourney passende Bilder generiert und sie grob zusammengeschnitten, um eine Layout Sequenz zuerhalten und dann im letzten Schritt alle Bilder via Runaway Gen2 animiert. Der neue Motionbrush war da sehr hilfreich. Mein Basic Prompt für die Bilder war:

movie still from 1986 fantasy film [scene discription], dark fantasy, never ending story, dark Crystal 1980s graphics, high detail, lifelike, directed by Guillermo del Toro, in the style of Labyrinth by Jim Henson --ar 16:9 --v 6
Workflow Image2Animation:
Midjourney -> Topaz GigaPixel (2x Upscale) -> Runaway/Pika -> Topaz Video AI (Preset 2x Upscale/4x Slomo)

Tools:
Text2Image: Midjourey (~500 Pictures)
Imageediting: Photoshop
ImageUpscale: Topaz Gigapixel
Image2Video: Runway Gen2 (~2000 Credits) and Pika (~400Credits)
Voiceover: ElvenlabsVideo
Upscale: Topaz Video AI
NLE: Premiere Pro
Musik: Tom Schikura - durch Glück an einen Komponisten kennengelernt, der Spass daran hat Musiken zuerstellen
SFX: Sounds aus meinem privaten Archiv


Falls ihr noch weitere Fragen oder genaue Details haben wollt - einfach raus damit.
 
  • Gefällt mir
Reaktionen: rosenholz und MechanimaL
Respekt! Wäre interessant, inwiefern das in ähnlicher Qualität auch mit komplett kostenlosen Mitteln zb aus dem Bereich von Stable Diffusion möglich gewesen wäre. Aber da müssen andere ran ^^

Was ich verbessern würde, wäre der Audio Mix und die Stimme, jetzt wo Du schon so eine großartige musikalische Untermalung hast :)

Du hast ja schon eine Anfrage unter dem Video, wenn Du dem die einzelnen Spuren zur Verfügung stellst, kann das noch besser werden. Aktuell sind die Konsonanten der Erzählerstimme zu laut im Vergleich zum Ton der Stimme und an manchen Stellen geht die Stimme zu sehr unter. Evtl müsstest Du die Stimme neu erstellen, aber vielleicht reicht es auch, die Stimm-Spur zu bearbeiten (mit EQ/Compressor) und Sound und Stimme insgesamt in einen besseren Mix zu bringen.
 
  • Gefällt mir
Reaktionen: painomatic
@MechanimaL - ich glaube die Bilder und den Upscale könnte man tatsächlich auch mit Opensource lösen - nur bei den Videos bin ich mir nicht sicher - gerade der Motionbrush von Runaway Gen2 gibt einiges an Controlle. Die Anfrage ist tatsächlich von einen meiner besten Freunde ;) - wobei er nur gern selbst mal das Voiceover einsprechen wollte, also gar nicht den Mix machen.
MechanimaL schrieb:
Evtl müsstest Du die Stimme neu erstellen, aber vielleicht reicht es auch, die Stimm-Spur zu bearbeiten (mit EQ/Compressor) und Sound und Stimme insgesamt in einen besseren Mix zu bringen.
Danke für den Tip und Input.
 
Ich habe ein kleines Update zu meinem Stable Diffusion Leserartikel veröffentlicht.
Getestet wurde SDXL auf ComfyUI, A1111 main und forge sowie Fooocus.

Hier gehts zum Update
 
  • Gefällt mir
Reaktionen: MechanimaL
Habe den Eingangspost ein wenig aktualisiert. Fooocus als Einsteigervorschlag für SD ist dazugekommen, sowie Forge als WEB-UI Variante. Leider lässt die offizielle Forge Doku (im Vergleich zu der von A1111) noch etwas zu wünschen übrig, von daher hab ich an etlichen stellen auch das originale webui weiterhin als Variante drin gelassen. Außerdem habe ich bei den Links vieles weggelöscht, was sich wohl überlebt hat, bzgl. der Relevanz; die Aktualisierung der Links werde ich die Tage noch abschließen; Youtube Channel -Liste ist bereits komplett aktualisiert mit den Channels, wenn ihr noch Vorschläge habt, gerne schicken, ansonsten: Vielleicht findet ihr ja was interessantes darunter :)
 
  • Gefällt mir
Reaktionen: Vigilant und wrglsgrft
So sehr es mir leid tut noch eine UI zu erwähnen, aber man sollte im Startpost zumindest auf die Existenz von Comfy UI hinweisen.
Der größte Pluspunkt ist Flexibilität, weshalb sie häufig die erste UI ist, die neue Features implementiert. Soweit ich das mitbekommen habe wird Comfy auch zumindest zum Teil bei stability AI intern genutzt.
 
Es gibt auch ein eigenes "UI" von StabilityAI welches die Node Architektur als Backend nutzt:

https://github.com/Stability-AI/StableSwarmUI

Ich hab mir das aber noch nie groß angeschaut und kann da auch falsch informiert sein.

Des weiteren hat der Haupt Autor von ComfyUI mittlerweile StabilityAI im Profil stehen
Screenshot_20240322-010131.png


Keine Ahnung wie belastbar das ist.
 
SpartanerTom schrieb:
Das ist so langsam in der Beta angelangt, Sebastian Kamph hatte gestern ein Video dazu gemacht:


@MechanimaL zur Liste der Youtube Kanäle übrigens bitte Not4Talent_AI hinzufügen.
Er lädt nicht of hoch und macht nicht zu jedem heißen Scheiß ein Video, aber von mir hat er ein Sub bekommen weil es immer wieder detaillierte Anleitung zum erstellen von wirklich komplexen Bildern gibt. Beispiele:


 
  • Gefällt mir
Reaktionen: Vigilant und SpartanerTom
Zurück
Oben