[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

Also zur Steigerung der Qualität (mit fp8-non distilled) Modell:
  • hab ich bisher tatsächlich hauptsächlich die verwendete Auflösung ausmachen können und
  • ggf. ein wenig der/die sampler (ltx verwendet res_2_s).
  • Steps/sigmas erhöhen hat nichts gebracht, wobei ich bei den Sigmas (=steps im 2. Sampler) wissen müsste, welche besser wären, als die vorgegebenen (hier ist insgesamt noch testing ground).
  • FPS erhöhen kann bei Action mäßigen Sachen auf jedenfall was bringen, aber bei langsameren Szenen zu anderen unerwünschten Nebeneffekten führen.
  • Distilled Lora von 1 auf 0.6 im comfyu worfklow würde ich empfehlen, verringert Fehler
 
Keuleman schrieb:
20 Sekunden, 720x480, fett, ngl. Wieder der RTX 4070 Rechner.
Und du kannst mir mal genau sagen was du runtergeladen hast ;)
Meine Versuche mit Videos sind absolutes Versagen. Bisher mit wan2.1_t2v_14B_fp8_scaled getestet, allerdings fehlen die ganzen Einstellungen unter "Video".
Und InPaint suche ich auch noch vergeblich :freak: Schon ein Umstieg...
 
ComfyUI, da ltx-2-19b-distilled-fp8, sogar als safetensors. Als Text Encoder den gemma_3_12B_it_fp8_scaled. Das dann in den Standard Workflow rein. Und alles, was geht, auf CPU. Nach dem Laden der Modelle etc für 10 Sekunden Video übrigens ziemlich exakt eine Minute. Wie gesagt, auf sehr im Schonmodus arbeitender Hardware.
 
  • Gefällt mir
Reaktionen: Tr8or und Dennis_BW
@Keuleman wenn ich dein video sehe und mit welchem Einstellungen in deinem System du arbeitest, besteht ja auch bei mir noch Hoffnung brauchbare kurze Videos zu erstellen. Trotz AMD Nachteil.
 
Zuletzt bearbeitet:
Ja, ist Testerei, die beiden haben gut bei mir funktioniert. Rest vom Flow ist geblieben, halt alles, was geht, ab in den RAM geschoben.
 
@Keuleman Das könnte eine Werbung für einen Prompt Generator sein :D
@Tr8or ich schreibe Dir gleich mal ein paar Tipps dazu. Wenn du im comfyui workflow Bereich mit workflows von außerhalb oder Templates arbeiten möchtest, ist noch zu beachten, dass du entweder in comfyui oder swarmui das Modell-Verzeichnis anpasst, damit entweder die Modelle schon comfyui konform liegen oder comfyui zusätzlich im swarm-verzeichnis die Modelle sieht (kann dir das gerne auch genau erklären).

Wenn Du zb das ComfyUI Modell Verzeichnis benutzt, dann kannst Du es in SwarmUI wie auf dem Screenshot einstellen (comfyui Verzeichnis anpasse, wo es auf Deinem PC liegt), danach sieht sowohl SwarmUI alles, was es braucht, als auch die Workflows in ComfyUI (/-Bereich):
1768384923872.png


Inpainting ist einfach. Du wählst ein Bild aus (entweder aus History oder was grade erstellt wurde, dann gehst Du auf "Edit image"). Dann öffnet sich eine Arbeitsfläche mit dem Bild und Tools, wie einem Pinsel, mit dem Du den Bereich markieren kannst.

1768385475920.png


Auf der linken Seite unter 1: Kannst Du das Denoising einstellen, hier genannt Creativity und unter 2 die Option ist das, was in anderen Tools häufig "inpaint masked only" oder ähnlich heißt, dann schaut sich das Modell nur den Markierten Bereich in der vollen Auflösung an. Kann besser sein, aber kann auch wegen fehlendem Kontext nochmal herausfordernd sein. Praktisch dabei: Du hast einen Wert, mit dem Du den BIldauschnitt, der betrachtet wird so anpassen kannst, das genügend Kontext da ist, und trotzdem mit höherer Auflösung in dem Bereich gearbeitet werden kann. (Du siehst im Preview, bei der Bearbeitung auch welcher Bereich um die Maske herum betrachtet wird.)

SwarmUI ist nicht primär auf Video ausgelegt, aber unterstützt es häufig. Es ist ein Tool für die vereinfachte Anwendung von Bilderstellung/-bearbeitung und Verwaltung der Modelle/Bilder usw. mit Hilfe von ComfyUI als Backend. Ich selbst wechsele für Video in den comfyui-workflow Bereich.

Diese Seiten für Modelle in SwarmUI am besten bookmarken, da steht welche Werte empfohlen sind, wie die Anwendung erfolgt, welche Dateien benötigt werden pro Modell: Bild und Video.
 
  • Gefällt mir
Reaktionen: Tr8or und ChatGehPeeTee
@MechanimaL Genau dafür isses gedacht :-) Übung für "brand" Bildgenerierung mit ComfyUI. So Kurs-mäßig, ganz basic gehalten: was kann man machen (Einfärben, generieren, verändern) und dann den "Wow-Effekt" zeigen :-) "It's all in the prompt" so als "Du hast es in der Hand".

Ja, ist Spielerei von mir :-P
 
Dank Euch beiden.
Ich habe es erstmal aufgegeben und werde die Tage wieder frisch rangehen.
ltx-2-19b-distilled-fp8 konnte nicht geladen werden, da die Datei nicht existiert. Aber sie liegt da wo sie sein soll.
 
Keuleman schrieb:
20 Sekunden, 720x480, fett, ngl. Wieder der RTX 4070 Rechner.

@MechanimaL

346 Sekunden mit Gedönz laden.

Welche Software braucht man dafür alles? 😅
Gibt’s dafür „easy“ installer?

Edit: Ah ok
 
Zuletzt bearbeitet:
@ChatGehPeeTee Für rein Video-Erstellung kommt wohl am ehesten comfyui (maximale Freiheit und Möglichkeiten) oder wan2gp in Frage. Über das vorgegebene Script in Pinokio hat es bei mir grade ne Schleife beim Starten produziert, naja.. comfyui portable runterladen, entpacken und run_nvida_gpu.bat ausführen. Wenn es gestartet ist gehst Du oben auf das C und zu "Browse Templates". Dort LTX2 text2video (zb.) auswählen. Dann musst Du noch models runterladen, aber kannst im Prinzip starten, in dem Workflow selbst müsste schon angezeigt werden, welche modelle und wo sie hingehören.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: ChatGehPeeTee
Richtig, und da im Template kann man dann auch z.B. "kleinere" Modelle, wie bei mir angegeben, auswählen.
 
Danke, das hat echt super und einfach funktioniert. Was meinst du mit dem Template?^^
Gibts eig sowas auch für Picture2Video was gut funktioniert? Hat da jemand Erfahrung oder eine Empfehlung

Und bezüglich Text2Video.. negativprompt geht da nicht?
 
Zuletzt bearbeitet:
Bei den vorgegebenen Workflows ist auch image 2 video dabei. Du gehst in comfyui oben auf das C dann "Browse Templates" da kannst du filtern zb nach "model filter" LTX2, was dann so aussieht:
1768419578565.png
 
  • Gefällt mir
Reaktionen: ChatGehPeeTee
Top danke und negativ prompt kann man nicht einfügen oder? danach höre ich auf sorry^^
 
Doch im 1. Sampler schon, sofern nicht "distilled workflow" verwendet wird. Es gibt einen der ist mit einem "distilled" Model, das arbeitet mit CFG1, da kommt kein negatives prompt vor, beim anderen Workflow Typ gibt es hingegen ein negatives Prompt (im 1. Sampler, mit cfg4). Um das zu sehen, musst Du den Subgraph ausklappen:
1768422439923.png
 
  • Gefällt mir
Reaktionen: ChatGehPeeTee
Ich kann sogar auf 1280*720 gehen, 5 Sekunden. Bei der niedrigeren Auflösung ist bei 20 Sekunden Ende.
Anbei noch ein Testvideo, ich habe mich an einem bekannten Actionfilm aus dem Thread hier orientiert ;-D
 

Anhänge

  • LTX-2_00063_.mp4
    1,2 MB
  • Gefällt mir
Reaktionen: Dennis_BW
Wer ein LTX2-Modell mit "distilled" im Namen benutzt, sollte es neu laden. Es war versehentlich eine ältere VAE in dem Modell integriert und mit der richtigen neueren, verbessert sich die Qualität.

https://huggingface.co/Lightricks/LTX-2/tree/main
 
  • Gefällt mir
Reaktionen: ChatGehPeeTee, Keuleman und Dennis_BW
Was muss man dann noch neu laden?
 
Zurück
Oben