[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

und da das fp8 Modell von Kijai kein Checkpoint mit VAE usw. inklusive ist, benötigt man für dieses einen entsprechenden Workflow mit Loadern für diese einzelnen Parts, wie z.B. hier angeboten.

Hier ist noch ein fp8 checkpoint, der mit den comfyui template workflows funktionieren sollte.

edit: und hier der offizielle (etwas größer)
 
Zuletzt bearbeitet:
Keuleman schrieb:
EDIT: Kijai hat... unglaublich:
Das
Ging schnell 😬

Was denkt ihr, welche Hardware braucht die FP8 Version? Sind ja auch noch über 23 GB nur das Model.
 
Probieren geht über Studieren ^^ Es ist am Ende auch eine Frage, wieviel RAM zur Verfügung steht, welche Auflösung verwendet wird und welche Dauer für einen selbst vertretbar ist. Hier noch die kleineren gguf Modelle, die bisher glaube ich noch nicht verlinkt wurden: https://huggingface.co/unsloth/LTX-2.3-GGUF/tree/main
 
Zuletzt bearbeitet:
MechanimaL schrieb:
Probieren geht über Studieren ^^ Es ist am Ende auch eine Frage, wieviel RAM zur Verfügung steht, welche Auflösung verwendet wird und welche Dauer für einen selbst vertretbar ist. Hier noch die kleineren gguf Modelle, die bisher glaube ich noch nicht verlinkt wurden: https://huggingface.co/unsloth/LTX-2.3-GGUF/tree/main
Danke für den Link. Das wird vielleicht mal einen Versuch wert sein mit meiner 9070XT und 32GB RAM
 
Bin noch etwas zu blöd, den LTX2.3 FP8 Checkpoint lauffähig in meinen Audio und Bild zu Video Flow zu bringen... kurz davor... aber...
 

Anhänge

  • LTX-2_00006-audio.mp4
    6,4 MB
Gibt es eigentlich schon Videogeneratoren die man mit umfangreichem Videomaterial füttern kann und man dann praktisch mit nem Drehbuch Prompt auf dessen Basis neue Szenen erzeugen kann?
Es ist schon erstaunlich was die schon mittels einem oder zwei Standbildern und bissel prompt hervorbringen.
Was könnte man dann erst mit mehreren Stunden an Videomaterial zaubern! 🤔
 
@Keuleman mh bei mir funktioniert das. Hast Du drauf geachtet: Distilled vs non-distilled Model und bei non-distilled die richtige Lora (auch neu)?

Ah und Kijai Nodes auf nightly stellen und updaten! (hoffe du hast wieder den Manager ;D )
 
Zuletzt bearbeitet:
Hm, ich habe das normale dev FP8er. Das offizielle Distilled ist ja noch Status "coming soon". Das ist es? Lora nicht drin... ich teste mal manuell einfügen.

EDIT: die Artefakte sind weg aber... es hat nun sehr viel Fantasie X-D
 

Anhänge

  • LTX-2_00010-audio.mp4
    1,2 MB
  • LTX-2_00014-audio.mp4
    2,3 MB
Zuletzt bearbeitet:
hast du einen Workflow der (wie ursprünglich) diese Upscaler beinhaltet? da hab ich gelesen, man sollte beide gemeinsam verwenden (temporal+spatial) für bessere Quatlität.
 
Also, das ist im Prinzip der gleiche, den ich auch benutzt habe. Unterschiede: Bei der Stärke der LORA auf 0.6 runtergehen, zumindest war das bei ltx2 der Grund, warum man nicht gleich den distilled checkpoint benutzt hat (der hat die lora mit 1.0 drin). dann ist den Prompt extrem kurz. Sampler hatte ich dringelassen, was war, aber nicht viel getestet (LCM). Wenn du nicht viel beim Prompt selbst schreiben willst, benutz ein GPT oder so :) Das beschreibt Dir dann deine "natürlichen Bewegungen" für die angegebene Dauer der Szene genauer, so dass vll weniger interpretations-Spielraum besteht ^^
 
  • Gefällt mir
Reaktionen: Keuleman
Jetzt die Pointe, ist der gleiche Prompt, der bei 2.0 für mein Musik Video drin war. Habe da erst lange Prompts gehabt! Je kürzer desto besser wurde das Ergebnis. Statt "sing" dann "mouth the words", bei "sing" hat sie immer ein Mikrofon heran gemorpht :-P

CFG runter teste ich gelegentlich!

ComfyUi Standard Text to Video übrigens ziemlich cool!
 
Hmm.. bei Videos bekomm ich bei Comfy oft die Fehlermeldung "Reconnecting" in leuchtenden rot mit der ich nix anzufangen weiss!? 🤔

Aber bei den wenigen Gelegenheiten wo es geklappt hat zb Standbild in eine einfache 5s animation hats schon ca 10 minuten gerechnet. Ich möcht nicht wissen wie lang ein minutenlanges Video braucht und was es an stromverbrauch kostet. Vorausgesetzt man bekommt das ganze so lang stabil zum laufen.
Gibt es keine möglichkeiten in Comfy einen abgebrochenen Job wieder aufzunehmen wenn es sich zb nach 5h Rechenzeit aufhängt?
Aber interessant ist das ganze schon. Überleg ob ich ein paar alte Familienfotos so zum leben erwecke!
 
Zuletzt bearbeitet:
Der Absturz (dann erscheint "reconnecting") ist wahrscheinlich auf OOM (out of memory) zurückzuführen. Da Du nur 32GB VRAM hast, wird es generell eng, aber sollte mit großer Auslagerungsdatei und dem neueren ComfyUI Memory Management trotzdem was möglich sein. Schau, dass die Auslagerungsdatei auf jedenfall auf der schnellsten Platte liegt und ComfyUI bringt fast täglich Updates raus, da auch das aktualisieren nicht vergessen, sofern es nicht automatisch erfolgt. Welche Modell Version hast Du aktuell probiert?

PS: Mehr Informationen (z.B. bei "reconnecting" erhältst Du in der Konsole von comfyUI, einfach das Icon unten links anklicken
1772889681285.png

Ergänzung ()

@Keuleman
1772890435007.png
1772890336704.png
 
Zuletzt bearbeitet:
Die LTX 2.3 Video die ich bisher generiert habe, habe eine unterirische Video Qualität.
Sogar der default I2V workflow Produziert nur müll.
 
MechanimaL schrieb:
Welche Modell Version hast Du aktuell probiert?
Heut grad die aktuellste. Frisch eingespielt.
Hat auch erstmals geklappt mit ein paar 5 Sekunden Videos aus nem Standbild heraus.
Ne Idee "Wan-Move Motion-Control Template" die Sekunden angeben kann?

Hab auch welche mit Wan 2.2 versucht. Aber das einzige das funktionierte hat es gerade mal auf nen 5s video gebracht und darüber hinaus hat es genau wegen dem RAM dann abgebrochen. Der versuch an sich dauerte aber schon gute 45 minuten bevor der aufgab.

Ich bin momentan schon froh wenn es überhaupt funktioniert. Was gezielt zu produzieren kann man nur von träumen.
Würde wahnsinnig gern ein paar kleine Videosequenzen für Visual Novel Games machen.
 
Im standard Workflow kann ich sogar das volle Modell (+distilled Lora 384) nutzen, denke das liegt an den Updates von comfy. Grade mit 1280x1280, 8 Sek, 1.5x Latent Upscaler getestet.

Ergänzung ()

samuelclemens schrieb:
Heut grad die aktuellste. Frisch eingespielt.
Also welches LTX2.3 Modell?
 
Zuletzt bearbeitet:
@MechanimaL Ich hab die Wan 2.1 und Wan 2.2 Modelle probiert. Die LTX sind alle so rießig.
Ich dachte du meisnt welche Comfy Version!
 
OK, scheint bei mit tatsächlich am Referenz Workflow zu liegen. Der will nicht. Also wird mein Comfyui mal wieder im Ar... sein :D
Habe nun einen mit Kjai FP8 am laufen. Muss den aber noch weiter Optimieren. Image Resizen klappt aus unbekannten gründen nicht. Der Produziert mit 4K video :D
 
Zurück
Oben