[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

Keuleman · 6. April 2026

Ich bin momentan irgendwie zu blöd für die Rune XX Workflows... extra Audio VAE von Kijai gezogen, ausgewählt... "nix gefunden"... ah ja... hmpf. Nope, krieg ich nicht an den Start.

samuelclemens · 6. April 2026

Kennt sich eigentlich wer mit umwandlung von fotos in 3d in comfy aus. Es gibt da ein paar vorgefertigte tmworkflows aber die sind um längen schlechter als die online midelle und außerdem ohne textur.

Im Rahmen meiner Game bastelprojekte würde ich auch gern die möglichkeiten für 3D Assets oder Spielumgebungen ausloten. Und diese vielleicht sogar als Referenzmodelle für die erstellung von 2D Grafiken verwenden.

zidius · 7. April 2026

@Keuleman ich quäle mich da gerade auch mit herum.
Will unterschiedliche checkpoints und RuneXX workflows testen, aber scheine hier nicht miteinander kompatible Modelle ausgewählt zu haben. Bei mir läuft der workflow zwar, aber ich bekomme richtigen Matsch raus. Alles was animiert ist und sich bewegt wird zu Brei und ich kann den Fehler nicht finden...
...
Immerhin habe ich jetzt den angesprochenen LTXV Chunk FeedForward node gefunden

Der ist in den von mir verlinkten workflows drin, aber standardmäßig im bypass.... daher habe ich ihn wohl übersehen.

Was mich aber noch interessieren würde, wären die Unterschiede in der Qualität zwischen den "kleineren" checkpoints und dem vollständigen Modell.
Vielleicht hat ja jemand Lust, das folgende Bild mit den Parametern mal durchlaufen zu lassen.
Bei meinen Versuchen morphten die Hände immer druch die Beine (wie sind da so eure Erfahrungen?)

I2V, 720x1280px, 10s.
Prompt:
"Cinematic high-detail shot of the sad angel. She slowly brings her hands from behind her legs to the front, clasping them over her knees. She then gently lowers her forehead onto her hands in a gesture of deep despair. Her golden wings shudder slightly. The glowing halo remains steady as she curls into a smaller, protective ball. Soft, flickering candlelight shadows, melancholic and sacred atmosphere.

The camera remains steady and slightly distant, capturing the quiet, melancholic atmosphere.

Sound design: A slow, melancholic ambient music fades in, emotional and minimal and sad."

Ist wohl auch nicht das beste Ausgangsmaterial, aber gerade auch deshalb bin ich gespannt, ob das große Modell hier besser agiert.

Keuleman · 7. April 2026

Hände und Füße sind eh immer Endgegner. Hab mal für nen Kollegen ein "get well soon" Video gemacht, da haben die Hände auch merkwürdig "geflirrt" (war auch image to Video). Kann ich sonst gerne testen aber ist vermutlich das gleiche Ergebnis :-/ Ansonsten vielleicht die Armbewegung "genauer prompten"? "She slowly brings her hands from behind her legs to the front" zu "she moves her hands to the left and right side of her knees and then puts the palms onto her knees"... irgendwas, damit die erst mal seitlich gezogen und dann erst drauf gelegt werden?

blubberbirne · 7. April 2026

@zidius ich lasse deinen Prompt gleich hier mal durchlaufen.

Es gibt von den Spatial Upscaler eine Version 1.1. Die soll bei längeren Videos besser funktionieren und z.b. am ende eines Videos weniger "matsch" produzieren. Kann ich selber aber noch nicht final beurteilen.

MAIk lebt übrigens auch noch

Keuleman · 9. April 2026

So, habe Sprachsynthese am Start und auch nen Flow, der direkt LTX2.3 mit Sprachsamples zu Sprache drin hat. War das ein Geochse. Habe was mit Angela Merkel gemacht aber keine Ahnung, ob das so hier rein darf :-D Ist nicht NSFW oder so.

EDIT: noch dazu geben: Habe ja nen Rechnerpark daheim aber läuft alles tadellos auf dem, der aktuell angeschlossen ist: i9-12900T, 64 GB RAM, RTX 4070. Auch 1280x720 (mehr nehme ich tatsächlich nie, der dazu gewonnene Grafikbonus zu meinetwegen full HD lohnt sich imo nicht). Jedenfalls, das Speicher outsourcing VRAM zu RAM funktioniert meiner Meinung nach in Comfy richtig ordentlich inzwischen.

zidius · 9. April 2026

@blubberbirne Danke für den Test. Es sieht auf jeden Fall besser aus, auch wenn hier ebenfalls die Hände etwas glitchen.

Die Qualität vom Doc video ist beeindruckend.
@Keuleman genauso wie dein schwarz-weiß Video.

Ich habe bei längeren Videos das Problem, dass die Kamera immer rauszoomt und dann wird alles unscharf (obwohl davon nichts im prompt steht). Außerdem läuft das alles nicht so flüssig/realistisch wie bei euch. Es wirkt eher wie slowmotion...
Könnte ihr vielleicht auch mal eure prompts (und falls es i2v ist auch die Bilder) posten, dann kann ich mir mal ein Vergleichsvideo erstellen.
Danke

Keuleman · 9. April 2026

Anbei der verwendete Workflow.

Prompt war:

"A slightly crazy but friendly professor stands inside a bizarre, cluttered laboratory filled with strange machines, glowing tubes, blinking lights, bubbling glass containers, cables, and eccentric scientific equipment.

He has a wild hairstyle, expressive face, and animated but controlled body language. The atmosphere is humorous, cinematic, and lightly absurd, but still believable and visually rich.

The professor looks directly into the camera and says in German:
"Kein Problem, bei mir steht und fällt das echt auch mit dem Vau Ah Eeh Dekoder. Schönen Abend!"

He gestures naturally with his hands while speaking, as if casually explaining something technical in a chaotic lab environment.

Subtle background activity: blinking devices, small sparks, bubbling liquids, moving lights, faint steam, and soft mechanical motion.

Natural lip sync, expressive face, slight head movement, believable body motion, stable camera framing, no exaggerated chaos, no camera cuts."

zidius · 9. April 2026

Danke für die Infos.
t2v scheint wirklich qualitativ besser zu funktionieren als i2v.
... ist aber irgendwie auch nachvollziehbar...

blubberbirne · 9. April 2026

zidius schrieb:
Ich habe bei längeren Videos das Problem, dass die Kamera immer rauszoomt und dann wird alles unscharf (obwohl davon nichts im prompt steht). Außerdem läuft das alles nicht so flüssig/realistisch wie bei euch. Es wirkt eher wie slowmotion...
Könnte ihr vielleicht auch mal eure prompts (und falls es i2v ist auch die Bilder) posten, dann kann ich mir mal ein Vergleichsvideo erstellen.
Danke

Versucht mal "normal Speed" im Prompt einzugebauen. Und für den Kamera Zoom einen negative Prompt "camera movement"

Keuleman · 10. April 2026

Für ein neues Video was gemacht... Stable Diffusion mal wieder ausgegraben. Hier ein Spoiler:

2026-04-09-20-38-49-3-cyberpunk_street_canyon_at_night_narrow_futuristic_city_street_between_t...png

samuelclemens · 11. April 2026

Apropos.. kennt wer gute Workflows und Modelle für ComfyUI in Sachen Video Upscaler!?
Alles was ich bisher an offline und Online Tools versucht habe lieferte immerzu Mist ab. Ständig werden Details dazugedichtet oder falsch interpretiert. Zusätzlich Finger angedichtet oder Gesichter glattgebügelt.
Dazu kommt noch Inkonsistenz. ZB ein Schatten im Hintergrund der gerade noch von der KI als Briefkasten "interpretiert" wurde ist in der nächsten Szene plötzlich eine Zapfsäule!?
Bei Einzelbildern funktioniert das Upscaling einigermaßen zufriedenstellen mit ein paar versuchen.
Bei Videos hab ich aber langsam den Eindruck das man das mit der bisherigen KI Technik vergessen kann!?

MechanimaL · 11. April 2026

Da gibts ein paar Optionen, hier ein vergleichsvideo:

An dieser Stelle steht ein externer Inhalt von YouTube, der den Forumbeitrag ergänzt. Er kann mit einem Klick geladen und auch wieder ausgeblendet werden.

YouTube-Embeds laden

Keuleman · 11. April 2026

mal SeedVR getestet... war damals ziemlich genau 60 Minuten für 10 Sekunden Video :-D

blubberbirne · 12. April 2026

Topaz ist bei Video Upscaler das Maß der Dinge. SeedVR ist auch gut, aber nur für kurze clips zu gebrauchen. Der RTX upscaler ist ein Witz.

Dennis_BW · 13. April 2026

Auch wenn ich die Video versuche aufgegeben habe, von LTX gibt es ein Update der distilled Version:

https://huggingface.co/Lightricks/LTX-2.3

Along with the new checkpoint, we've also retrained the distilled LoRA, updated all four ComfyUI example workflows, and refreshed the union control and motion tracking IC-LoRA checkpoints to work with the new base model (these replace the previous versions in place).

Maviapril2 · 13. April 2026

blubberbirne schrieb:
Topaz

Jap, das verwende ich auch. Gibt es aber mittlerweile leider nur noch als Abo

Keuleman · 14. April 2026

So... nach viel Flux 2 Frust und Rant meinerseits... Flux 2 Image Edit ist super. Das Modell hat ja dann eine gute Menge "Leitdaten" und versteht auch sehr viel und schnell, was genau gebraucht wird. Top!

Die beiden Leute in einen SD1.5 (!) Hintergrund eingefügt.

blubberbirne · 14. April 2026

Keuleman · 15. April 2026

So, mein nächstes Video ist auch fertig geworden gestern Abend:

An dieser Stelle steht ein externer Inhalt von YouTube, der den Forumbeitrag ergänzt. Er kann mit einem Klick geladen und auch wieder ausgeblendet werden.

YouTube-Embeds laden

[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

Lt. Junior Grade

Lt. Commander

Lieutenant

Anhänge

Lt. Junior Grade

Lt. Commander

Lt. Junior Grade

Lieutenant

Lt. Junior Grade

Anhänge

Lieutenant

Anhänge

Lt. Commander

Lt. Junior Grade

Lt. Commander

Lt. Commander

Lt. Junior Grade

Lt. Commander

Cadet 4th Year Pro

Lt. Commander

Lt. Junior Grade

Lt. Commander

Lt. Junior Grade