[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

Keuleman · Montag um 22:25

Ich bin momentan irgendwie zu blöd für die Rune XX Workflows... extra Audio VAE von Kijai gezogen, ausgewählt... "nix gefunden"... ah ja... hmpf. Nope, krieg ich nicht an den Start.

samuelclemens · Montag um 22:44

Kennt sich eigentlich wer mit umwandlung von fotos in 3d in comfy aus. Es gibt da ein paar vorgefertigte tmworkflows aber die sind um längen schlechter als die online midelle und außerdem ohne textur.

Im Rahmen meiner Game bastelprojekte würde ich auch gern die möglichkeiten für 3D Assets oder Spielumgebungen ausloten. Und diese vielleicht sogar als Referenzmodelle für die erstellung von 2D Grafiken verwenden.

zidius · Dienstag um 14:49

@Keuleman ich quäle mich da gerade auch mit herum.
Will unterschiedliche checkpoints und RuneXX workflows testen, aber scheine hier nicht miteinander kompatible Modelle ausgewählt zu haben. Bei mir läuft der workflow zwar, aber ich bekomme richtigen Matsch raus. Alles was animiert ist und sich bewegt wird zu Brei und ich kann den Fehler nicht finden...
...
Immerhin habe ich jetzt den angesprochenen LTXV Chunk FeedForward node gefunden

Der ist in den von mir verlinkten workflows drin, aber standardmäßig im bypass.... daher habe ich ihn wohl übersehen.

Was mich aber noch interessieren würde, wären die Unterschiede in der Qualität zwischen den "kleineren" checkpoints und dem vollständigen Modell.
Vielleicht hat ja jemand Lust, das folgende Bild mit den Parametern mal durchlaufen zu lassen.
Bei meinen Versuchen morphten die Hände immer druch die Beine (wie sind da so eure Erfahrungen?)

I2V, 720x1280px, 10s.
Prompt:
"Cinematic high-detail shot of the sad angel. She slowly brings her hands from behind her legs to the front, clasping them over her knees. She then gently lowers her forehead onto her hands in a gesture of deep despair. Her golden wings shudder slightly. The glowing halo remains steady as she curls into a smaller, protective ball. Soft, flickering candlelight shadows, melancholic and sacred atmosphere.

The camera remains steady and slightly distant, capturing the quiet, melancholic atmosphere.

Sound design: A slow, melancholic ambient music fades in, emotional and minimal and sad."

Ist wohl auch nicht das beste Ausgangsmaterial, aber gerade auch deshalb bin ich gespannt, ob das große Modell hier besser agiert.

Keuleman · Dienstag um 14:55

Hände und Füße sind eh immer Endgegner. Hab mal für nen Kollegen ein "get well soon" Video gemacht, da haben die Hände auch merkwürdig "geflirrt" (war auch image to Video). Kann ich sonst gerne testen aber ist vermutlich das gleiche Ergebnis :-/ Ansonsten vielleicht die Armbewegung "genauer prompten"? "She slowly brings her hands from behind her legs to the front" zu "she moves her hands to the left and right side of her knees and then puts the palms onto her knees"... irgendwas, damit die erst mal seitlich gezogen und dann erst drauf gelegt werden?

blubberbirne · Dienstag um 20:25

@zidius ich lasse deinen Prompt gleich hier mal durchlaufen.

Es gibt von den Spatial Upscaler eine Version 1.1. Die soll bei längeren Videos besser funktionieren und z.b. am ende eines Videos weniger "matsch" produzieren. Kann ich selber aber noch nicht final beurteilen.

MAIk lebt übrigens auch noch

Keuleman · Donnerstag um 09:02

So, habe Sprachsynthese am Start und auch nen Flow, der direkt LTX2.3 mit Sprachsamples zu Sprache drin hat. War das ein Geochse. Habe was mit Angela Merkel gemacht aber keine Ahnung, ob das so hier rein darf :-D Ist nicht NSFW oder so.

EDIT: noch dazu geben: Habe ja nen Rechnerpark daheim aber läuft alles tadellos auf dem, der aktuell angeschlossen ist: i9-12900T, 64 GB RAM, RTX 4070. Auch 1280x720 (mehr nehme ich tatsächlich nie, der dazu gewonnene Grafikbonus zu meinetwegen full HD lohnt sich imo nicht). Jedenfalls, das Speicher outsourcing VRAM zu RAM funktioniert meiner Meinung nach in Comfy richtig ordentlich inzwischen.

zidius · Donnerstag um 13:45

@blubberbirne Danke für den Test. Es sieht auf jeden Fall besser aus, auch wenn hier ebenfalls die Hände etwas glitchen.

Die Qualität vom Doc video ist beeindruckend.
@Keuleman genauso wie dein schwarz-weiß Video.

Ich habe bei längeren Videos das Problem, dass die Kamera immer rauszoomt und dann wird alles unscharf (obwohl davon nichts im prompt steht). Außerdem läuft das alles nicht so flüssig/realistisch wie bei euch. Es wirkt eher wie slowmotion...
Könnte ihr vielleicht auch mal eure prompts (und falls es i2v ist auch die Bilder) posten, dann kann ich mir mal ein Vergleichsvideo erstellen.
Danke

Keuleman · Donnerstag um 13:53

Anbei der verwendete Workflow.

Prompt war:

"A slightly crazy but friendly professor stands inside a bizarre, cluttered laboratory filled with strange machines, glowing tubes, blinking lights, bubbling glass containers, cables, and eccentric scientific equipment.

He has a wild hairstyle, expressive face, and animated but controlled body language. The atmosphere is humorous, cinematic, and lightly absurd, but still believable and visually rich.

The professor looks directly into the camera and says in German:
"Kein Problem, bei mir steht und fällt das echt auch mit dem Vau Ah Eeh Dekoder. Schönen Abend!"

He gestures naturally with his hands while speaking, as if casually explaining something technical in a chaotic lab environment.

Subtle background activity: blinking devices, small sparks, bubbling liquids, moving lights, faint steam, and soft mechanical motion.

Natural lip sync, expressive face, slight head movement, believable body motion, stable camera framing, no exaggerated chaos, no camera cuts."

zidius · Donnerstag um 19:39

Danke für die Infos.
t2v scheint wirklich qualitativ besser zu funktionieren als i2v.
... ist aber irgendwie auch nachvollziehbar...

blubberbirne · Donnerstag um 19:47

zidius schrieb:
Ich habe bei längeren Videos das Problem, dass die Kamera immer rauszoomt und dann wird alles unscharf (obwohl davon nichts im prompt steht). Außerdem läuft das alles nicht so flüssig/realistisch wie bei euch. Es wirkt eher wie slowmotion...
Könnte ihr vielleicht auch mal eure prompts (und falls es i2v ist auch die Bilder) posten, dann kann ich mir mal ein Vergleichsvideo erstellen.
Danke

Versucht mal "normal Speed" im Prompt einzugebauen. Und für den Kamera Zoom einen negative Prompt "camera movement"

Keuleman · Gestern um 23:29

Für ein neues Video was gemacht... Stable Diffusion mal wieder ausgegraben. Hier ein Spoiler:

2026-04-09-20-38-49-3-cyberpunk_street_canyon_at_night_narrow_futuristic_city_street_between_t...png

samuelclemens · Heute um 11:43

Apropos.. kennt wer gute Workflows und Modelle für ComfyUI in Sachen Video Upscaler!?
Alles was ich bisher an offline und Online Tools versucht habe lieferte immerzu Mist ab. Ständig werden Details dazugedichtet oder falsch interpretiert. Zusätzlich Finger angedichtet oder Gesichter glattgebügelt.
Dazu kommt noch Inkonsistenz. ZB ein Schatten im Hintergrund der gerade noch von der KI als Briefkasten "interpretiert" wurde ist in der nächsten Szene plötzlich eine Zapfsäule!?
Bei Einzelbildern funktioniert das Upscaling einigermaßen zufriedenstellen mit ein paar versuchen.
Bei Videos hab ich aber langsam den Eindruck das man das mit der bisherigen KI Technik vergessen kann!?

MechanimaL · Heute um 11:51

Da gibts ein paar Optionen, hier ein vergleichsvideo:

An dieser Stelle steht ein externer Inhalt von YouTube, der den Forumbeitrag ergänzt. Er kann mit einem Klick geladen und auch wieder ausgeblendet werden.

YouTube-Embeds laden

Suche

[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

Keuleman

Lt. Junior Grade

samuelclemens

Lt. Commander

zidius

Lieutenant

Anhänge

Keuleman

Lt. Junior Grade

blubberbirne

Lt. Commander

Keuleman

Lt. Junior Grade

zidius

Lieutenant

Keuleman

Lt. Junior Grade

Anhänge

zidius

Lieutenant

Anhänge

blubberbirne

Lt. Commander

Keuleman

Lt. Junior Grade

samuelclemens

Lt. Commander

MechanimaL

Lt. Commander