[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

Ich bin momentan irgendwie zu blöd für die Rune XX Workflows... extra Audio VAE von Kijai gezogen, ausgewählt... "nix gefunden"... ah ja... hmpf. Nope, krieg ich nicht an den Start.
 
Kennt sich eigentlich wer mit umwandlung von fotos in 3d in comfy aus. Es gibt da ein paar vorgefertigte tmworkflows aber die sind um längen schlechter als die online midelle und außerdem ohne textur.

Im Rahmen meiner Game bastelprojekte würde ich auch gern die möglichkeiten für 3D Assets oder Spielumgebungen ausloten. Und diese vielleicht sogar als Referenzmodelle für die erstellung von 2D Grafiken verwenden.
 
@Keuleman ich quäle mich da gerade auch mit herum.
Will unterschiedliche checkpoints und RuneXX workflows testen, aber scheine hier nicht miteinander kompatible Modelle ausgewählt zu haben. Bei mir läuft der workflow zwar, aber ich bekomme richtigen Matsch raus. Alles was animiert ist und sich bewegt wird zu Brei und ich kann den Fehler nicht finden...
...
Immerhin habe ich jetzt den angesprochenen LTXV Chunk FeedForward node gefunden :D
Der ist in den von mir verlinkten workflows drin, aber standardmäßig im bypass.... daher habe ich ihn wohl übersehen.

Was mich aber noch interessieren würde, wären die Unterschiede in der Qualität zwischen den "kleineren" checkpoints und dem vollständigen Modell.
Vielleicht hat ja jemand Lust, das folgende Bild mit den Parametern mal durchlaufen zu lassen.
Bei meinen Versuchen morphten die Hände immer druch die Beine (wie sind da so eure Erfahrungen?)
2025-12-22-111335_zImage_turbo_994114125739733_HD.png
I2V, 720x1280px, 10s.
Prompt:
"Cinematic high-detail shot of the sad angel. She slowly brings her hands from behind her legs to the front, clasping them over her knees. She then gently lowers her forehead onto her hands in a gesture of deep despair. Her golden wings shudder slightly. The glowing halo remains steady as she curls into a smaller, protective ball. Soft, flickering candlelight shadows, melancholic and sacred atmosphere.

The camera remains steady and slightly distant, capturing the quiet, melancholic atmosphere.

Sound design: A slow, melancholic ambient music fades in, emotional and minimal and sad."

Ist wohl auch nicht das beste Ausgangsmaterial, aber gerade auch deshalb bin ich gespannt, ob das große Modell hier besser agiert.
 

Anhänge

  • LTX_2.3_i2v_00002_.mp4
    3 MB
  • Gefällt mir
Reaktionen: Keuleman
Hände und Füße sind eh immer Endgegner. Hab mal für nen Kollegen ein "get well soon" Video gemacht, da haben die Hände auch merkwürdig "geflirrt" (war auch image to Video). Kann ich sonst gerne testen aber ist vermutlich das gleiche Ergebnis :-/ Ansonsten vielleicht die Armbewegung "genauer prompten"? "She slowly brings her hands from behind her legs to the front" zu "she moves her hands to the left and right side of her knees and then puts the palms onto her knees"... irgendwas, damit die erst mal seitlich gezogen und dann erst drauf gelegt werden?
 
@zidius ich lasse deinen Prompt gleich hier mal durchlaufen.




Es gibt von den Spatial Upscaler eine Version 1.1. Die soll bei längeren Videos besser funktionieren und z.b. am ende eines Videos weniger "matsch" produzieren. Kann ich selber aber noch nicht final beurteilen.

MAIk lebt übrigens auch noch :daumen:
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Dennis_BW, Keuleman und zidius
So, habe Sprachsynthese am Start und auch nen Flow, der direkt LTX2.3 mit Sprachsamples zu Sprache drin hat. War das ein Geochse. Habe was mit Angela Merkel gemacht aber keine Ahnung, ob das so hier rein darf :-D Ist nicht NSFW oder so.

EDIT: noch dazu geben: Habe ja nen Rechnerpark daheim aber läuft alles tadellos auf dem, der aktuell angeschlossen ist: i9-12900T, 64 GB RAM, RTX 4070. Auch 1280x720 (mehr nehme ich tatsächlich nie, der dazu gewonnene Grafikbonus zu meinetwegen full HD lohnt sich imo nicht). Jedenfalls, das Speicher outsourcing VRAM zu RAM funktioniert meiner Meinung nach in Comfy richtig ordentlich inzwischen.
 
Zuletzt bearbeitet:
@blubberbirne Danke für den Test. Es sieht auf jeden Fall besser aus, auch wenn hier ebenfalls die Hände etwas glitchen.

Die Qualität vom Doc video ist beeindruckend.
@Keuleman genauso wie dein schwarz-weiß Video.

Ich habe bei längeren Videos das Problem, dass die Kamera immer rauszoomt und dann wird alles unscharf (obwohl davon nichts im prompt steht). Außerdem läuft das alles nicht so flüssig/realistisch wie bei euch. Es wirkt eher wie slowmotion...
Könnte ihr vielleicht auch mal eure prompts (und falls es i2v ist auch die Bilder) posten, dann kann ich mir mal ein Vergleichsvideo erstellen.
Danke
 
Anbei der verwendete Workflow.

Prompt war:

"A slightly crazy but friendly professor stands inside a bizarre, cluttered laboratory filled with strange machines, glowing tubes, blinking lights, bubbling glass containers, cables, and eccentric scientific equipment.

He has a wild hairstyle, expressive face, and animated but controlled body language. The atmosphere is humorous, cinematic, and lightly absurd, but still believable and visually rich.

The professor looks directly into the camera and says in German:
"Kein Problem, bei mir steht und fällt das echt auch mit dem Vau Ah Eeh Dekoder. Schönen Abend!"

He gestures naturally with his hands while speaking, as if casually explaining something technical in a chaotic lab environment.

Subtle background activity: blinking devices, small sparks, bubbling liquids, moving lights, faint steam, and soft mechanical motion.

Natural lip sync, expressive face, slight head movement, believable body motion, stable camera framing, no exaggerated chaos, no camera cuts."
 

Anhänge

  • Gefällt mir
Reaktionen: zidius
Danke für die Infos.
t2v scheint wirklich qualitativ besser zu funktionieren als i2v.
... ist aber irgendwie auch nachvollziehbar...
 

Anhänge

  • LTX-2_00002-audio.mp4
    4 MB
  • Gefällt mir
Reaktionen: Uzer1510 und Keuleman
Für ein neues Video was gemacht... Stable Diffusion mal wieder ausgegraben. Hier ein Spoiler:

2026-04-09-20-38-49-3-cyberpunk_street_canyon_at_night_narrow_futuristic_city_street_between_t...png
 
Apropos.. kennt wer gute Workflows und Modelle für ComfyUI in Sachen Video Upscaler!?
Alles was ich bisher an offline und Online Tools versucht habe lieferte immerzu Mist ab. Ständig werden Details dazugedichtet oder falsch interpretiert. Zusätzlich Finger angedichtet oder Gesichter glattgebügelt.
Dazu kommt noch Inkonsistenz. ZB ein Schatten im Hintergrund der gerade noch von der KI als Briefkasten "interpretiert" wurde ist in der nächsten Szene plötzlich eine Zapfsäule!?
Bei Einzelbildern funktioniert das Upscaling einigermaßen zufriedenstellen mit ein paar versuchen.
Bei Videos hab ich aber langsam den Eindruck das man das mit der bisherigen KI Technik vergessen kann!?
 
Da gibts ein paar Optionen, hier ein vergleichsvideo:
 
  • Gefällt mir
Reaktionen: samuelclemens
Zurück
Oben