Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden.
Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)
- Ersteller MechanimaL
- Erstellt am
samuelclemens
Lt. Commander
- Registriert
- Nov. 2017
- Beiträge
- 1.074
Kennt sich eigentlich wer mit umwandlung von fotos in 3d in comfy aus. Es gibt da ein paar vorgefertigte tmworkflows aber die sind um längen schlechter als die online midelle und außerdem ohne textur.
Im Rahmen meiner Game bastelprojekte würde ich auch gern die möglichkeiten für 3D Assets oder Spielumgebungen ausloten. Und diese vielleicht sogar als Referenzmodelle für die erstellung von 2D Grafiken verwenden.
Im Rahmen meiner Game bastelprojekte würde ich auch gern die möglichkeiten für 3D Assets oder Spielumgebungen ausloten. Und diese vielleicht sogar als Referenzmodelle für die erstellung von 2D Grafiken verwenden.
zidius
Lieutenant
- Registriert
- Juli 2009
- Beiträge
- 911
@Keuleman ich quäle mich da gerade auch mit herum.
Will unterschiedliche checkpoints und RuneXX workflows testen, aber scheine hier nicht miteinander kompatible Modelle ausgewählt zu haben. Bei mir läuft der workflow zwar, aber ich bekomme richtigen Matsch raus. Alles was animiert ist und sich bewegt wird zu Brei und ich kann den Fehler nicht finden...
...
Immerhin habe ich jetzt den angesprochenen LTXV Chunk FeedForward node gefunden
Der ist in den von mir verlinkten workflows drin, aber standardmäßig im bypass.... daher habe ich ihn wohl übersehen.
Was mich aber noch interessieren würde, wären die Unterschiede in der Qualität zwischen den "kleineren" checkpoints und dem vollständigen Modell.
Vielleicht hat ja jemand Lust, das folgende Bild mit den Parametern mal durchlaufen zu lassen.
Bei meinen Versuchen morphten die Hände immer druch die Beine (wie sind da so eure Erfahrungen?)
I2V, 720x1280px, 10s.
Prompt:
"Cinematic high-detail shot of the sad angel. She slowly brings her hands from behind her legs to the front, clasping them over her knees. She then gently lowers her forehead onto her hands in a gesture of deep despair. Her golden wings shudder slightly. The glowing halo remains steady as she curls into a smaller, protective ball. Soft, flickering candlelight shadows, melancholic and sacred atmosphere.
The camera remains steady and slightly distant, capturing the quiet, melancholic atmosphere.
Sound design: A slow, melancholic ambient music fades in, emotional and minimal and sad."
Ist wohl auch nicht das beste Ausgangsmaterial, aber gerade auch deshalb bin ich gespannt, ob das große Modell hier besser agiert.
Will unterschiedliche checkpoints und RuneXX workflows testen, aber scheine hier nicht miteinander kompatible Modelle ausgewählt zu haben. Bei mir läuft der workflow zwar, aber ich bekomme richtigen Matsch raus. Alles was animiert ist und sich bewegt wird zu Brei und ich kann den Fehler nicht finden...
...
Immerhin habe ich jetzt den angesprochenen LTXV Chunk FeedForward node gefunden
Der ist in den von mir verlinkten workflows drin, aber standardmäßig im bypass.... daher habe ich ihn wohl übersehen.
Was mich aber noch interessieren würde, wären die Unterschiede in der Qualität zwischen den "kleineren" checkpoints und dem vollständigen Modell.
Vielleicht hat ja jemand Lust, das folgende Bild mit den Parametern mal durchlaufen zu lassen.
Bei meinen Versuchen morphten die Hände immer druch die Beine (wie sind da so eure Erfahrungen?)
Prompt:
"Cinematic high-detail shot of the sad angel. She slowly brings her hands from behind her legs to the front, clasping them over her knees. She then gently lowers her forehead onto her hands in a gesture of deep despair. Her golden wings shudder slightly. The glowing halo remains steady as she curls into a smaller, protective ball. Soft, flickering candlelight shadows, melancholic and sacred atmosphere.
The camera remains steady and slightly distant, capturing the quiet, melancholic atmosphere.
Sound design: A slow, melancholic ambient music fades in, emotional and minimal and sad."
Ist wohl auch nicht das beste Ausgangsmaterial, aber gerade auch deshalb bin ich gespannt, ob das große Modell hier besser agiert.
Anhänge
Keuleman
Lt. Junior Grade
- Registriert
- Aug. 2014
- Beiträge
- 407
Hände und Füße sind eh immer Endgegner. Hab mal für nen Kollegen ein "get well soon" Video gemacht, da haben die Hände auch merkwürdig "geflirrt" (war auch image to Video). Kann ich sonst gerne testen aber ist vermutlich das gleiche Ergebnis :-/ Ansonsten vielleicht die Armbewegung "genauer prompten"? "She slowly brings her hands from behind her legs to the front" zu "she moves her hands to the left and right side of her knees and then puts the palms onto her knees"... irgendwas, damit die erst mal seitlich gezogen und dann erst drauf gelegt werden?
blubberbirne
Lt. Commander
- Registriert
- Okt. 2005
- Beiträge
- 1.704
@zidius ich lasse deinen Prompt gleich hier mal durchlaufen.
Es gibt von den Spatial Upscaler eine Version 1.1. Die soll bei längeren Videos besser funktionieren und z.b. am ende eines Videos weniger "matsch" produzieren. Kann ich selber aber noch nicht final beurteilen.
MAIk lebt übrigens auch noch
Es gibt von den Spatial Upscaler eine Version 1.1. Die soll bei längeren Videos besser funktionieren und z.b. am ende eines Videos weniger "matsch" produzieren. Kann ich selber aber noch nicht final beurteilen.
MAIk lebt übrigens auch noch
Zuletzt bearbeitet:
Keuleman
Lt. Junior Grade
- Registriert
- Aug. 2014
- Beiträge
- 407
So, habe Sprachsynthese am Start und auch nen Flow, der direkt LTX2.3 mit Sprachsamples zu Sprache drin hat. War das ein Geochse. Habe was mit Angela Merkel gemacht aber keine Ahnung, ob das so hier rein darf :-D Ist nicht NSFW oder so.
EDIT: noch dazu geben: Habe ja nen Rechnerpark daheim aber läuft alles tadellos auf dem, der aktuell angeschlossen ist: i9-12900T, 64 GB RAM, RTX 4070. Auch 1280x720 (mehr nehme ich tatsächlich nie, der dazu gewonnene Grafikbonus zu meinetwegen full HD lohnt sich imo nicht). Jedenfalls, das Speicher outsourcing VRAM zu RAM funktioniert meiner Meinung nach in Comfy richtig ordentlich inzwischen.
EDIT: noch dazu geben: Habe ja nen Rechnerpark daheim aber läuft alles tadellos auf dem, der aktuell angeschlossen ist: i9-12900T, 64 GB RAM, RTX 4070. Auch 1280x720 (mehr nehme ich tatsächlich nie, der dazu gewonnene Grafikbonus zu meinetwegen full HD lohnt sich imo nicht). Jedenfalls, das Speicher outsourcing VRAM zu RAM funktioniert meiner Meinung nach in Comfy richtig ordentlich inzwischen.
Zuletzt bearbeitet:
zidius
Lieutenant
- Registriert
- Juli 2009
- Beiträge
- 911
@blubberbirne Danke für den Test. Es sieht auf jeden Fall besser aus, auch wenn hier ebenfalls die Hände etwas glitchen.
Die Qualität vom Doc video ist beeindruckend.
@Keuleman genauso wie dein schwarz-weiß Video.
Ich habe bei längeren Videos das Problem, dass die Kamera immer rauszoomt und dann wird alles unscharf (obwohl davon nichts im prompt steht). Außerdem läuft das alles nicht so flüssig/realistisch wie bei euch. Es wirkt eher wie slowmotion...
Könnte ihr vielleicht auch mal eure prompts (und falls es i2v ist auch die Bilder) posten, dann kann ich mir mal ein Vergleichsvideo erstellen.
Danke
Die Qualität vom Doc video ist beeindruckend.
@Keuleman genauso wie dein schwarz-weiß Video.
Ich habe bei längeren Videos das Problem, dass die Kamera immer rauszoomt und dann wird alles unscharf (obwohl davon nichts im prompt steht). Außerdem läuft das alles nicht so flüssig/realistisch wie bei euch. Es wirkt eher wie slowmotion...
Könnte ihr vielleicht auch mal eure prompts (und falls es i2v ist auch die Bilder) posten, dann kann ich mir mal ein Vergleichsvideo erstellen.
Danke
Keuleman
Lt. Junior Grade
- Registriert
- Aug. 2014
- Beiträge
- 407
Anbei der verwendete Workflow.
Prompt war:
"A slightly crazy but friendly professor stands inside a bizarre, cluttered laboratory filled with strange machines, glowing tubes, blinking lights, bubbling glass containers, cables, and eccentric scientific equipment.
He has a wild hairstyle, expressive face, and animated but controlled body language. The atmosphere is humorous, cinematic, and lightly absurd, but still believable and visually rich.
The professor looks directly into the camera and says in German:
"Kein Problem, bei mir steht und fällt das echt auch mit dem Vau Ah Eeh Dekoder. Schönen Abend!"
He gestures naturally with his hands while speaking, as if casually explaining something technical in a chaotic lab environment.
Subtle background activity: blinking devices, small sparks, bubbling liquids, moving lights, faint steam, and soft mechanical motion.
Natural lip sync, expressive face, slight head movement, believable body motion, stable camera framing, no exaggerated chaos, no camera cuts."
Prompt war:
"A slightly crazy but friendly professor stands inside a bizarre, cluttered laboratory filled with strange machines, glowing tubes, blinking lights, bubbling glass containers, cables, and eccentric scientific equipment.
He has a wild hairstyle, expressive face, and animated but controlled body language. The atmosphere is humorous, cinematic, and lightly absurd, but still believable and visually rich.
The professor looks directly into the camera and says in German:
"Kein Problem, bei mir steht und fällt das echt auch mit dem Vau Ah Eeh Dekoder. Schönen Abend!"
He gestures naturally with his hands while speaking, as if casually explaining something technical in a chaotic lab environment.
Subtle background activity: blinking devices, small sparks, bubbling liquids, moving lights, faint steam, and soft mechanical motion.
Natural lip sync, expressive face, slight head movement, believable body motion, stable camera framing, no exaggerated chaos, no camera cuts."
Anhänge
blubberbirne
Lt. Commander
- Registriert
- Okt. 2005
- Beiträge
- 1.704
zidius schrieb:
Versucht mal "normal Speed" im Prompt einzugebauen. Und für den Kamera Zoom einen negative Prompt "camera movement"
samuelclemens
Lt. Commander
- Registriert
- Nov. 2017
- Beiträge
- 1.074
Apropos.. kennt wer gute Workflows und Modelle für ComfyUI in Sachen Video Upscaler!?
Alles was ich bisher an offline und Online Tools versucht habe lieferte immerzu Mist ab. Ständig werden Details dazugedichtet oder falsch interpretiert. Zusätzlich Finger angedichtet oder Gesichter glattgebügelt.
Dazu kommt noch Inkonsistenz. ZB ein Schatten im Hintergrund der gerade noch von der KI als Briefkasten "interpretiert" wurde ist in der nächsten Szene plötzlich eine Zapfsäule!?
Bei Einzelbildern funktioniert das Upscaling einigermaßen zufriedenstellen mit ein paar versuchen.
Bei Videos hab ich aber langsam den Eindruck das man das mit der bisherigen KI Technik vergessen kann!?
Alles was ich bisher an offline und Online Tools versucht habe lieferte immerzu Mist ab. Ständig werden Details dazugedichtet oder falsch interpretiert. Zusätzlich Finger angedichtet oder Gesichter glattgebügelt.
Dazu kommt noch Inkonsistenz. ZB ein Schatten im Hintergrund der gerade noch von der KI als Briefkasten "interpretiert" wurde ist in der nächsten Szene plötzlich eine Zapfsäule!?
Bei Einzelbildern funktioniert das Upscaling einigermaßen zufriedenstellen mit ein paar versuchen.
Bei Videos hab ich aber langsam den Eindruck das man das mit der bisherigen KI Technik vergessen kann!?
- Registriert
- Nov. 2005
- Beiträge
- 1.204
Da gibts ein paar Optionen, hier ein vergleichsvideo:
YouTube
An dieser Stelle steht ein externer Inhalt von YouTube, der den Forumbeitrag ergänzt. Er kann mit einem Klick geladen und auch wieder ausgeblendet werden.
Ich bin damit einverstanden, dass YouTube-Embeds geladen werden. Dabei können personenbezogene Daten an YouTube übermittelt werden. Mehr dazu in der Datenschutzerklärung.