[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

MechanimaL schrieb:
Ja, aber grad gesehen unter 24GB VRAM soll man einen GPTQ Modelltyp benutzen, das muss wohl händisch installiert werden:
GPTQ models require prebuilt wheels (bundled source cannot compile):


Alles im Workflow aus der Repo von oben.

Läuft bei mir nicht.. Der vermisst die Audiotools. Bekomme ich auch nicht nachinstalliert.
Ich warte daher auf eine eigenständige App, oder eine Pinokio integration.
 
Zuletzt bearbeitet:
Gute Idee, habs auch mal grad über Pinokio installiert, Test dann morgen .. das comfyUI Fish2 ist wohl noch stark WIP seitens der coder und kann ggf. Konflikte mit vorhandenen Paketen verursachen (von daher dann ggf. auch in extra comfy Umgebung verwenden)
 
Zuletzt bearbeitet:
So. Grad fertig mit dem Video. Jetzt pennen und dann morgen die Premiere :-P

EDIT: die Premiere:
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: MechanimaL
Schon nicht schlecht und ein schöner Stil mit diesem mal mehr mal weniger starken Kubismus. Womit hast Du die Ausgangsbilder gemacht? Oder hattest Du keine? btw Am Anfang die Szene fand ich etwas lang und die Dame war einmal näher an der Stadt, dann wieder weiter weg.
 
Ausgang war Z-Image Turbo. Da habe ich die Dame reineditiert mit Qwen Image Edit. Danke für Dein Feedback :-)
 
Habe jetzt mal FIsh Audio (in ultimate tts studio pro in pinokio) ausprobiert, mit der (aus qwen 3 stammenden) geklonten Stimme war die Emotionskontrolle eher mäßig wirksam.

Ohne Stimmeingabe funktioniert diese Kontrolle aber sehr gut. Dann hat man aber wiederum keine konistente Stimme. Das ist jetzt erstmal die Challenge.

Für einzelne Videos mit verschiedenen Charakteren aber sicher sehr gut, aufgrund der Kontrolle (15000 tags wie [whisper] [happy] [emphasis] usw, die auch funktionieren.

Mal noch schauen, ob indexTTS2 (auch im Studio) die vorhandene (geklonte) Stimme besser zu Emotionen bewegen kann ^^ (ah merde: das kann kein Deutsch)
 
Zuletzt bearbeitet:
Der taugt nicht viel. Zum bilder hochskalieren erst recht nicht. Da führt kein weg an SeedVR2 vorbei.
 
beim RuneXX sind jetzt übrigens auch 2 workflows für Verlängerung von Videos mittels LTX2.3 (v2v) und i2v/t2v - Erzeugung längerer Videos mit eigenem Audio :)
 
Zurück
Oben