Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden. Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)
Ja, aber grad gesehen unter 24GB VRAM soll man einen GPTQ Modelltyp benutzen, das muss wohl händisch installiert werden:
GPTQ models require prebuilt wheels (bundled source cannot compile):
Läuft bei mir nicht.. Der vermisst die Audiotools. Bekomme ich auch nicht nachinstalliert.
Ich warte daher auf eine eigenständige App, oder eine Pinokio integration.
from the ComfyUI portable main folder run command
.\python_embeded\python.exe -m pip install nvidia-vfx --extra-index-url https://pypi.nvidia.com
ULTIMATE TTS STUDIO PRO hat bereits Fish Speech S2 Pro mit an Board. Werde ich mir morgen mal anschauen. Das könnte direkt das sein wonach ich gesucht habe
Gute Idee, habs auch mal grad über Pinokio installiert, Test dann morgen .. das comfyUI Fish2 ist wohl noch stark WIP seitens der coder und kann ggf. Konflikte mit vorhandenen Paketen verursachen (von daher dann ggf. auch in extra comfy Umgebung verwenden)
So. Grad fertig mit dem Video. Jetzt pennen und dann morgen die Premiere :-P
EDIT: die Premiere:
YouTube
An dieser Stelle steht ein externer Inhalt von YouTube, der den Forumbeitrag ergänzt. Er kann mit einem Klick geladen und auch wieder ausgeblendet werden.
Schon nicht schlecht und ein schöner Stil mit diesem mal mehr mal weniger starken Kubismus. Womit hast Du die Ausgangsbilder gemacht? Oder hattest Du keine? btw Am Anfang die Szene fand ich etwas lang und die Dame war einmal näher an der Stadt, dann wieder weiter weg.
Habe jetzt mal FIsh Audio (in ultimate tts studio pro in pinokio) ausprobiert, mit der (aus qwen 3 stammenden) geklonten Stimme war die Emotionskontrolle eher mäßig wirksam.
Ohne Stimmeingabe funktioniert diese Kontrolle aber sehr gut. Dann hat man aber wiederum keine konistente Stimme. Das ist jetzt erstmal die Challenge.
Für einzelne Videos mit verschiedenen Charakteren aber sicher sehr gut, aufgrund der Kontrolle (15000 tags wie [whisper] [happy] [emphasis] usw, die auch funktionieren.
Mal noch schauen, ob indexTTS2 (auch im Studio) die vorhandene (geklonte) Stimme besser zu Emotionen bewegen kann ^^ (ah merde: das kann kein Deutsch)
Hast du den Upscaler von Nvidia schon getestet? grade mal mit einem sowieso schon höher aufgelösten Photo mit SeedVR2 verglichen, das gefiel mir vom Ergebnis her besser.
beim RuneXX sind jetzt übrigens auch 2 workflows für Verlängerung von Videos mittels LTX2.3 (v2v) und i2v/t2v - Erzeugung längerer Videos mit eigenem Audio