[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

MAIk in Farbe :cool_alt:

1773175283104.png
 
  • Gefällt mir
Reaktionen: Keuleman
Wirkt gleich ganz anders.

 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Dennis_BW und Keuleman
blubberbirne schrieb:
@Keuleman Das würde ich glatt machen wenn es eine TTS Engine geben würde die Emotionen besser vermittelt. Da habe ich leider noch nichts gescheites gefunden. Wenn da jemand einen Tipp hat, gerne her damit

Zum Klonen bestehender Stimmen sind Vibevoice und QwenTTS auf jedenfall gut. Eigene Stimmen erstellen geht prinzipiell auch mit QwenTTS. Emotionskontrolle in QwenTTS aber nur mit den mitgelieferten Stimmen - sehr gut - (oder selbst erstellten Finetunes bzw. mit Hilfe von Loras angepassten Standardstimmen), wahrscheinlich am einfachsten mit der eigenen Stimme und entsprechendem Dataset machbar.

Für einen festen Charakter, wie Maik, ist es ja erstmal wichtige eine wiedererkennbare Stimme zu haben und dann eine passende Grundstimmung/Art wie er redet. Evtl. ist es dann nicht nötig, noch für die kurzen Takes eigene Emotionssteuerung anzulegen. Dafür würde es soweit ich es sehe in Qwen TTS wie folgt gehen:

1. Stimme finden in der Node "Design Voice" im "Example Worklfow".
2. Den Workflow "Custom Save Voice" öffnen und dort die Werte in der Gruppe "2. Save Voice" genauso verwenden. Referenz Text übertragen und ganz rechts dem Charakter einen Namen geben. Dadurch wird dieser gespeichert.
3. (Refresh in comfy) und rechts die Gruppe "Group" verwenden, dort im Dropdown den neuen Charakter auswählen und die gewünschten Samples erzeugen (ggf. mit verschiedenen Seeds durchprobieren, bis es passt oder im Audioschnitt-Programm was aus mehreren Takes zusammenbasteln).

BTW Grade ist noch fish audio 2 rausgekommen, das soll gut sein, aber soweit ich es sehe, gibts noch kein lokales GUI.

Keuleman schrieb:
Da gibt's wohl noch nix. Mich schon mal schlau gelesen... das von Microsoft war wohl am Besten, ist aber wieder zurück gezogen worden. Name entfallen. Gab ein dickes und ein kleines Modell... das kleine gibt's wohl noch, das andere ist in den Tiefen verschwunden.
Ich denke Du redest von Vibevoice, das gibts nach wie vor und auch das große Modell ist im Workflow der comfyui Repo davon verlinkt.
samuelclemens schrieb:
Mich würde mal interessieren wie sicher in Bezug auf Datenschutz Comfy & CO sind!?
Klar, man kann einfach die Internetverbindung kappen während man sie benutzt. Aber wer sagt denn das die benutzten offline Modelle nicht doch hintenrum vom Material lernen oder daten zwischengespeichert werden um sie bei Gelegeheit online nach hause zu schicken?
ComfyUI ist ja open source und die Verwendung von Modellen im .safetensors- Format ist ungefärhlich: Safetensors ist ein reines Tensor-Format (numerische Daten + Metadaten), das keinen Python-Code serialisieren oder ausführen kann. Bei Modellen im (zur Anfangszeit von Stable Diffusion) verwendeten Pickle-Format ( ".ckpt" /".pt") nutzt ComfyUI einen "RestrictedUnpickler", der einige gefährliche Module blockt – aber nicht alle, also ist dort Vorsicht angebracht, falls nötig, sollten sie nur aus vertrauenswürdigen Quellen verwendet werden (lassen sich außerdem auch mit Sicherheitstool checken).
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: samuelclemens und Keuleman
Ich gestehe, ich bin bei der Installation von Speech Modellen oft an der Schwelle "Installation" und "wie nutze ich das denn bitte schön" hängen geblieben :-D Werde mir das oben defintiv aber mal angucken. VibeVoice, richtig. Das soll richtig gut sein?
 
Work in progress. Dieses mal auch kontinuierlich Audio. Beim ersten Video waren es ja einzelne Video-Audio-Snippets, die dann an der ein oder anderen Stelle gehakt haben (besonders die ersten 2 Übergänge waren halt total... noch nicht gut :-D). Aber hier wie aus einem Guß. Läuft schon durch, noch die letzten Platzhalter mit "Leben" füllen (sind noch Bilder).
Screenshot 2026-03-12 135948.png
 
Wie hast Du das Audio erzeugt?
 
Ace Step 1.5 :-D Dann als Spur rein. Einige der Sequenzen "lip sync", andere ohne Ton (bzw. dann nur Video importiert). Beim ersten Video halt arge Probleme gehabt (da mit Stückchen Video und Audio gearbeitet), jetzt anders herum und alles am Audio "aufgehangen".
 
Achso stimmt, es ist ja ein Musikvideo. Cool!
 
3 Minuten. Ich werkel da jetzt schon eine Weile dran rum, nach dem Schlager direkt eingestiegen und die Erfahrungen mitgenommen. Zu 60% fertig und es macht mich fertig, wie genial das klappt und wird :-)
 
https://github.com/Saganaki22/ComfyUI-FishAudioS2 Übrigens jetzt auch für ComfyUI. Werde es gleich mal testen. Das hat Emotionskontrolle mit an Board. Wenn es gut ist, wäre eine Möglichkeit:
  • Stimme mit Qwen TTS erstellen
  • dort als Sample verwenden und komplette Kontrolle haben
 
Ist glaube nagelneu, oder? Gestern Abend kurz gesehen. Nach dem Musikvideo mal wieder genauer rein stöbern!
 
Weiß nicht, aber das Teil läuft auch nicht auf Anhieb jedenfalls bei mir, bin grade am Schauen..

Edit: man sollte noch auf Version 0.2.6 warten bzgl. fish-audio comfy..
 
Zuletzt bearbeitet:
https://huggingface.co/black-forest-labs/FLUX.2-klein-9b-kv neues Flux Klein 9b, das schneller sein soll, wenn man mehrere Input Images verwendet.

Edit: scheint sehr VRAM-hungrig zu sein (jedenfalls nach aktuellem Stand).
Edit2: Habs mal selbst getestet, das bf16 Modell lief bei mir mit 32GB Vram grade so noch in der Standard Auflösung oder minimal erhöht, bei FHD gabs OOM.
 
Zuletzt bearbeitet:
Kennt wer ein offline Modell das Bilder im frankobelgischen Comicstil beherrscht? Für Anime findet man ja haufenweise Onlinemodelle die ausgezeichnet funktionieren. Aber ich bräuchte etwas das offline entweder in Pinokio oder Comfy leicht zu handhaben ist.
Ein Bildgenerator dem man ein Stil per Image vorgeben kann wäre auch denkbar. Ich möchte diverse Fotos unter freier Lizenz umwandeln für mein Visual Novel Gameprojekt. Ich denke damit hätte ich die größtmögliche präzision um Continuität zu ermöglichen statt zu versuchen Bilder nur mit Promts zu erzeugen.
Am besten wäre es natürlich eine ganze reihe Bilder als Stilreferenz angeben zu können um genauerer Ergebnisse zu erzielen.
Ich würde auch gern versuchen Bilder/Fotos zunächst per KI zu "beschreiben" um dann das zu nutzen es in dem vorgegeben Stil zu erzeugen.
Um ein Modell selbst zu trainieren fehlt mir leider das KnowHow und wohl auch die Hardware.
 
Stilwechseln ist normalerweise eine Aufgabe für Flux Klein oder Qwen Image Edit. Dann gibt es LORAs, die Stile stärker hervorbringen, als reines Prompting (das kann aber ggf auch schon was bringen).

Beispiel anhand eines Stock Photos mit Flux Klein 9b:

change into a painting by СУТЕЕВ aka SUTEEV

1773345493497.png
1773345553800.png


LORA (mit Stärke 1): https://civitai.com/models/1406459?modelVersionId=2736516

(Es war kein Trigger Wort angegeben, von daher nahm ich das obige, vll gehts auch ganz ohne.)
 
Zurück
Oben