[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

Keuleman · 10. März 2026

Da bin ich gespannt ⏳

blubberbirne · 10. März 2026

MAIk in Farbe

Keuleman · 10. März 2026

Ich sehe schon, MAIk will's wissen

Mein Projekt läuft noch, wird noch bisschen dauern.

blubberbirne · 10. März 2026

Wirkt gleich ganz anders.

Keuleman · 10. März 2026

Jau. In schwarzweiß der abgebrühte Boomer, in Farbe sympathischer und von "nebenan" :-)

MechanimaL · 11. März 2026

blubberbirne schrieb:
@Keuleman Das würde ich glatt machen wenn es eine TTS Engine geben würde die Emotionen besser vermittelt. Da habe ich leider noch nichts gescheites gefunden. Wenn da jemand einen Tipp hat, gerne her damit

Zum Klonen bestehender Stimmen sind Vibevoice und QwenTTS auf jedenfall gut. Eigene Stimmen erstellen geht prinzipiell auch mit QwenTTS. Emotionskontrolle in QwenTTS aber nur mit den mitgelieferten Stimmen - sehr gut - (oder selbst erstellten Finetunes bzw. mit Hilfe von Loras angepassten Standardstimmen), wahrscheinlich am einfachsten mit der eigenen Stimme und entsprechendem Dataset machbar.

Für einen festen Charakter, wie Maik, ist es ja erstmal wichtige eine wiedererkennbare Stimme zu haben und dann eine passende Grundstimmung/Art wie er redet. Evtl. ist es dann nicht nötig, noch für die kurzen Takes eigene Emotionssteuerung anzulegen. Dafür würde es soweit ich es sehe in Qwen TTS wie folgt gehen:

1. Stimme finden in der Node "Design Voice" im "Example Worklfow".
2. Den Workflow "Custom Save Voice" öffnen und dort die Werte in der Gruppe "2. Save Voice" genauso verwenden. Referenz Text übertragen und ganz rechts dem Charakter einen Namen geben. Dadurch wird dieser gespeichert.
3. (Refresh in comfy) und rechts die Gruppe "Group" verwenden, dort im Dropdown den neuen Charakter auswählen und die gewünschten Samples erzeugen (ggf. mit verschiedenen Seeds durchprobieren, bis es passt oder im Audioschnitt-Programm was aus mehreren Takes zusammenbasteln).

BTW Grade ist noch fish audio 2 rausgekommen, das soll gut sein, aber soweit ich es sehe, gibts noch kein lokales GUI.

Keuleman schrieb:
Da gibt's wohl noch nix. Mich schon mal schlau gelesen... das von Microsoft war wohl am Besten, ist aber wieder zurück gezogen worden. Name entfallen. Gab ein dickes und ein kleines Modell... das kleine gibt's wohl noch, das andere ist in den Tiefen verschwunden.

Ich denke Du redest von Vibevoice, das gibts nach wie vor und auch das große Modell ist im Workflow der comfyui Repo davon verlinkt.

samuelclemens schrieb:
Mich würde mal interessieren wie sicher in Bezug auf Datenschutz Comfy & CO sind!?
Klar, man kann einfach die Internetverbindung kappen während man sie benutzt. Aber wer sagt denn das die benutzten offline Modelle nicht doch hintenrum vom Material lernen oder daten zwischengespeichert werden um sie bei Gelegeheit online nach hause zu schicken?

ComfyUI ist ja open source und die Verwendung von Modellen im .safetensors- Format ist ungefärhlich: Safetensors ist ein reines Tensor-Format (numerische Daten + Metadaten), das keinen Python-Code serialisieren oder ausführen kann. Bei Modellen im (zur Anfangszeit von Stable Diffusion) verwendeten Pickle-Format ( ".ckpt" /".pt") nutzt ComfyUI einen "RestrictedUnpickler", der einige gefährliche Module blockt – aber nicht alle, also ist dort Vorsicht angebracht, falls nötig, sollten sie nur aus vertrauenswürdigen Quellen verwendet werden (lassen sich außerdem auch mit Sicherheitstool checken).

Keuleman · 11. März 2026

Ich gestehe, ich bin bei der Installation von Speech Modellen oft an der Schwelle "Installation" und "wie nutze ich das denn bitte schön" hängen geblieben :-D Werde mir das oben defintiv aber mal angucken. VibeVoice, richtig. Das soll richtig gut sein?

Keuleman · 12. März 2026

Work in progress. Dieses mal auch kontinuierlich Audio. Beim ersten Video waren es ja einzelne Video-Audio-Snippets, die dann an der ein oder anderen Stelle gehakt haben (besonders die ersten 2 Übergänge waren halt total... noch nicht gut :-D). Aber hier wie aus einem Guß. Läuft schon durch, noch die letzten Platzhalter mit "Leben" füllen (sind noch Bilder).

MechanimaL · 12. März 2026

Wie hast Du das Audio erzeugt?

Keuleman · 12. März 2026

Ace Step 1.5 :-D Dann als Spur rein. Einige der Sequenzen "lip sync", andere ohne Ton (bzw. dann nur Video importiert). Beim ersten Video halt arge Probleme gehabt (da mit Stückchen Video und Audio gearbeitet), jetzt anders herum und alles am Audio "aufgehangen".

MechanimaL · 12. März 2026

Achso stimmt, es ist ja ein Musikvideo. Cool!

Keuleman · 12. März 2026

3 Minuten. Ich werkel da jetzt schon eine Weile dran rum, nach dem Schlager direkt eingestiegen und die Erfahrungen mitgenommen. Zu 60% fertig und es macht mich fertig, wie genial das klappt und wird :-)

MechanimaL · 12. März 2026

https://github.com/Saganaki22/ComfyUI-FishAudioS2 Übrigens jetzt auch für ComfyUI. Werde es gleich mal testen. Das hat Emotionskontrolle mit an Board. Wenn es gut ist, wäre eine Möglichkeit:

Stimme mit Qwen TTS erstellen
dort als Sample verwenden und komplette Kontrolle haben

Keuleman · 12. März 2026

Ist glaube nagelneu, oder? Gestern Abend kurz gesehen. Nach dem Musikvideo mal wieder genauer rein stöbern!

MechanimaL · 12. März 2026

Ja, aber grad gesehen unter 24GB VRAM soll man einen GPTQ Modelltyp benutzen, das muss wohl händisch installiert werden:
GPTQ models require prebuilt wheels (bundled source cannot compile):

python -m pip install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu128/

Alles im Workflow aus der Repo von oben.

Keuleman · 12. März 2026

greift nicht auch das normale Comfy Offloading?

MechanimaL · 12. März 2026

Weiß nicht, aber das Teil läuft auch nicht auf Anhieb jedenfalls bei mir, bin grade am Schauen..

Edit: man sollte noch auf Version 0.2.6 warten bzgl. fish-audio comfy..

MechanimaL · 12. März 2026

https://huggingface.co/black-forest-labs/FLUX.2-klein-9b-kv neues Flux Klein 9b, das schneller sein soll, wenn man mehrere Input Images verwendet.

Edit: scheint sehr VRAM-hungrig zu sein (jedenfalls nach aktuellem Stand).
Edit2: Habs mal selbst getestet, das bf16 Modell lief bei mir mit 32GB Vram grade so noch in der Standard Auflösung oder minimal erhöht, bei FHD gabs OOM.

samuelclemens · 12. März 2026

Kennt wer ein offline Modell das Bilder im frankobelgischen Comicstil beherrscht? Für Anime findet man ja haufenweise Onlinemodelle die ausgezeichnet funktionieren. Aber ich bräuchte etwas das offline entweder in Pinokio oder Comfy leicht zu handhaben ist.
Ein Bildgenerator dem man ein Stil per Image vorgeben kann wäre auch denkbar. Ich möchte diverse Fotos unter freier Lizenz umwandeln für mein Visual Novel Gameprojekt. Ich denke damit hätte ich die größtmögliche präzision um Continuität zu ermöglichen statt zu versuchen Bilder nur mit Promts zu erzeugen.
Am besten wäre es natürlich eine ganze reihe Bilder als Stilreferenz angeben zu können um genauerer Ergebnisse zu erzielen.
Ich würde auch gern versuchen Bilder/Fotos zunächst per KI zu "beschreiben" um dann das zu nutzen es in dem vorgegeben Stil zu erzeugen.
Um ein Modell selbst zu trainieren fehlt mir leider das KnowHow und wohl auch die Hardware.

MechanimaL · 12. März 2026

Stilwechseln ist normalerweise eine Aufgabe für Flux Klein oder Qwen Image Edit. Dann gibt es LORAs, die Stile stärker hervorbringen, als reines Prompting (das kann aber ggf auch schon was bringen).

Beispiel anhand eines Stock Photos mit Flux Klein 9b:

change into a painting by СУТЕЕВ aka SUTEEV

LORA (mit Stärke 1): https://civitai.com/models/1406459?modelVersionId=2736516

(Es war kein Trigger Wort angegeben, von daher nahm ich das obige, vll gehts auch ganz ohne.)

[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

Lt. Junior Grade

Lt. Commander

Lt. Junior Grade

Lt. Commander

Lt. Junior Grade

Lt. Commander

Lt. Junior Grade

Lt. Junior Grade

Lt. Commander

Lt. Junior Grade

Lt. Commander

Lt. Junior Grade

Lt. Commander

Lt. Junior Grade

Lt. Commander

Lt. Junior Grade

Lt. Commander

Lt. Commander

Lt. Commander

Lt. Commander