[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

blubberbirne · 12. März 2026

MechanimaL schrieb:
Ja, aber grad gesehen unter 24GB VRAM soll man einen GPTQ Modelltyp benutzen, das muss wohl händisch installiert werden:
GPTQ models require prebuilt wheels (bundled source cannot compile):

Alles im Workflow aus der Repo von oben.

Läuft bei mir nicht.. Der vermisst die Audiotools. Bekomme ich auch nicht nachinstalliert.
Ich warte daher auf eine eigenständige App, oder eine Pinokio integration.

Keuleman · 12. März 2026

Dieser ganze Text to Speech und Stimmtransfer Kram ist irgendwie noch nicht so weit...

blubberbirne · 12. März 2026

https://github.com/Comfy-Org/Nvidia_RTX_Nodes_ComfyUI

from the ComfyUI portable main folder run command
.\python_embeded\python.exe -m pip install nvidia-vfx --extra-index-url https://pypi.nvidia.com

ULTIMATE TTS STUDIO PRO hat bereits Fish Speech S2 Pro mit an Board. Werde ich mir morgen mal anschauen. Das könnte direkt das sein wonach ich gesucht habe

MechanimaL · 12. März 2026

Gute Idee, habs auch mal grad über Pinokio installiert, Test dann morgen .. das comfyUI Fish2 ist wohl noch stark WIP seitens der coder und kann ggf. Konflikte mit vorhandenen Paketen verursachen (von daher dann ggf. auch in extra comfy Umgebung verwenden)

Keuleman · 13. März 2026

So. Grad fertig mit dem Video. Jetzt pennen und dann morgen die Premiere :-P

EDIT: die Premiere:

MechanimaL · 13. März 2026

Schon nicht schlecht und ein schöner Stil mit diesem mal mehr mal weniger starken Kubismus. Womit hast Du die Ausgangsbilder gemacht? Oder hattest Du keine? btw Am Anfang die Szene fand ich etwas lang und die Dame war einmal näher an der Stadt, dann wieder weiter weg.

Keuleman · 13. März 2026

Ausgang war Z-Image Turbo. Da habe ich die Dame reineditiert mit Qwen Image Edit. Danke für Dein Feedback :-)

MechanimaL · 13. März 2026

Habe jetzt mal FIsh Audio (in ultimate tts studio pro in pinokio) ausprobiert, mit der (aus qwen 3 stammenden) geklonten Stimme war die Emotionskontrolle eher mäßig wirksam.

Ohne Stimmeingabe funktioniert diese Kontrolle aber sehr gut. Dann hat man aber wiederum keine konistente Stimme. Das ist jetzt erstmal die Challenge.

Für einzelne Videos mit verschiedenen Charakteren aber sicher sehr gut, aufgrund der Kontrolle (15000 tags wie [whisper] [happy] [emphasis] usw, die auch funktionieren.

Mal noch schauen, ob indexTTS2 (auch im Studio) die vorhandene (geklonte) Stimme besser zu Emotionen bewegen kann ^^ (ah merde: das kann kein Deutsch)

MechanimaL · 14. März 2026

blubberbirne schrieb:
https://github.com/Comfy-Org/Nvidia_RTX_Nodes_ComfyUI

from the ComfyUI portable main folder run command
.\python_embeded\python.exe -m pip install nvidia-vfx --extra-index-url https://pypi.nvidia.com

Hast du den Upscaler von Nvidia schon getestet? grade mal mit einem sowieso schon höher aufgelösten Photo mit SeedVR2 verglichen, das gefiel mir vom Ergebnis her besser.

blubberbirne · 14. März 2026

Der taugt nicht viel. Zum bilder hochskalieren erst recht nicht. Da führt kein weg an SeedVR2 vorbei.

MechanimaL · 14. März 2026

beim RuneXX sind jetzt übrigens auch 2 workflows für Verlängerung von Videos mittels LTX2.3 (v2v) und i2v/t2v - Erzeugung längerer Videos mit eigenem Audio

wobei (für Leute mit Erfahrung) das hier von KJ aktuell besser ist, was Konsistenz angeht.

Dennis_BW · 15. März 2026

samuelclemens schrieb:
Kennt wer ein offline Modell das Bilder im frankobelgischen Comicstil beherrscht?

Bei meiner Dino Kindergeschichte mache ich das mit klein9b. Einfach im prompt den Stil angeben. Klappt super ohne LORA oder irgendwas.

samuelclemens · 15. März 2026

@Dennis_BW Kannst du mir mal dein Prompts zukommen lassen?
Der Stil ist doch sehr spezifisch. So im richtung "Die Minimenschen, "Gaston", "Spirou und Fantasio". Bisher hat es kein Bildgenerator den ich online versucht habe so hinbekommen nur mit Prpmpt. Offline dauert leider jeder versuch bis zu 10 minuten!

MechanimaL · 15. März 2026

10 Minuten?! welches modell und welchen Workflow benutzt du?

samuelclemens · 15. März 2026

Das mit den 10 minuten war zuletzt "StoryDiffsion Comics" in Pinokio. Klang zunächst vielversprechend.

Eigentlich läuft bisher nur Z-Fusion mit Flux2 Klein 4B einigermaßen ohne ständig ärger zu machen. Aber auch der benötigt manchmal bis zu 5 minuten.
Und der stürzt sich irgendwie voll auf den Arbeitsspeicher während der GPU VRAM nur zur hälfte genutzt wird!?

Neuerdings... Was mach ich falsch?

Generation failed: Given normalized_shape=[2560], expected input with shape [*, 2560], but got input of size[1, 770, 7680]

Selbst kann ich Workflows in Comfy noch lange nicht erstellen und die meisten funktionieren erst gar nicht.

MechanimaL · 15. März 2026

ich empfehle ja SwarmUI für Bilderstellung, da brauchst Du kein comfy zu verstehen, auch wenn es das benutzt. Mit Deiner Grafikkarte sollte mehr drin sein als 4B. Du brauchst für Swarm auch kein Pinokio, da es (wie Pinokio auch) eine eigene Python Umgebung erstellt.

https://github.com/mcmonkeyprojects/SwarmUI?tab=readme-ov-file#installing-on-windows
https://huggingface.co/black-forest-labs/FLUX.2-klein-9b-fp8/tree/main
oder vll sogar das volle Modell, wie hier verlinkt, da steht auch, wo was in SwarmUI hinkommt. Dann im UI unten das Modell auswählen, die Steps auf 4-8 , cfg1 mit (flux klein) und Prompt und Abfahrt.

(bei der ersten Nutzung werden ggf. CLIP Modelle und weiteres heruntergeladen. Unter Server-> Info (wenn du auf "debug" stellst) hast du console mäßig genauere Info, was grade passiert.)

Dennis_BW · 16. März 2026

samuelclemens schrieb:
@Dennis_BW Kannst du mir mal dein Prompts zukommen lassen?
Der Stil ist doch sehr spezifisch. So im richtung "Die Minimenschen, "Gaston", "Spirou und Fantasio". Bisher hat es kein Bildgenerator den ich online versucht habe so hinbekommen nur mit Prpmpt. Offline dauert leider jeder versuch bis zu 10 minuten!

Musste jetzt ein wenig Suchen und überlegen, bei welcher Idee das bei mir aufkam. Versucht habe ich einfach zu viel.

Prompt: franco-belgian comic style of a cute yellow and orange tyrannosaur-rex with big eyes is sitting on a a broken egg shell as he is freshly eclosed of the egg shell, his facial expression is a mix of joy and curiosity, the egg shell is located on the ground of a cave, muted color grading

Prompt: spirou and fantasio comic style of a cute yellow and orange tyrannosaur-rex with big eyes is sitting on a a broken egg shell as he is freshly eclosed of the egg shell, his facial expression is a mix of joy and curiosity, the egg shell is located on the ground of a cave, muted color grading

Prompt: spirou and fantasio comic style of a cute yellow and orange tyrannosaur-rex with big eyes is sitting on a a broken egg shell as he is freshly eclosed of the egg shell, his facial expression is a mix of joy and curiosity, the egg shell is located on the ground of a cave, muted color grading

Der Stil geht also einfach in gewissem Maße im Prompt. Für manches gibt's auch LORAs, mit denen es dann eventuell besser passt.

samuelclemens · 20. März 2026

Könnte mir einer erklären wie man in ComfyUI die LoRA Knoten verknüpft und worauf man da achten muss?
Ich weiss das man die LoRA Datei im Unterordner "loras" reinkopiert und wie man den Knoten zum Workflow hinzufügt aber nicht wie und womit man ihn korrekt verbindet.

Bisher hab ich mit dem zweiten Referenzbild und einem einfachen Promt gearbeitet um Fotos in ein Comicstyle zu verwandeln. Das klappt mehr oder weniger gut. Ich würde aber gern mit LoRAs arbeiten um konsistentere ergebnisse zu erzielen.
Im zweiten Schritt würde ich dann gern die erstellung eigener LoRAs in angriff nehmen. Aber später.

MechanimaL · 20. März 2026

In die Nudel, die vom Load Diffusion Model weggeht (also zwischen dieser Node und der nächsten Node).

Du hast da glaub ich einen Workflow für das KV Model von Flux Klein, das brauchst Du im Grunde nur, wenn Du mehr als 2 Input Bilder verwendest. Es ist dann schneller, als das vorherige. (Wobei es sein könnte, dass es auch mehr VRAM braucht, jedenfalls war das zum Release so, könnte auch mittlerweile mit dieser KV Cache Node ganz oder teilweise behoben sein).

Wenn du text2image machen möchtest, also nicht auf Basis von bestehenden Bildern arbeiten, kannst du den Workflow bei Comfyui unter Templates von FluxKLein9B nehmen.

Beim Modell das ohne "base" im Namen runterladen. Und den unteren Teil vom Workflow (oberen deaktivieren) siehe 2. bild.
Dann im Subgraph noch den Lora Loader einbinden und Steps auf 8 erhöhen (kannst natürlich auch mit 4 arbeiten und vergleichen, ob sichs lohnt mit mehr). Auch Sampler kann man verschiedene durchprobieren, je nach Stil, wenn du den Seed auf fixed stellst, kannst du dann Ergebnisse vergleichen. (siehe bild 3)

samuelclemens · 20. März 2026

MechanimaL schrieb:
Wenn du text2image machen möchtest, also nicht auf Basis von bestehenden Bildern arbeiten, kannst du den Workflow bei Comfyui unter Templates von FluxKLein9B nehmen.

Wenn ich das mit den selbst erstellten LoRAs besser hinbekomme als mit einem zweiten Bild als Referenz umso besser. Wie man LoRAs nun genau erstellt ist eine andere Frage!

Textpromt würde ich lieber dann nur für änderungen am Ausgangsbild verwenden zb ändere die Perspekive, füge das und dies hinzu usw. Den Stil soll es vom LoRA übernehmen statt es jedes mal im Text lang zu beschreiben. Bin mir aber noch nicht sicher wie ich den Prompt ausformuliere das es den Style nur vom LoRA übernimmt!?
Ich kann ja erstmal mit fertigen zum download arbeiten.
Aber ja, momentan war es Absicht mit einem zweiten image zu arbeiten.

Also richtig verstanden zwischen dem "load diffusion model" knoten und dem "Flux KV Cache"?

[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

Lt. Commander

Lt. Junior Grade

Lt. Commander

Lt. Commander

Lt. Junior Grade

Lt. Commander

Lt. Junior Grade

Lt. Commander

Lt. Commander

Lt. Commander

Lt. Commander

Cadet 4th Year Pro

Lt. Commander

Lt. Commander

Lt. Commander

Lt. Commander

Cadet 4th Year Pro

Lt. Commander

​

Anhänge

Lt. Commander

Lt. Commander