[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

MechanimaL schrieb:
Ja, aber grad gesehen unter 24GB VRAM soll man einen GPTQ Modelltyp benutzen, das muss wohl händisch installiert werden:
GPTQ models require prebuilt wheels (bundled source cannot compile):


Alles im Workflow aus der Repo von oben.

Läuft bei mir nicht.. Der vermisst die Audiotools. Bekomme ich auch nicht nachinstalliert.
Ich warte daher auf eine eigenständige App, oder eine Pinokio integration.
 
Dieser ganze Text to Speech und Stimmtransfer Kram ist irgendwie noch nicht so weit...
 
Zuletzt bearbeitet:
Gute Idee, habs auch mal grad über Pinokio installiert, Test dann morgen .. das comfyUI Fish2 ist wohl noch stark WIP seitens der coder und kann ggf. Konflikte mit vorhandenen Paketen verursachen (von daher dann ggf. auch in extra comfy Umgebung verwenden)
 
Zuletzt bearbeitet:
So. Grad fertig mit dem Video. Jetzt pennen und dann morgen die Premiere :-P

EDIT: die Premiere:
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Der Nachbar und MechanimaL
Schon nicht schlecht und ein schöner Stil mit diesem mal mehr mal weniger starken Kubismus. Womit hast Du die Ausgangsbilder gemacht? Oder hattest Du keine? btw Am Anfang die Szene fand ich etwas lang und die Dame war einmal näher an der Stadt, dann wieder weiter weg.
 
Ausgang war Z-Image Turbo. Da habe ich die Dame reineditiert mit Qwen Image Edit. Danke für Dein Feedback :-)
 
Habe jetzt mal FIsh Audio (in ultimate tts studio pro in pinokio) ausprobiert, mit der (aus qwen 3 stammenden) geklonten Stimme war die Emotionskontrolle eher mäßig wirksam.

Ohne Stimmeingabe funktioniert diese Kontrolle aber sehr gut. Dann hat man aber wiederum keine konistente Stimme. Das ist jetzt erstmal die Challenge.

Für einzelne Videos mit verschiedenen Charakteren aber sicher sehr gut, aufgrund der Kontrolle (15000 tags wie [whisper] [happy] [emphasis] usw, die auch funktionieren.

Mal noch schauen, ob indexTTS2 (auch im Studio) die vorhandene (geklonte) Stimme besser zu Emotionen bewegen kann ^^ (ah merde: das kann kein Deutsch)
 
Zuletzt bearbeitet:
Der taugt nicht viel. Zum bilder hochskalieren erst recht nicht. Da führt kein weg an SeedVR2 vorbei.
 
beim RuneXX sind jetzt übrigens auch 2 workflows für Verlängerung von Videos mittels LTX2.3 (v2v) und i2v/t2v - Erzeugung längerer Videos mit eigenem Audio :)

wobei (für Leute mit Erfahrung) das hier von KJ aktuell besser ist, was Konsistenz angeht.
 
Zuletzt bearbeitet:
samuelclemens schrieb:
Kennt wer ein offline Modell das Bilder im frankobelgischen Comicstil beherrscht?
Bei meiner Dino Kindergeschichte mache ich das mit klein9b. Einfach im prompt den Stil angeben. Klappt super ohne LORA oder irgendwas.
 
@Dennis_BW Kannst du mir mal dein Prompts zukommen lassen?
Der Stil ist doch sehr spezifisch. So im richtung "Die Minimenschen, "Gaston", "Spirou und Fantasio". Bisher hat es kein Bildgenerator den ich online versucht habe so hinbekommen nur mit Prpmpt. Offline dauert leider jeder versuch bis zu 10 minuten!
 
10 Minuten?! welches modell und welchen Workflow benutzt du?
 
Das mit den 10 minuten war zuletzt "StoryDiffsion Comics" in Pinokio. Klang zunächst vielversprechend.

Eigentlich läuft bisher nur Z-Fusion mit Flux2 Klein 4B einigermaßen ohne ständig ärger zu machen. Aber auch der benötigt manchmal bis zu 5 minuten.
Und der stürzt sich irgendwie voll auf den Arbeitsspeicher während der GPU VRAM nur zur hälfte genutzt wird!?

Neuerdings... Was mach ich falsch?
Generation failed: Given normalized_shape=[2560], expected input with shape [*, 2560], but got input of size[1, 770, 7680]

Selbst kann ich Workflows in Comfy noch lange nicht erstellen und die meisten funktionieren erst gar nicht.
 
Zuletzt bearbeitet:
ich empfehle ja SwarmUI für Bilderstellung, da brauchst Du kein comfy zu verstehen, auch wenn es das benutzt. Mit Deiner Grafikkarte sollte mehr drin sein als 4B. Du brauchst für Swarm auch kein Pinokio, da es (wie Pinokio auch) eine eigene Python Umgebung erstellt.

https://github.com/mcmonkeyprojects/SwarmUI?tab=readme-ov-file#installing-on-windows
https://huggingface.co/black-forest-labs/FLUX.2-klein-9b-fp8/tree/main
oder vll sogar das volle Modell, wie hier verlinkt, da steht auch, wo was in SwarmUI hinkommt. Dann im UI unten das Modell auswählen, die Steps auf 4-8 , cfg1 mit (flux klein) und Prompt und Abfahrt.

(bei der ersten Nutzung werden ggf. CLIP Modelle und weiteres heruntergeladen. Unter Server-> Info (wenn du auf "debug" stellst) hast du console mäßig genauere Info, was grade passiert.)
 
samuelclemens schrieb:
@Dennis_BW Kannst du mir mal dein Prompts zukommen lassen?
Der Stil ist doch sehr spezifisch. So im richtung "Die Minimenschen, "Gaston", "Spirou und Fantasio". Bisher hat es kein Bildgenerator den ich online versucht habe so hinbekommen nur mit Prpmpt. Offline dauert leider jeder versuch bis zu 10 minuten!
Musste jetzt ein wenig Suchen und überlegen, bei welcher Idee das bei mir aufkam. Versucht habe ich einfach zu viel.
Prompt: franco-belgian comic style of a cute yellow and orange tyrannosaur-rex with big eyes is sitting on a a broken egg shell as he is freshly eclosed of the egg shell, his facial expression is a mix of joy and curiosity, the egg shell is located on the ground of a cave, muted color grading

z-image_00002_.png
Prompt: spirou and fantasio comic style of a cute yellow and orange tyrannosaur-rex with big eyes is sitting on a a broken egg shell as he is freshly eclosed of the egg shell, his facial expression is a mix of joy and curiosity, the egg shell is located on the ground of a cave, muted color grading

z-image_00003_.png
Prompt: spirou and fantasio comic style of a cute yellow and orange tyrannosaur-rex with big eyes is sitting on a a broken egg shell as he is freshly eclosed of the egg shell, his facial expression is a mix of joy and curiosity, the egg shell is located on the ground of a cave, muted color grading

klein9b_546753548128362 _00001_.png

Der Stil geht also einfach in gewissem Maße im Prompt. Für manches gibt's auch LORAs, mit denen es dann eventuell besser passt.
 
  • Gefällt mir
Reaktionen: samuelclemens
Könnte mir einer erklären wie man in ComfyUI die LoRA Knoten verknüpft und worauf man da achten muss?
Ich weiss das man die LoRA Datei im Unterordner "loras" reinkopiert und wie man den Knoten zum Workflow hinzufügt aber nicht wie und womit man ihn korrekt verbindet.

Bisher hab ich mit dem zweiten Referenzbild und einem einfachen Promt gearbeitet um Fotos in ein Comicstyle zu verwandeln. Das klappt mehr oder weniger gut. Ich würde aber gern mit LoRAs arbeiten um konsistentere ergebnisse zu erzielen.
Im zweiten Schritt würde ich dann gern die erstellung eigener LoRAs in angriff nehmen. Aber später.

 

Anhänge

  • Workflow2.jpg
    Workflow2.jpg
    171,8 KB · Aufrufe: 41
In die Nudel, die vom Load Diffusion Model weggeht (also zwischen dieser Node und der nächsten Node).

Du hast da glaub ich einen Workflow für das KV Model von Flux Klein, das brauchst Du im Grunde nur, wenn Du mehr als 2 Input Bilder verwendest. Es ist dann schneller, als das vorherige. (Wobei es sein könnte, dass es auch mehr VRAM braucht, jedenfalls war das zum Release so, könnte auch mittlerweile mit dieser KV Cache Node ganz oder teilweise behoben sein).

Wenn du text2image machen möchtest, also nicht auf Basis von bestehenden Bildern arbeiten, kannst du den Workflow bei Comfyui unter Templates von FluxKLein9B nehmen.

Beim Modell das ohne "base" im Namen runterladen. Und den unteren Teil vom Workflow (oberen deaktivieren) siehe 2. bild.
Dann im Subgraph noch den Lora Loader einbinden und Steps auf 8 erhöhen (kannst natürlich auch mit 4 arbeiten und vergleichen, ob sichs lohnt mit mehr). Auch Sampler kann man verschiedene durchprobieren, je nach Stil, wenn du den Seed auf fixed stellst, kannst du dann Ergebnisse vergleichen. (siehe bild 3)

1774037547018.png
1774037906565.png
1774038139847.png
 
Zuletzt bearbeitet:
MechanimaL schrieb:
Wenn du text2image machen möchtest, also nicht auf Basis von bestehenden Bildern arbeiten, kannst du den Workflow bei Comfyui unter Templates von FluxKLein9B nehmen.
Wenn ich das mit den selbst erstellten LoRAs besser hinbekomme als mit einem zweiten Bild als Referenz umso besser. Wie man LoRAs nun genau erstellt ist eine andere Frage! ;)
Textpromt würde ich lieber dann nur für änderungen am Ausgangsbild verwenden zb ändere die Perspekive, füge das und dies hinzu usw. Den Stil soll es vom LoRA übernehmen statt es jedes mal im Text lang zu beschreiben. Bin mir aber noch nicht sicher wie ich den Prompt ausformuliere das es den Style nur vom LoRA übernimmt!?
Ich kann ja erstmal mit fertigen zum download arbeiten.
Aber ja, momentan war es Absicht mit einem zweiten image zu arbeiten.

Also richtig verstanden zwischen dem "load diffusion model" knoten und dem "Flux KV Cache"?
 
Zuletzt bearbeitet:
Zurück
Oben