[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

blubberbirne · 3. August 2025

MechanimaL schrieb:
Auf jedenfall sind das Plastikhaut- und das Kinnproblem gelöst und das Modell erzeugt ästhetisch ansprechende Bilder. Der Realismus von WAN ist schon umwerfend- mal sehen, wie weit sich Krea da rantastet. Relativ wahrscheinlich ersetzt es bei den meisten schonmal Flux1Dev.. Werde es die Tage noch weiter testen. Auf jedenfall schön, dass wir soviele gute Modelle haben, für Video und Foto. Bin schon gespannt auf VACE, Phantom usw. für Wan2.2

Anhang anzeigen 1642927
A matte photo of a woman sitting on a bench after lifting weights, breathing heavily, her skin glistening. She’s wearing a tight navy sports bra and matching shorts. Her black hair is in a high messy bun, and she sips from a water bottle. Industrial gym background with soft shadows. Camera is close-up at eye level, focusing on her intense, sexy expression.

Anhang anzeigen 1642929
A HDR-style photo of a fit woman doing rope slams in a gritty underground gym. She's wearing dark green shorts and a strappy sports top, her muscles defined and shining with sweat. Her fiery red hair is in a braid. Harsh overhead lighting creates dramatic shadows. Camera is frontal, low-angle, emphasizing her power and physique.

Hat etwas gedauert. Hier mal mit meinen WAN Workflow

Vigilant · 3. August 2025

Interessant, dass die Pupillen so gut gelingen. Magst etwas zum verwendeten Workflow, Model, Sampler-Einstellungen und Lora sagen?

Upscale mit UniScale und anschließendem downsize, damit die Dateigröße hier passt:

blubberbirne · 3. August 2025

Ich nutze zwei Loras

WAN2.1_T2V_14B_FusionX_Lora (0.4)
pusa v1 (0.4)

Sampler: res_2s
Scheduler: bong_tangent
8 Steps

Im Nachgang kommt noch der Ultimate Upscaler mit 4x clearreality v1

blubberbirne · 3. August 2025

Now we have the salat

Nun habe ich spass am Videos generieren mit WAN

MechanimaL · 3. August 2025

Wan kann im (Querformat zumindest) auch direkt auf 1920x1088 fehlerfrei erzeugen, zieht dann aber viel VRAM (zw 80-90% von 32GB). Ob sich das reduzieren ließe mit blockswap, was man bei der Videoerzeugung benutzen kann? Der comfyui-native Workflow macht das soweit ich weiß ja automatisch, funktioniert laut KJ aber nicht immer. Mh, das müsstet ihr bei Interesse mal probieren.

Ich verschaffe mir demnächst aber trotzdem auch mal einen Überblick, was generell so an Upscalern verwendet findet in Kombi mit WAN. Da es selbst schon so gut ist, ist die Gefahr es zu verschlechtern auf jedenfall gegeben ^^

Muss mal noch schauen, wie ich den Filmgrain genau steuere und welche Node da am besten ist, je nach Bild möchte man das vll mal mehr mal weniger. (Momentan "Fast film grain node mit 0.03, 0.5). Im Anhang noch zum letzten mal

die Fitness Lady mit der Flasche, einmal mit Grain, einmal ohne, mit FusionX Lora (1.0) und 12 Steps.

BTW: Der res_2s / bong_tangent (wie ihn blubber auch benutzt) wird häufig empfohlen mit WAN. Man bekommt ihn über diese Custom-Node:

RES4LYF (im Manager suchen).

Vigilant schrieb:
Upscale mit UniScale und anschließendem downsize, damit die Dateigröße hier passt:

Wenn Du genauer schaust, hast Du Dir irgendwo im Prozess so ein punkte-/raster-Muster eingefangen, sieht man an den Haaren oder an manchen Stellen der Haut.

@blubberbirne ja das mit den Videos kenne ich.. es ist wie bei bei manchen (turn based) Spielen: "Nur noch einmal drücken.." ^^ Geht halt auch flott mittlerweile, sogar mit weniger VRAM (was ich so lese).

blubberbirne · 3. August 2025

Wenig VRAM ist relativ. Meine 5070Ti kotz richtig ab bei 720P Videos. 480P ist kein Problem. Bin Froh das ich 96GB RAM habe. Bei der Generierung geht der RAM Verbrauch bei mir bis knapp 80GB hoch.

EDIT: Wo wir gerade beim Abkotzen sind. Meine Karte scheint einen weg zu haben. Ist eben 2x bei der Video Generierung abgeschmirt. Monitor ging aus. Karten Lüften drehen hochtouring. PC ist aber nicht abgeschmiert. Nur kein Bild mehr. Nach einen Reset gehts erstmal wieder.

MechanimaL · 3. August 2025

Leben am Limit

PS: Das mit dem Absturz sollte aber nicht passieren, evtl Netzteil zu schwach? Schau vll mal nach Verbrauch und Temps. Viel Glück, dass Du es gefixt kriegst.

blubberbirne · 4. August 2025

@MechanimaL Pure Power 850W sollte eigentlich locker reichen. Habe mir aber erstmal ein anderes Netzteil organsiert. Ich glaube aber nicht das es an diesen liegt. Muss mir heute Abend mal den 600W Stecker anschauen.

MechanimaL · 4. August 2025

Hallo, ja das dachte nachträglich auch noch, dass eigtl bei Netzteil Schwäche ja das System rebootet bzw es zu Abschaltung kommt, soweit ich weiß, bei dir betrifft es aber ja nur die Grafikkarte. Übertaktet hast Du da nix (zb VRAM) ?OK hier im Forum findest Du sicher Hilfe, wenn Du es nicht selbst herausfindest. Hast Du die Temperaturen mal im Auge behalten?

Und ja viel RAM lohnt sich, das wird genutzt im block-swapping und kann auch gut funktionieren, sofern genügend RAM da ist und es nicht ganz ans Limit kommt, da hatte ich zufällig einen KOmmentar von Kijai gelesen,wie man vorgehen kann, wenn man den Eindruck hat, das block-swapping nicht funktioniert, nämlich dem System mehr VRAM zugestehen:

You don't need block swap in native as it's done automatically in the background, there are issues with it related to how it estimates the needed VRAM, for one it doesn't take your operating system's VRAM use into account which can lead to it seemingly not working, common issue in Windows especially. One way to counter that is launch Comfy with --reserve-vram 2 which would reserve extra 2GB that should be enough room for it to work better.

blubberbirne · 4. August 2025

Ne, übertaktet ist nix. Läuft alles Stock. Ich werde heute abend das ganze mal näher beobachten. Denke auch nicht das es am Netzteil liegt. Aber sicher ist sicher. Bekomme zum Glück ein Muster kostenlos zugeschickt.
Eventuell werde ich die Karte mal untervolten um Thermische Probleme ausschließen zu können.
Wenn das alles nicht hilft, wird die Karte halt reklamiert, was dann vermutlich eh in einer Gutschrift enden wird.

EDIT: Falls es interessiert. Ich habe heute abend einen Crash mit der Action Cam gefilmt. Wie ich vermutet habe. Es läuft alles normal weiter. Kann den PC sogar normal über einen Hotkey runterfahren.
Habe nun mit AfterBurner undervoltet. 10 Grad weniger. und 100W geniger mit 800mV. Warum habe ich das nicht schon früher umgesetzt.

MechanimaL · 6. August 2025

Hey, also Überhitzung? Welche Karte genau hast Du eigtl? Musst nur schauen, dass es stabil läuft, ich hatte mit meiner 3090 auch undervolted, in Spielen /Benchmarktests usw. garkeine Probleme und auf ca 300W max dadurch. Aber dann hatte ich manchmal Abstürze in Bild KI Programmen, also keine Totalabstürze, sondern tatsächlich mit Fehlermdeldungen CUDA usw. hat ne Weile gedauert bis ich gecheckt habe, dass das Problem das Undervolting war und nicht irgendwas anderes.

PS: ComfyUI hat grade wieder ein Update gehabt, das Optimierungen bei der Speichernutzung beinhaltet. Innerhalb weniger Tage gleich zwei Updates, die etwas derartiges beinhalten (das vorherige bezog sich insb. auf WAN). Also immer schön Up2date halten

blubberbirne · 6. August 2025

Bei Comfyui bin ich immer up2date.

Ich habe eine Inno3D 5070Ti X3 OC. War zum Anschaffungszeitpunkt die einzig Verfügbare 5070Ti.
Die Karte läuft mit 800mV echt Bombe. Keine Freezes, nix. Speicher ist auch um 1000Mhz übertaktet.

MechanimaL · 7. August 2025

Cool dann viel Glück, dass sich die Stabilität bewährt👍 Manchmal liegt der Sweetspot ja im Undervolting, mehr oder gleichviel Leistung - weniger Verbrauch+Temps

Neues Model QWEN-Image

Sehr starkes Promptverständnis
Neue #1 im Text-Verständnis/-darstellung im Open Source Bereich ?
Editier-Funktion/Kontext-Verständnis ("Edit Model" noch nicht veröffentlicht)
Unterstützt und kennt viele Stile, hervorragend auch im Anime Bereich
ComfyUI Installations Anleitung (Auch in SwarmUI 0Day Support)
HugginFace Seite inkl. Demo/Spaces
Apache 2.0 Lizenz

MechanimaL · 8. August 2025

Wer wan 2.2. mal ausprobieren möchte, aber nicht über genügend VRAM verfügt, könnte das hier mal probieren: https://huggingface.co/Phr00t/WAN2.2-14B-Rapid-AllInOne

Rickmer · 21. August 2025

Jetzt gibt's QWEN auch als Editing-Modell a la Kontext... nur, dass es (wie man hoffen und erwarten würde) das bessere Prompt-Verständnis von QWEN mitbringt. Yay.

Kommt es eigentlich mir nur so vor, oder ist die 'custom AI model community' halb tot? Wenn man überlegt was es am Anfang für riesige User getriebene Entwicklungen gegeben hatte... mittlerweile sehe ich praktisch nichts der Art mehr.

Bei CivitAI wird - wenn man nach Anzahl der Downloads sortiert - die Website noch immer komplett von SD1.5 dominiert. Aber... wann habt ihr zuletzt SD1.5 genutzt? Mir ist das einfach viel zu strohdumm. Wenn's auch nur leicht ungewöhnlich sein soll braucht man schon Loras und/oder controlnet und alles mit höherer Komplexität geht nur durch großzügigen Einsatz von Inpainting oder manuell selber editen um Fehler auszumerzen.

Dagegen können neue AI Modelle wie QWEN fast alles viel besser nur auf Basis von Text Input. Vorausgesetzt wenn man mindestens 16GB VRAM hat...

Wobei mir bisher kein open weights* Bildgenerator bekannt ist, der weiß was eine Armbrust ist. (Ohne Lora zumindest... und ich habe genau ein Armbrust Lora gefunden bei kurzer Suche.)
*Was auch immer Microsoft aktuell nutzt für das kostenlose Copilot im Edge weiß, was eine Armbrust ist.

Beispiel: Eine Konfrontation

Nightflyer is a small 12 year old girl who wears Wears a professional-looking black skintight full bodysuit and a barn owl's skull. She has her hair gathered in a low bun against the high of her neck. She is carrying an unloaded crossbow, aimed at Sophia.

Sophia is a black skinned 14 year old girl who wears a heavy black cloak and black bodysuit with black-painted metal kneepads, gauntlets, belts and pockets. Her face is hidden behind a scary hockey mask. Her costume included a voluminous cloak in dark gray urban-camouflage, with a hood.

Both girls are on top of a roof in an urban environment, having just fought. Sophia is down on the ground, cradling her knee with a crossbow bolt shot through the knee. It is past midnight and the city lights are off due to a blackout, leaving very little light.

The camera perspective is from behind and above Nightflyer looking down on Sophia. Ethereal anime-style illustration in loose watercolor technique.

Da hat einiges nicht geklappt mit dem Verständnis, u.A.

wear a barn owl's skull (stattdessen eine Eulenmaske...)
blackout (also ich sehe sehr viele Lichter...)
crossbow (siehe oben)
der Bolzen im Knie hat auch eher schlecht als recht funktioniert und von 'cradling' sehe ich hier nichts

(Und ja, das ist eine Scene aus einer Geschichte, die ich visuell nachstellen wollte)

twx24 · 22. August 2025

Rickmer schrieb:
Jetzt gibt's QWEN auch als Editing-Modell a la Kontext... nur, dass es (wie man hoffen und erwarten würde) das bessere Prompt-Verständnis von QWEN mitbringt. Yay.

Kommt es eigentlich mir nur so vor, oder ist die 'custom AI model community' halb tot? Wenn man überlegt was es am Anfang für riesige User getriebene Entwicklungen gegeben hatte... mittlerweile sehe ich praktisch nichts der Art mehr.

Bei CivitAI wird - wenn man nach Anzahl der Downloads sortiert - die Website noch immer komplett von SD1.5 dominiert. Aber... wann habt ihr zuletzt SD1.5 genutzt? Mir ist das einfach viel zu strohdumm. Wenn's auch nur leicht ungewöhnlich sein soll braucht man schon Loras und/oder controlnet und alles mit höherer Komplexität geht nur durch großzügigen Einsatz von Inpainting oder manuell selber editen um Fehler auszumerzen.

SD15 sieht einfach sehr bescheiden aus im Vergleich zur Flux-Familie oder Qwen. Der einzige Vorteil ist noch, dass man durch die komplexen Workflows mit allerlei Zeugs zusagen gezwungen ist, sich tiefer mit der Materie zu beschäftigen und teilweise wild zu experimentieren. SDXL geht hier noch, die Qualität ist deutlich besser gerade wenn man upscalen will.

Ich werfe gerade viele SD15 Projekte auch irgendwie einfach weg, weil sie schlecht sind oder durch defekte Nodes und fehlende Ausgangsbilder nicht mehr reproduzierbar, oder upscale/detaile ein paar gute Bilder daraus mit Flux.

Wegen den steigenden Anforderung der neuen, besseren Modelle warte ich auf RTX 5000 "Super"-Karten mit 24 GB, es ist mit 16 GB halt mittlerweile auch irgendwie knapp. Qwen scheint bei mir auch nur mit GGUF quantisiert zu laufen und weniger werden die Anforderungen zukünftig eher nicht.

Keuleman · 22. August 2025

@blubberbir
Jetzt muss ich fragen... die Videos sind komplett lokal entstanden? Ich experimentiere mit automatic1111 rum und möchte gerne auch mal Videos testen. Ich würde mich freuen, wenn Du mir kurz listest, was Du an Komponenten hernimmst (also comfyui und gerne Modelle etc).

MechanimaL · 22. August 2025

Rickmer schrieb:
Jetzt gibt's QWEN auch als Editing-Modell a la Kontext... nur, dass es (wie man hoffen und erwarten würde) das bessere Prompt-Verständnis von QWEN mitbringt. Yay.

Ja, dafür braucht es aber manchmal auch genauere Ansagen, zb. die Umwandlung eines Screenshots einer Comic TV (Kinder-) Serie zu einem Ausmalbild, ging mit einfachem Prompt mit Kontext direkt, QWEN benötigte eine noch genauere Ausführung. Andererseits hab ich jetzt einige Beispiele gesehen, wo letztlich komplexe Probleme rein mit Prompting gelöst werden konnten, dank des eigenen LLMs das QWEN verwendet.

Rickmer schrieb:
Kommt es eigentlich mir nur so vor, oder ist die 'custom AI model community' halb tot? Wenn man überlegt was es am Anfang für riesige User getriebene Entwicklungen gegeben hatte... mittlerweile sehe ich praktisch nichts der Art mehr.

Also was Finetunes der Models angeht, ist das wohl so, allerdings liegt das ja (soweit ich weiß) hauptsächlich daran, dass es mit den meisten neueren Models technisch nicht gut möglich ist und/oder zuviel Ressourcen benötigen würde. Bei 1.5 und SDXL waren es halt Quantensprünge an Qualität von den Base Models zu den Finetunes. Bei WAN, QWEN, FLux sind die Base models schon weitaus besser und da kommen dann eben LORAs und Optimierungen in anderen Bereichen dazu. Vieles an Energie fließt heute in Implementierung neuer Modelle und Tools, sowie Optimierung (letzteres umso nötiger um alles auf consumer grade Hardware zum Laufen zu kriegen) und neue LORAs gibt es ja für alle Modelle weiterhin.

Rickmer schrieb:
Bei CivitAI wird - wenn man nach Anzahl der Downloads sortiert - die Website noch immer komplett von SD1.5 dominiert. Aber... wann habt ihr zuletzt SD1.5 genutzt? Mir ist das einfach viel zu strohdumm. Wenn's auch nur leicht ungewöhnlich sein soll braucht man schon Loras und/oder controlnet und alles mit höherer Komplexität geht nur durch großzügigen Einsatz von Inpainting oder manuell selber editen um Fehler auszumerzen.

Wenn man auf letzter Monat stellt, ist da nichts mehr von 1.5 zu sehen in den oberen Reihen, die werden dominiert von IL(lustrious), Flux und SDXL.

Rickmer schrieb:
Dagegen können neue AI Modelle wie QWEN fast alles viel besser nur auf Basis von Text Input. Vorausgesetzt wenn man mindestens 16GB VRAM hat...

Mit gguf Modellen sollte es auch schon mit weniger VRAM gehen. Aber ja: "With great power, comes great VRAM Usage"

Rickmer schrieb:
Wobei mir bisher kein open weights* Bildgenerator bekannt ist, der weiß was eine Armbrust ist. (Ohne Lora zumindest... und ich habe genau ein Armbrust Lora gefunden bei kurzer Suche.)
*Was auch immer Microsoft aktuell nutzt für das kostenlose Copilot im Edge weiß, was eine Armbrust ist.

Wie wäre es, wenn Du mal versucht entweder so zu prompten, dass die Armbrust verstanden wird via Beschreibung oder - das geht ja auch - versuchst, das Bild einer Armbrust als Referenz für die Erzeugung oder beim Inpainting zu verwenden? Tatsächlich könnte es sein, dass verschiedene Begriffe probiert werden müssen, bzw. Beschreibungen, ggf. auch mal chinesisch probieren, das wird vom Sprachmodell am allerbesten verstanden afaik.

Wan2.2 weiß schon eher was ein "crossbow" ist.

Noch ein kleiner Nachtrag zum Thema. QWEN ist schon ein mächtiges Modell, aber natürlich bleiben Challenges bestehen, wenn ein Konzept oder eine Sache nicht bekannt ist. Ich bin mir aber sicher, dass es mit einem gewissen Aufwand möglich ist, auch das Bild mit den Mädchen auf dem Dach zu erstellen, gerade mit Hilfe von QWEN Edit. Vll könnte man den Charakter erstmal mit einem anderen Modell erstellen (wie zb. Illustrious inkl. Armbrust LORA) und ihn dann einfügen, bzw. ersetzen. Es gibt bestimmt mehrere Wege. Eine Armbrust anhand eines Inputs abzubilden ist das kleinere Problem, dass diese auch richtig gehalten wird ist schwieriger:

Im Fotorealismus wurde das Prompt bzgl. Dunkelheit auch mehr gewürdigt, hier, wo die (via Image Input gegebene Armbrust) mal richtig gehalten wurde, sieht man die Hälfte nicht (oder sie ist nicht da).

Es könnte sich generell auch lohnen, ein Konzept zunächst als Foto zu entwickeln, wenn da die Darstellung besser klappt und im letzten Schritt zum gewünschten Stil (Bspw. Anime) umzuwandeln.
Die optimale Anwendung von QWEN an sich und insb. der EDIT Version wird ja grade erst so richtig getestet, um nicht zu sagen erforscht ^^

Hier mal noch drei videos, eines mit Workflows, eines mit Anwendungsfällen und eines für 8GB VRAM:

MechanimaL · 23. August 2025

Ich werde demnächst mal die Links im Eingangsthread updaten, insb. Youtube Channels und andere communities. Weil die Frage gerade nach der Aktivität im Custom Model Bereich aufkam, möchte ich schonmal auf den Banodoco-Discord hinweisen, es dreht sich zwar hauptsächlich um Video, aber nicht nur. In seinen Announcement-Kanälen werden täglich und wöchentlich Highlights von neuen Funktionen, Erkenntnissen, Entwicklungen und Ressourcen präsentiert sowie "Gens" aus Channeln des Servers gekürt: https://discord.gg/WHgSTARN9d (neben anderen ist auch Kijai dort aktiv).

blubberbirne · 24. August 2025

Keuleman schrieb:
@blubberbir
Jetzt muss ich fragen... die Videos sind komplett lokal entstanden? Ich experimentiere mit automatic1111 rum und möchte gerne auch mal Videos testen. Ich würde mich freuen, wenn Du mir kurz listest, was Du an Komponenten hernimmst (also comfyui und gerne Modelle etc).

Bilder erstelle ich mit WAN2.2 oder FLux. Je nachdem was ich gerade vorhabe.
Die Video erstelle ich ebenfalls mit WAN2.2. Bei Civitai gibt es genug Workflows. Du musst halt schauen was für deine Hardware am besten passt. Sollte es eine 5090 sein, kannst Du aus den vollen schöpfen

EDIT:

Nunchaku unterstützt nun auch QWEN. Installation ist zwar etwas tricky, aber es funktioniert schon recht gut.
Gegenüber FLUX besteht klar der Vorteil das die Personen, bzw. die Haut, einfach viel Realistischer ausschaut.

[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

Lt. Commander

Admiral Pro

Lt. Commander

Lt. Commander

Lt. Commander

Anhänge

Lt. Commander

Lt. Commander

Lt. Commander

Lt. Commander

Lt. Commander

Lt. Commander

Lt. Commander

Lt. Commander

Lt. Commander

Silent-Fanatiker Pro

Cadet 4th Year

Lt. Junior Grade

Lt. Commander

Lt. Commander

Lt. Commander