[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

Keuleman schrieb:
Weil es auf der Hardware problemlos läuft. Könnte sogar das "große" Modell laufen lassen aber wollte halt mal gucken, was Flux 2 Klein so kann.
Die Frage war glaube ich eher so gemeint, warum Du FluxKlein9B Base benutzt und nicht FluxKlein9B (was ein turbo-model ist). Die Modelle sind ja gleich groß.

Bzgl. dieser grünen Punkt-Artefakte: In SwarmUI habe ich sie nicht mit Deinem Prompt/Seed, egal mit welchen Euler, Beta/Simple/Normal Kombinationen, VAEs, CLIP ich probiert habe. In ComfyUI waren sie drin und ließen sich auch nicht durch Änderungen der Settings oder Step-Erhöhung vermeiden. Also irgendwas macht SwarmUI da besser, was genau kann ich nur leider nicht sagen.
Ergänzung ()

Meta.Morph schrieb:
Aber ich mag einfach nicht dieses Bullshitbingo von SDXL. Illustrious hat es reduziert, weil es eine reduzierte -Sprache verwendet und man kann sich sehr schön herleiten, zu welchem Ergebnis die Tags führen. Aber bei SDXL schreibt man sich echt ein Wolf: 4k, 8k, uhd, absurd, masterpeace, highly detailed, award-winning, cinematic still shot, kodachrome, uhd, canon eos.

Das Nervt wahnsinnig und mir wiederstrebt das, soetwas einzugeben. Es ist auch völlig intranparent! Was soll zum beispiel kodachrome und canon eos bewirken? Vermütlich sollen damit aufnametechnichen getiggert werden. Aber mir würde das nie einfallen...
Vielleicht lohnt sichs da mal nach einem Tool /Node /Wildcard-System (je nach Programm) umzuschauen, so dass Du bspw. einfach nur noch dein Prompt und ein für den entsprechenden Stil vorgefertigtes Stichwort eingeben musst, damit Dein Prompt automatisch die passenden Qualitätswörter erhält.
 
MechanimaL schrieb:
Vielleicht lohnt sichs da mal nach einem Tool /Node /Wildcard-System (je nach Programm) umzuschauen
Wildcards sind ja normalerweise zufällige Bausteine. Zwar bietet AI Diffusion genau diese Möglichkeit. Aber aber das sind keine Bausteine, die man in einer separaten Datei abspeichern kann.

Man kann Stiles anlegen. Da könnte man diese Tags abspeichern. Wenn ich keine andere Möglichkeit finde, werd ich das tun. Aber irgendwann wirds in diesem Dropdown-Menü auch unübersichtlich...

Ich hab mich auch bei diesen Text-Enbeddings umgeschaut, aber die machen oft mehr kaputt als sie nützen. Gemini hat mir erklärt, das diese Embeddings auch nur Gewichte sind und keine richtigen Textbausteine...
Ergänzung ()

Okay, Gemini hat mich auf etwas gebracht. Ich könnte für Textbausteine auch ein Programm verwenden. Dan funktioniert dann Global. Chapeau...
 
Zuletzt bearbeitet:
@MechanimaL Interessant! Hm. Ich habe mal kurz geguckt, ob ich mir vielleicht Swarm UI auch noch mal angucke, bleibe aber wohl erst mal bei Comfy allein. Sehe grad keinen Vorteil. Läuft auch portabel, das Swarm, nicht schlecht.
 
Ich beschäftige mich derzeit etwas mit Pinokio und ComfyUI in Sachen Bildgeneratoren. Hab schon einges ausprobiert aber nichts wirklich zufriedenstellendes. Hab irgendwie den Eindruck das die Modelle zwar inzwischen gut Bilder erstellen können aber sie kapieren nicht was man eigentlich erstellt haben will.

Besonders würden mich modelle interessieren mit denen man Konsistente Grafiken für 2D Games erstellen kann. Also eher in Richtung Point & Click oder Graphic Novels. Auch gerne mehr im Comic oder Animestil. Photorealismus und/oder 3D Art halte ich für noch schwieriger mit der konsistenz.
Ich bräuchte etwas womit ich eine Story Grafisch über einen längeren Zeitraum und mehreren Einzelsitzungen einheitlich darstellen könnte.

Besonders würden mich Tools interessieren die zusätzlich mit Vorlagen umgehen könnten. Also das ich zb ein Referenzbild oder ne Skizze als Hilfestellung neben dem Text Promt angeben könnte um zb eine ganz spezifische Szene zu erstellen.

Was gibt es da für Modelle oder Tools in dem Bereich?

Oder wäre es am ende besser selbst ein Modell darauf zu trainieren!? 🤔
 
samuelclemens schrieb:
Hab irgendwie den Eindruck das die Modelle zwar inzwischen gut Bilder erstellen können aber sie kapieren nicht was man eigentlich erstellt haben will.
Kommt auch stark auf das Modell an und natürlich auf auf den Prompt. Flux oder Qwen muss man anders ansprechen als ein SDXL und ein Illustrious funktioniert noch einmal komplett anders. Dann ist auch die Frage, ob man nur über den Prompt seine Vorstellungen passgenau abbilden kann. Ich würde behaupten, das das eh unmöglich ist.

samuelclemens schrieb:
Besonders würden mich modelle interessieren mit denen man Konsistente Grafiken [...] erstellen kann.
Das ist eh die Königsdisziplin. Wenn du Anime erstellen willst, dann ist Illustrious dein Modell. Einfache Sprache über Danbooru-Tags, es lässt sich echt präzise Steuern und diese Modelle haben bereits Charaktere eingebaut, die man verwenden kann. ABER: man ist euch eingeschränkter (es erstellt gut Anime Charaktere darüber hinaus schaut es eher mau aus) und man hat dennoch Varianz, das lässt sich kaum vermeiden. Qwen Edit und Flux2Klein9b könntest du dir noch anschauen. Entweder gehst zu von einem Referenzbild aus oder du trainierst direkt eine LoRA.

samuelclemens schrieb:
Was gibt es da für Modelle oder Tools in dem Bereich?
Sch dier mal die Videos von Mickmumpitz an. Z.B das hier:

Leider ist mein PC dafür zu schwach.

Daneben arbeite ich gerne mit Krita AI Diffusion.


Ich hatte ähnliches vor wie du. So ganz aufgegeben hab ich es noch nicht aber es ist echt schwer. Sehr wahrscheinlich ist man mit Lokalen Modellen einfach schlechter aufgestellt. Ich werde meine Ideen vielleicht mit Kling oder Seedance umsetzen.

samuelclemens schrieb:
Ich bräuchte etwas womit ich eine Story Grafisch über einen längeren Zeitraum und mehreren Einzelsitzungen einheitlich darstellen könnte.
Aber wie gesagt, Qwen Edit und Flux2Klein9b könnten vielleicht schn reichen.
 
  • Gefällt mir
Reaktionen: samuelclemens
FreeFuse. Eine Modellübergreifende Option verschiedene Loras zu verwenden, die sich nicht überschneiden. Bisher ging das mit "regional prompting" und ähnlichen Methoden auch schon, damit sollte es aber einfacher sein:

Nach der Installation finden sich Beispielworkflows u.a. hier.

@samuelclemens Evtl hilft auch Outpainting, um ein Side Scrolling aufzubauen. Also du malst von einem Bild ausgehend das nächste, dadurch hast Du dann passende Übergänge und kannst es je nachdem, was gebraucht wird natürlich auch immer zurechtschneiden. Ist jetzt nur ne fixe Idee, aber könnte gehen :) Für insgesamt konsistenten Stil musst Du versuchen, ob es mit gezieltem Prompting je nach Modell schon passt, oder (wahrscheinlich) noch eine/mehrere Stil-Lora/s zusätzlich verwenden.

Charaktere kannst du auch als LORA erstellen, da gibt es mittlerweile schon fertige Workflows, wo Du einfach nur ein Input Bild deines Charakters, dass Du vorher erstellt hast verwenden kann und Modelle wie Qwen Edit 2511 Dir dann passende Ausgangsbilder Deines Charakters in verschiedenen Szenen erstellen und diese dann beim LORA Training verwenden werden. Zufälligerweise macht der Youtuber oben (bei dem Video zu FreeFuse) glaube ich auch was ähnliches am Anfang seines Videos.

Stil Loras für Modelle findest Du z.B. auf civit Ai oder Huggingface. Konkretere Hilfe kann man geben, wenn spezielle Probleme oder Herausforderungen auftreten. Wenn Du mit Grafikprogrammen kombiniert arbeiten möchtest, gibt es auch Plugins um direkt comfyui damit verbinden zu können (Krita, ich glaube auch Photoshop u.a.).
 
  • Gefällt mir
Reaktionen: samuelclemens
@MechanimaL Danke. Einige interessante Ansätze dabei. das mit dem Outpainting ist eine tolle Idee um Sidescroler umzusetzen. Zumindest für die Hintergründe. Werd ich bestimmt versuchen sobald ich eine geeignetes Offline Modell dazu gefunden habe und ein neues Sidescroler Projekt vorliegt.
Ist dann nochmals ne stufe heftiger wegen den ganzen animierten Sprites.

LORA Thematik ist noch ein Buch mit sieben Siegeln! 😓
 
Z-Image_Turbo_00017_.png
Das "Besondere": auf einem i7-4770S mit 32 GB RAM und RTX 2060 berechnet. Läuft sehr gut, die alte Schüssel. 409 Sekunden, nativ in 1080p, Z Image Turbo.
 
9_2026-02-17-132228.jpeg
Das gefällt mir richtig gut! Ich muss mal schauen, dass ich das Gras noch etwas dunkelgrüner bekomme, dann wäre es perfekt.
 
@Krik
Mit welchem Model?

bergsee.jpg

Hab mit SDXL und Flux2Klein gemacht Upschale wieder mit SDXL.
Flux2 alleine ist mir zu langweilig, farblos:
bergsee-generated-20260217-151503-0-A stunning panorama a turquoise mountai.png

Muss aber sagen, das ich bereits schönere Bergseen selber Photographiert hab...
20220803_131807.jpg

Ich seh nicht so die Konkurrenz für Landschaftsfotographen...
 
Meta.Morph schrieb:
Mit welchem Model?
Flux 1 Schnell FP8 und oben drauf ein Wasserfarben-LoRA.
Dafür, dass ComfyUI bei mir erst seit dem WE läuft und ich meistens nicht weiß, was ich tue, bin ich recht stolz auf mich. ^^

Aktuell versuche ich mich an einem Stillleben.
30_2026-02-17-153834.jpeg
 
  • Gefällt mir
Reaktionen: Keuleman und Meta.Morph
Krik schrieb:
und ich meistens nicht weiß, was ich tue, bin ich recht stolz auf mich. ^^
LLMs sind beim Prompting deine besten Freunde...

Diese Tool muss man mit so vielen Phrasen triggern; ich komm da alleine - mit meinem Begrenzten Wortschatz, im Bereich Superlativen - nicht weit.

Aus:
A stunning panorama: a turquoise mountain lake surrounded by meadows and forests. In the background rise majestic mountains, their peaks breaking through the clouds.

Hat gemini das gemacht:
A hyper-realistic wide-angle panorama of a vibrant turquoise glacial lake nestled in a valley. Foreground features lush green alpine meadows dotted with wildflowers and a dense pine forest edge. In the background, jagged, majestic snow-capped mountains rise dramatically, their sharp peaks piercing through a layer of soft, low-hanging white clouds. 8k resolution, cinematic lighting, Tyndall effect, sharp focus, highly detailed, nature photography

Das hat schon eine andere Wirkung... da kann dann auch Flux2 etwas mehr mit anfangen:
bergsee2-generated-20260217-155534-0-A hyper-realistic wide-angle panorama of.png

Aber auch hier finde ich die Kombination aus Flux und SDXL zumindest künstlerischer:
bergsee2-generated-20260217-155544-0-A hyper-realistic wide-angle panorama of.png
 
  • Gefällt mir
Reaktionen: Krik
Es sieht fluxig aus, einfach diese fluxige Optik. Man sieht ihm seine Fluxigkeit quasi an.
 
  • Gefällt mir
Reaktionen: Krik
;-D Ich bin leider an der Schüppe aber jagt das Prompt doch mal durch Z-Image oder QWEN. Glaube, grad Z-Image wird da "realistischer" zuwerke gehen.
 
Meta.Morph schrieb:
LLMs sind beim Prompting deine besten Freunde...
Danke für den Tipp, ich werde das mal ausprobieren.

Keuleman schrieb:
Es sieht fluxig aus, einfach diese fluxige Optik. Man sieht ihm seine Fluxigkeit quasi an.
:D

Ich bin über diesen Flux-Workflow gestolpert. Den werde ich als nächstes ausprobieren.
1771351501221.png

Quelle
Das Bild gibt es leider nicht in höherer Auflösung.
 
Bei der Käseplatte bekomm ich hunger. Aber beim Bergsee würd ich wenigstens ein Unentschieden sehen. Kommt halt auch auf Licht und Filter an. Arg unrealistisch sieht kein Bild aus, bis auf die SDXL Bilder.

Krik schrieb:
Das Bild gibt es leider nicht in höherer Auflösung.
Entweder mich ich wieder was falsch oder es ist so, das man mit Flux tatsächlich nicht so gut upscalen kann. Flux kann 2 Fach gut händeln. Darüber hinaus wird es schräg... dafür nutze ich wieder SDXL. Das hat mir das erste Bild in 4k generiert.
 
Zuletzt bearbeitet:
Mit SD habe ich kein auch nur annähernd gutes Bild hinbekommen. Oder ich habe die richtigen Einstellungen noch nicht gefunden. 🤷‍♂️

@Keuleman
Ich sehe, Z Image hat auch Probleme mit dem Gras. Grashalme sind das jedenfalls nicht. ^^

Wie man das besser hinbekommt, weiß ich nicht. Ich weiß, es gibt Detailer, die solche Schwächen theoretisch beseitigen könnten, aber zumindest bei mir braucht es auch so schon häufig über eine Minute für ein Bild. Wenn ich mal z. B. einen LoRA auf ein hochskaliertes Bild angewendet habe, dann konnte sich die Verarbeitungsdauer auch mal eben auf 20 Minuten verlängern. So richtig habe ich noch keine Idee, wie man dem bei kommt.
Ich muss mir noch mehr Wissen aneignen, dann finde ich vielleicht eine Lösung, die nur eine paar Minuten dauert.
 
Hm, ich würd noch QWEN testen wollen aber hocke noch vor der i7-4770S/RTX2060 Maschine, glaube, das wird schwierig. Gras würde ich gerne da noch mal testen. Den "See" müsste ich theoretisch auch noch "größer prompten" aber ich habe es echt erst mal beim ersten Versuch belassen gehabt. Ging mir mehr um die generelle Optik. Finde ich für einmal kurz heran geprompted gar nicht verkehrt sonst.
 
Zurück
Oben