[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

Keuleman · Freitag um 10:17

Gut zu wissen! Das war dann damals wohl auch ein Problem bei mir. Momentan belasse ich die CFG und Steps immer beim Standard, der im Workflow drinne ist. Mit den verschiedenen Samplern habe ich schon gespielt.

Meta.Morph · Freitag um 10:24

Also irgendwie bekomme ich das auch nicht so ganz auf die Kette...

Die non-base Variante ist distilled (warum nicht im Namen? Egal.). Mit der kann man CFG auf 1 setzen und muss weniger Steps durchlaufen, in ComfyUI.

In Krita kann ich die non-base Variante nur mit CFG 1 nutzen!

Wiederum in ComfyUI kann ich eine CFG von 5 einstellen. Das Ergebnis ist näher am Prompt.

Wie gesagt, ich komm da nimmer mit...

Bild: selber Seed, gleicher Prompt, CFG 1, Steps 6

In jedem fall ist die Generierung deutlich angenehmer, also auch von der Geschwindigkeit...

Aber findet ihr nicht auch, das sich die Gesichter, trotz anderem Seed, sehr ähneln?

Keuleman · Freitag um 10:33

Weil ich kann und Bock hatte hier das Prompt als Flux Schnell Version ;-D

MechanimaL · Freitag um 10:42

Das stimmt, dass sie sich ähneln, ich hatte dazu auch einen Post in einem DIscord gesehen, finde ihn aber grade nicht mehr. Wenn ich mich richtig erinnere, war die Conclusio, dass man über Prompting Varianz erreichen kann. Hier jedenfalls mal noch ein Prompt für das Bild, das etwas erweitert ist (habe einfach ein "gpt" erstellt mit dem BFL-Flux2KLein Prompt Guide und Deinen als Basis reingegeben). Wenn man dann noch die Auflösung etwas erhöht (also zb 1280 oder 1536 Seitenlänge) bekommt man schon schärfere Ergebnisse mit mehr Details.

A young woman with long, flowing multicolored hair leans casually against a weathered graffiti wall, her posture relaxed and intimate. She wears a soft, understated smile, her expression calm and introspective. The urban background is slightly worn, layers of faded graffiti adding texture without overpowering the subject.
Partial afternoon light falls across her face from the side, warm and low, creating gentle contrast: one side softly illuminated, the other receding into smooth shadow. The light is natural and diffused, grazing her skin and subtly revealing fine details — textured, slightly dry skin, delicate skin fuzz, and natural imperfections rendered with honesty.
Shot with a large-format camera using a 70mm lens, the shallow depth of field isolates her from the background, melting the graffiti into soft bokeh. Her eyes are sharply in focus, highly detailed, with clearly visible pupils and natural reflections, conveying quiet presence.
The color palette is muted and restrained, emphasizing realism over saturation. The image feels like an ultra-high-resolution RAW photograph, intimate, tactile, and grounded in natural light.

Meta.Morph · Freitag um 10:59

@Keuleman
Das Bild taugt auch wirklich nicht mehr...
Ich bin Versucht, solche Modelle wieder von der Platte zu werfen. Flux1 ist nicht gut gealtert.

Da finde ich es erstaunlich, wie lebendig die SDXL Community ist. Wie gesagt, will man bloß Menschen, mit nur einem Prompt/Versuch generieren, kann man auch solche Modelle vergessen. Aber fürs Creative ist das immer noch way to go.

Keuleman · Freitag um 11:26

Das ist der totale way to go. Läuft auf CPU und gibt gute erste Einschätzung, ob das Prompt was taugt. Gute Sachen werfe ich dann gelegentlich ins Flux 2 oder QWEN.

Meta.Morph · Freitag um 21:12

Keuleman schrieb:
Das ist der totale way to go. Läuft auf CPU und gibt gute erste Einschätzung, ob das Prompt was taugt.

Ob das so funktioniert? Und dann ist noch: Bei mir sind die Bilder in 5 bis 10 Sekunden generiert, mit Flux2 Klein 9b.

---

Anfangs war ich skeptisch. Aber ich mag Flux2Klein inzwischen sehr.
Aktuell hab ich Spaß daran Bilder zu "editieren". Dadurch hat man nicht nur über den Text oder über LoRAs Einfluss auf auf das Ergebnis hat, sondern auch über das Input-Bild... surprise. Mir is klar, das das ControlNet usw. gibt. Aber mit Flux ist das eben nochmal einfacher.

Das man Input-Bilder verwenden kann, wird ja prominent dargestellt. Aber is schon etwas Shady, sich aus dem internet zu bedienen und Varianten von etwas zu erstellen. 😁
Aber unter Deepfakes dürfe das nicht fallen. Is ja ne Variate und keine Fälschung?

MechanimaL · Freitag um 23:49

Heute Mittag ein Video gesehen bzgl. Anatomie-Verbesserung in Flux.Klein, wenn Probleme auftauchen, das waren im wesentlichen die Erkenntnisse:

mehr Steps (als 4)
cfg leicht erhöhen (1.2)
anderen Sampler, wie res2 probieren (den gibt's mit dieser custom_node)

Dann eben noch zum selben Thema über diese Lora gestolpert:
https://civitai.com/models/2324991/klein-anatomy-quality-fixer?modelVersionId=2615554

Uzer1510 · Samstag um 10:34

Ich hab den Prompt mal auf einem System eines Freundes gerechnet mit 6000 * 2 also 96 GB VRam (der das System teil"berufich" nutzt) und FP16 unquantized weights, Flux2

Ein ganz anderes Ergebnis aber auch interessant und recht "natürlich" - denke dass das auch an den Text encodern liegt - weshalb "gleiche" Modelle etwas unabhängig vom Seed ähnliche Bilder erzeugen.

Evtl ist sein Modell auch selber finegetuned - er nutzt das für technische Objekte in der Natur als (Massen) Sample Trainingsinput für spätere Objekterkennung durch andere Modelle.

MechanimaL · Samstag um 11:17

Sieht mir nicht nach Flux2 Dev aus. Das fp8mixed Modell gibt andere Ergebnisse und sollte an sich nicht meilenweit von dem vollen entfernt liegen. Vielleicht kannst du du mal fragen, was genau verwendet wird?

Uzer1510 · Samstag um 11:42

das ist fp16 unquantized weights mit einem (XXXL) grossen Textencoder - eben ein Kombi-Modell für 96 Gbyte VRAM, die auch genutzt werden.

Wie gesagt ich weiss nicht ob er das Modell - oder das textencoder Modell - für seine Zwecke gefeintuned hat - er nutzt die Ausgabe als input für das Training von ganz spezifischer Objektidentifizierung in generierter Umwelt. Es ist aber Flux 2 dev based. Er trainiert schon viele Modelle selber bzw macht fine tuning.

Ich meine dass er als Textencoder DeepSeek-R1 nutzt. Aber seine Systeme werden oft umgehäkelt wenn er mit einem Setup genug Bilder erzeugt hat.

Ich benutze halt einfach nur immer gerne seinen Rechner, weil ich lokal nur 4070ti habe.

Aber ich kann ihn gerne mal am Montag fragen. Sein System ist halt nur CLI based auf "Masse" optimiert, also kein ConmfyUI etc.

blubberbirne · Samstag um 14:48

Falls ihr mit LTX2 Prompting Probleme habt, hier ein Tip. In Chatgpt einen neuen Chat starten und damit beginnen:

Lerne von der Seite https://ltx.io/model/model-blog/prompting-guide-for-ltx-2 wie man eine LTX2 Prompt korrekt erstellt

Danach könnt ihr grob schreiben was ihr haben möchtet und Chatgpt übernimmt den Rest. In ersten Tests funktioniert das bisher recht gut

Uzer1510 · Samstag um 15:12

glaube es macht doch eh immer sinn den eigenen prompt durch einen zusatz text encoder wie eine llm zu schieben oder?

blubberbirne · Samstag um 15:26

Kommt immer darauf an was man vorhat und auf das LLM Model.
Wenn das LLM eine Rolle übernehmen kann (z.B. AI Artist), macht es durchaus sinn.

Generationszeit knapp 5min:

Keuleman · Samstag um 18:09

Wird für ne Schulung:

Keuleman · Montag um 08:57

@Meta.Morph Muss ich noch nachschieben: "ist der totale way to go"... bei mir. Muss ich wohl anhängen so: ich habe hier auf der Arbeit einen älteren PC, der hat immerhin 32 GB RAM und einen i7 der 10. Generation. Flux (1) Schnell liefert da in 10 Minuten ansprechende Bilder (halt auf CPU berechnet). Da kann ich dann abschätzen, ob das Prompt was taugt oder geändert werden muß. Wenn sogar Flux (1) Schnell was gutes / passendes / in sich stimmig Aussehendes ausspuckt ist das dann für daheim Material für die größeren Modelle, die auf RTX Karte dann laufen. Dann dann "in Schön".

Meta.Morph · Montag um 09:35

Keuleman schrieb:
Wird für ne Schulung:

Spannend!
Ist das ein firmeninternes Ding oder berätst du andere Firmen?

Keuleman schrieb:
auf der Arbeit einen älteren PC, der hat immerhin 32 GB RAM und einen i7 der 10. Generation. Flux (1) Schnell liefert da in 10 Minuten ansprechende Bilder

Okay etwas verständlicher. Aber dennoch, gerade wenn man mit unterschiedlichen Versionen eines Modells arbeitet, würde ich davon ausgehen, das einige Prompt spezifisch funktionieren bzw. nicht funktionieren. Aber okay, als ganz grobe Marschrichtung...

---

Mein Problem ist, ich bin wohl echt zu unkreativ und ich weiß auch nicht, wie ich das vermarkten soll. Bildchen einfach nur so für mich zu erstellen... naja, schön aber naja...

Keuleman · Montag um 09:58

Nee, das wird so eher für Privatleute, die Bock haben, Ideen auf den Bildschirm zu zaubern. Und das isses ja, man braucht nur "die Idee". Daher auch mein halb unprofessioneller Slogan "It's all in the prompt." (hab ich gemacht weil der mir so einfiel und auch passt einfach). Firmenintern... bin ich wohl der Einzige, der Bock hat auf KI und da was macht. Möbelhandel, eigentlich auch ganz andere Richtung. Aber.. da geht was, ich will nicht immer nur Absagen per KI schreiben :-P Daher, bin gespannt, was in der Schulung so für Ideen "um die Ecke kommen". Geht mir auch 0 ums Geld, klar, ich könnte (wie hier in der Ecke angeboten) ChatGPT für Unternehmen für 300 Euro machen.... nä. Kommt her, wir haben Spaß und machen witzige Sachen... so ticke ich da. Wenn ich was in meinem Lebenslauf habe mit "Schulungen geben" bin ich schon zufrieden. Ist ne Weile her, die letzte meiner Schulungen, damals noch QM...

Noch im Nachtrag zu den Prompts: Klar, Flux Schnell liefert andere Outputs aber man erkennt schon "taugt, taugt nicht": Wenn in Flux Schnell was stimmig Aussehendes kommt hat das auch Potential für die dicken Modelle. Beispiel schiebe ich gleich noch mal nach.

Anhang: Mein momentaner Job ;-D

Ergänzung (Montag um 10:21)

Musste echt ein bisschen suchen nach einem Beispiel "Flux 1 Schnell" = haut das hin? Anderes Modell = "jetzt neu und in nice":

Bin kein Fan von Fußball, Sport und so aber das war eine Idee, die ich schnell in Flux Schnell ( ;-P ) dokumentiert habe und dann in Qwen ausstaffiert habe.

Keuleman · Montag um 23:39

21 Sekunden, mehr packt mein System nicht. Zeit, ewas draus zu machen, das "deep" ist.

Dennis_BW · Gestern um 19:16

Z-Image wurde veröffentlicht
https://huggingface.co/Tongyi-MAI/Z-Image

[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

Lt. Junior Grade

Lieutenant

Lt. Junior Grade

Lt. Commander

Lieutenant

Lt. Junior Grade

Lieutenant

Lt. Commander

Lt. Commander

Anhänge

Lt. Commander

Lt. Commander

Lt. Commander

Lt. Commander

Lt. Commander

Lt. Junior Grade

Anhänge

Lt. Junior Grade

Lieutenant

Lt. Junior Grade

Anhänge

Lt. Junior Grade

Anhänge

Cadet 4th Year Pro