[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

Gut zu wissen! Das war dann damals wohl auch ein Problem bei mir. Momentan belasse ich die CFG und Steps immer beim Standard, der im Workflow drinne ist. Mit den verschiedenen Samplern habe ich schon gespielt.
 
Also irgendwie bekomme ich das auch nicht so ganz auf die Kette...

Die non-base Variante ist distilled (warum nicht im Namen? Egal.). Mit der kann man CFG auf 1 setzen und muss weniger Steps durchlaufen, in ComfyUI.

In Krita kann ich die non-base Variante nur mit CFG 1 nutzen!

Wiederum in ComfyUI kann ich eine CFG von 5 einstellen. Das Ergebnis ist näher am Prompt.

Wie gesagt, ich komm da nimmer mit...

Bild: selber Seed, gleicher Prompt, CFG 1, Steps 6
Flux2-Klein_00044_.png


In jedem fall ist die Generierung deutlich angenehmer, also auch von der Geschwindigkeit...

Aber findet ihr nicht auch, das sich die Gesichter, trotz anderem Seed, sehr ähneln?
 
Das stimmt, dass sie sich ähneln, ich hatte dazu auch einen Post in einem DIscord gesehen, finde ihn aber grade nicht mehr. Wenn ich mich richtig erinnere, war die Conclusio, dass man über Prompting Varianz erreichen kann. Hier jedenfalls mal noch ein Prompt für das Bild, das etwas erweitert ist (habe einfach ein "gpt" erstellt mit dem BFL-Flux2KLein Prompt Guide und Deinen als Basis reingegeben). Wenn man dann noch die Auflösung etwas erhöht (also zb 1280 oder 1536 Seitenlänge) bekommt man schon schärfere Ergebnisse mit mehr Details.
A young woman with long, flowing multicolored hair leans casually against a weathered graffiti wall, her posture relaxed and intimate. She wears a soft, understated smile, her expression calm and introspective. The urban background is slightly worn, layers of faded graffiti adding texture without overpowering the subject.
Partial afternoon light falls across her face from the side, warm and low, creating gentle contrast: one side softly illuminated, the other receding into smooth shadow. The light is natural and diffused, grazing her skin and subtly revealing fine details — textured, slightly dry skin, delicate skin fuzz, and natural imperfections rendered with honesty.
Shot with a large-format camera using a 70mm lens, the shallow depth of field isolates her from the background, melting the graffiti into soft bokeh. Her eyes are sharply in focus, highly detailed, with clearly visible pupils and natural reflections, conveying quiet presence.
The color palette is muted and restrained, emphasizing realism over saturation. The image feels like an ultra-high-resolution RAW photograph, intimate, tactile, and grounded in natural light.
 
@Keuleman
Das Bild taugt auch wirklich nicht mehr...
Ich bin Versucht, solche Modelle wieder von der Platte zu werfen. Flux1 ist nicht gut gealtert.

Da finde ich es erstaunlich, wie lebendig die SDXL Community ist. Wie gesagt, will man bloß Menschen, mit nur einem Prompt/Versuch generieren, kann man auch solche Modelle vergessen. Aber fürs Creative ist das immer noch way to go.
 
Das ist der totale way to go. Läuft auf CPU und gibt gute erste Einschätzung, ob das Prompt was taugt. Gute Sachen werfe ich dann gelegentlich ins Flux 2 oder QWEN.
 
Keuleman schrieb:
Das ist der totale way to go. Läuft auf CPU und gibt gute erste Einschätzung, ob das Prompt was taugt.
Ob das so funktioniert? Und dann ist noch: Bei mir sind die Bilder in 5 bis 10 Sekunden generiert, mit Flux2 Klein 9b.

---

Anfangs war ich skeptisch. Aber ich mag Flux2Klein inzwischen sehr.
Aktuell hab ich Spaß daran Bilder zu "editieren". Dadurch hat man nicht nur über den Text oder über LoRAs Einfluss auf auf das Ergebnis hat, sondern auch über das Input-Bild... surprise. Mir is klar, das das ControlNet usw. gibt. Aber mit Flux ist das eben nochmal einfacher.

Das man Input-Bilder verwenden kann, wird ja prominent dargestellt. Aber is schon etwas Shady, sich aus dem internet zu bedienen und Varianten von etwas zu erstellen. 😁
Aber unter Deepfakes dürfe das nicht fallen. Is ja ne Variate und keine Fälschung?
 
Ich hab den Prompt mal auf einem System eines Freundes gerechnet mit 6000 * 2 also 96 GB VRam (der das System teil"berufich" nutzt) und FP16 unquantized weights, Flux2

Ein ganz anderes Ergebnis aber auch interessant und recht "natürlich" - denke dass das auch an den Text encodern liegt - weshalb "gleiche" Modelle etwas unabhängig vom Seed ähnliche Bilder erzeugen.

Evtl ist sein Modell auch selber finegetuned - er nutzt das für technische Objekte in der Natur als (Massen) Sample Trainingsinput für spätere Objekterkennung durch andere Modelle.
 

Anhänge

  • 123.png
    123.png
    868,5 KB · Aufrufe: 5
Zuletzt bearbeitet:
Sieht mir nicht nach Flux2 Dev aus. Das fp8mixed Modell gibt andere Ergebnisse und sollte an sich nicht meilenweit von dem vollen entfernt liegen. Vielleicht kannst du du mal fragen, was genau verwendet wird?
 
das ist fp16 unquantized weights mit einem (XXXL) grossen Textencoder - eben ein Kombi-Modell für 96 Gbyte VRAM, die auch genutzt werden.

Wie gesagt ich weiss nicht ob er das Modell - oder das textencoder Modell - für seine Zwecke gefeintuned hat - er nutzt die Ausgabe als input für das Training von ganz spezifischer Objektidentifizierung in generierter Umwelt. Es ist aber Flux 2 dev based. Er trainiert schon viele Modelle selber bzw macht fine tuning.

Ich meine dass er als Textencoder DeepSeek-R1 nutzt. Aber seine Systeme werden oft umgehäkelt wenn er mit einem Setup genug Bilder erzeugt hat.

Ich benutze halt einfach nur immer gerne seinen Rechner, weil ich lokal nur 4070ti habe.

Aber ich kann ihn gerne mal am Montag fragen. Sein System ist halt nur CLI based auf "Masse" optimiert, also kein ConmfyUI etc.
 
Zuletzt bearbeitet:
Zurück
Oben