Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden.
Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)
- Ersteller MechanimaL
- Erstellt am
Meta.Morph
Lieutenant
- Registriert
- März 2022
- Beiträge
- 586
Also irgendwie bekomme ich das auch nicht so ganz auf die Kette...
Die non-base Variante ist distilled (warum nicht im Namen? Egal.). Mit der kann man CFG auf 1 setzen und muss weniger Steps durchlaufen, in ComfyUI.
In Krita kann ich die non-base Variante nur mit CFG 1 nutzen!
Wiederum in ComfyUI kann ich eine CFG von 5 einstellen. Das Ergebnis ist näher am Prompt.
Wie gesagt, ich komm da nimmer mit...
Bild: selber Seed, gleicher Prompt, CFG 1, Steps 6
In jedem fall ist die Generierung deutlich angenehmer, also auch von der Geschwindigkeit...
Aber findet ihr nicht auch, das sich die Gesichter, trotz anderem Seed, sehr ähneln?
Die non-base Variante ist distilled (warum nicht im Namen? Egal.). Mit der kann man CFG auf 1 setzen und muss weniger Steps durchlaufen, in ComfyUI.
In Krita kann ich die non-base Variante nur mit CFG 1 nutzen!
Wiederum in ComfyUI kann ich eine CFG von 5 einstellen. Das Ergebnis ist näher am Prompt.
Wie gesagt, ich komm da nimmer mit...
Bild: selber Seed, gleicher Prompt, CFG 1, Steps 6
In jedem fall ist die Generierung deutlich angenehmer, also auch von der Geschwindigkeit...
Aber findet ihr nicht auch, das sich die Gesichter, trotz anderem Seed, sehr ähneln?
- Registriert
- Nov. 2005
- Beiträge
- 1.114
Das stimmt, dass sie sich ähneln, ich hatte dazu auch einen Post in einem DIscord gesehen, finde ihn aber grade nicht mehr. Wenn ich mich richtig erinnere, war die Conclusio, dass man über Prompting Varianz erreichen kann. Hier jedenfalls mal noch ein Prompt für das Bild, das etwas erweitert ist (habe einfach ein "gpt" erstellt mit dem BFL-Flux2KLein Prompt Guide und Deinen als Basis reingegeben). Wenn man dann noch die Auflösung etwas erhöht (also zb 1280 oder 1536 Seitenlänge) bekommt man schon schärfere Ergebnisse mit mehr Details.
A young woman with long, flowing multicolored hair leans casually against a weathered graffiti wall, her posture relaxed and intimate. She wears a soft, understated smile, her expression calm and introspective. The urban background is slightly worn, layers of faded graffiti adding texture without overpowering the subject.
Partial afternoon light falls across her face from the side, warm and low, creating gentle contrast: one side softly illuminated, the other receding into smooth shadow. The light is natural and diffused, grazing her skin and subtly revealing fine details — textured, slightly dry skin, delicate skin fuzz, and natural imperfections rendered with honesty.
Shot with a large-format camera using a 70mm lens, the shallow depth of field isolates her from the background, melting the graffiti into soft bokeh. Her eyes are sharply in focus, highly detailed, with clearly visible pupils and natural reflections, conveying quiet presence.
The color palette is muted and restrained, emphasizing realism over saturation. The image feels like an ultra-high-resolution RAW photograph, intimate, tactile, and grounded in natural light.
Partial afternoon light falls across her face from the side, warm and low, creating gentle contrast: one side softly illuminated, the other receding into smooth shadow. The light is natural and diffused, grazing her skin and subtly revealing fine details — textured, slightly dry skin, delicate skin fuzz, and natural imperfections rendered with honesty.
Shot with a large-format camera using a 70mm lens, the shallow depth of field isolates her from the background, melting the graffiti into soft bokeh. Her eyes are sharply in focus, highly detailed, with clearly visible pupils and natural reflections, conveying quiet presence.
The color palette is muted and restrained, emphasizing realism over saturation. The image feels like an ultra-high-resolution RAW photograph, intimate, tactile, and grounded in natural light.
Meta.Morph
Lieutenant
- Registriert
- März 2022
- Beiträge
- 586
@Keuleman
Das Bild taugt auch wirklich nicht mehr...
Ich bin Versucht, solche Modelle wieder von der Platte zu werfen. Flux1 ist nicht gut gealtert.
Da finde ich es erstaunlich, wie lebendig die SDXL Community ist. Wie gesagt, will man bloß Menschen, mit nur einem Prompt/Versuch generieren, kann man auch solche Modelle vergessen. Aber fürs Creative ist das immer noch way to go.
Das Bild taugt auch wirklich nicht mehr...
Ich bin Versucht, solche Modelle wieder von der Platte zu werfen. Flux1 ist nicht gut gealtert.
Da finde ich es erstaunlich, wie lebendig die SDXL Community ist. Wie gesagt, will man bloß Menschen, mit nur einem Prompt/Versuch generieren, kann man auch solche Modelle vergessen. Aber fürs Creative ist das immer noch way to go.
Meta.Morph
Lieutenant
- Registriert
- März 2022
- Beiträge
- 586
Ob das so funktioniert? Und dann ist noch: Bei mir sind die Bilder in 5 bis 10 Sekunden generiert, mit Flux2 Klein 9b.Keuleman schrieb:Das ist der totale way to go. Läuft auf CPU und gibt gute erste Einschätzung, ob das Prompt was taugt.
---
Anfangs war ich skeptisch. Aber ich mag Flux2Klein inzwischen sehr.
Aktuell hab ich Spaß daran Bilder zu "editieren". Dadurch hat man nicht nur über den Text oder über LoRAs Einfluss auf auf das Ergebnis hat, sondern auch über das Input-Bild... surprise. Mir is klar, das das ControlNet usw. gibt. Aber mit Flux ist das eben nochmal einfacher.
Das man Input-Bilder verwenden kann, wird ja prominent dargestellt. Aber is schon etwas Shady, sich aus dem internet zu bedienen und Varianten von etwas zu erstellen. 😁
Aber unter Deepfakes dürfe das nicht fallen. Is ja ne Variate und keine Fälschung?
- Registriert
- Nov. 2005
- Beiträge
- 1.114
Heute Mittag ein Video gesehen bzgl. Anatomie-Verbesserung in Flux.Klein, wenn Probleme auftauchen, das waren im wesentlichen die Erkenntnisse:
Dann eben noch zum selben Thema über diese Lora gestolpert:
https://civitai.com/models/2324991/klein-anatomy-quality-fixer?modelVersionId=2615554
- mehr Steps (als 4)
- cfg leicht erhöhen (1.2)
- anderen Sampler, wie res2 probieren (den gibt's mit dieser custom_node)
Dann eben noch zum selben Thema über diese Lora gestolpert:
https://civitai.com/models/2324991/klein-anatomy-quality-fixer?modelVersionId=2615554
Ich hab den Prompt mal auf einem System eines Freundes gerechnet mit 6000 * 2 also 96 GB VRam (der das System teil"berufich" nutzt) und FP16 unquantized weights, Flux2
Ein ganz anderes Ergebnis aber auch interessant und recht "natürlich" - denke dass das auch an den Text encodern liegt - weshalb "gleiche" Modelle etwas unabhängig vom Seed ähnliche Bilder erzeugen.
Evtl ist sein Modell auch selber finegetuned - er nutzt das für technische Objekte in der Natur als (Massen) Sample Trainingsinput für spätere Objekterkennung durch andere Modelle.
Ein ganz anderes Ergebnis aber auch interessant und recht "natürlich" - denke dass das auch an den Text encodern liegt - weshalb "gleiche" Modelle etwas unabhängig vom Seed ähnliche Bilder erzeugen.
Evtl ist sein Modell auch selber finegetuned - er nutzt das für technische Objekte in der Natur als (Massen) Sample Trainingsinput für spätere Objekterkennung durch andere Modelle.
Anhänge
Zuletzt bearbeitet:
- Registriert
- Nov. 2005
- Beiträge
- 1.114
Sieht mir nicht nach Flux2 Dev aus. Das fp8mixed Modell gibt andere Ergebnisse und sollte an sich nicht meilenweit von dem vollen entfernt liegen. Vielleicht kannst du du mal fragen, was genau verwendet wird?
das ist fp16 unquantized weights mit einem (XXXL) grossen Textencoder - eben ein Kombi-Modell für 96 Gbyte VRAM, die auch genutzt werden.
Wie gesagt ich weiss nicht ob er das Modell - oder das textencoder Modell - für seine Zwecke gefeintuned hat - er nutzt die Ausgabe als input für das Training von ganz spezifischer Objektidentifizierung in generierter Umwelt. Es ist aber Flux 2 dev based. Er trainiert schon viele Modelle selber bzw macht fine tuning.
Ich meine dass er als Textencoder DeepSeek-R1 nutzt. Aber seine Systeme werden oft umgehäkelt wenn er mit einem Setup genug Bilder erzeugt hat.
Ich benutze halt einfach nur immer gerne seinen Rechner, weil ich lokal nur 4070ti habe.
Aber ich kann ihn gerne mal am Montag fragen. Sein System ist halt nur CLI based auf "Masse" optimiert, also kein ConmfyUI etc.
Wie gesagt ich weiss nicht ob er das Modell - oder das textencoder Modell - für seine Zwecke gefeintuned hat - er nutzt die Ausgabe als input für das Training von ganz spezifischer Objektidentifizierung in generierter Umwelt. Es ist aber Flux 2 dev based. Er trainiert schon viele Modelle selber bzw macht fine tuning.
Ich meine dass er als Textencoder DeepSeek-R1 nutzt. Aber seine Systeme werden oft umgehäkelt wenn er mit einem Setup genug Bilder erzeugt hat.
Ich benutze halt einfach nur immer gerne seinen Rechner, weil ich lokal nur 4070ti habe.
Aber ich kann ihn gerne mal am Montag fragen. Sein System ist halt nur CLI based auf "Masse" optimiert, also kein ConmfyUI etc.
Zuletzt bearbeitet: