Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden.
Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)
- Ersteller MechanimaL
- Erstellt am
Meta.Morph
Lieutenant
- Registriert
- März 2022
- Beiträge
- 592
Also irgendwie bekomme ich das auch nicht so ganz auf die Kette...
Die non-base Variante ist distilled (warum nicht im Namen? Egal.). Mit der kann man CFG auf 1 setzen und muss weniger Steps durchlaufen, in ComfyUI.
In Krita kann ich die non-base Variante nur mit CFG 1 nutzen!
Wiederum in ComfyUI kann ich eine CFG von 5 einstellen. Das Ergebnis ist näher am Prompt.
Wie gesagt, ich komm da nimmer mit...
Bild: selber Seed, gleicher Prompt, CFG 1, Steps 6
In jedem fall ist die Generierung deutlich angenehmer, also auch von der Geschwindigkeit...
Aber findet ihr nicht auch, das sich die Gesichter, trotz anderem Seed, sehr ähneln?
Die non-base Variante ist distilled (warum nicht im Namen? Egal.). Mit der kann man CFG auf 1 setzen und muss weniger Steps durchlaufen, in ComfyUI.
In Krita kann ich die non-base Variante nur mit CFG 1 nutzen!
Wiederum in ComfyUI kann ich eine CFG von 5 einstellen. Das Ergebnis ist näher am Prompt.
Wie gesagt, ich komm da nimmer mit...
Bild: selber Seed, gleicher Prompt, CFG 1, Steps 6
In jedem fall ist die Generierung deutlich angenehmer, also auch von der Geschwindigkeit...
Aber findet ihr nicht auch, das sich die Gesichter, trotz anderem Seed, sehr ähneln?
- Registriert
- Nov. 2005
- Beiträge
- 1.114
Das stimmt, dass sie sich ähneln, ich hatte dazu auch einen Post in einem DIscord gesehen, finde ihn aber grade nicht mehr. Wenn ich mich richtig erinnere, war die Conclusio, dass man über Prompting Varianz erreichen kann. Hier jedenfalls mal noch ein Prompt für das Bild, das etwas erweitert ist (habe einfach ein "gpt" erstellt mit dem BFL-Flux2KLein Prompt Guide und Deinen als Basis reingegeben). Wenn man dann noch die Auflösung etwas erhöht (also zb 1280 oder 1536 Seitenlänge) bekommt man schon schärfere Ergebnisse mit mehr Details.
A young woman with long, flowing multicolored hair leans casually against a weathered graffiti wall, her posture relaxed and intimate. She wears a soft, understated smile, her expression calm and introspective. The urban background is slightly worn, layers of faded graffiti adding texture without overpowering the subject.
Partial afternoon light falls across her face from the side, warm and low, creating gentle contrast: one side softly illuminated, the other receding into smooth shadow. The light is natural and diffused, grazing her skin and subtly revealing fine details — textured, slightly dry skin, delicate skin fuzz, and natural imperfections rendered with honesty.
Shot with a large-format camera using a 70mm lens, the shallow depth of field isolates her from the background, melting the graffiti into soft bokeh. Her eyes are sharply in focus, highly detailed, with clearly visible pupils and natural reflections, conveying quiet presence.
The color palette is muted and restrained, emphasizing realism over saturation. The image feels like an ultra-high-resolution RAW photograph, intimate, tactile, and grounded in natural light.
Partial afternoon light falls across her face from the side, warm and low, creating gentle contrast: one side softly illuminated, the other receding into smooth shadow. The light is natural and diffused, grazing her skin and subtly revealing fine details — textured, slightly dry skin, delicate skin fuzz, and natural imperfections rendered with honesty.
Shot with a large-format camera using a 70mm lens, the shallow depth of field isolates her from the background, melting the graffiti into soft bokeh. Her eyes are sharply in focus, highly detailed, with clearly visible pupils and natural reflections, conveying quiet presence.
The color palette is muted and restrained, emphasizing realism over saturation. The image feels like an ultra-high-resolution RAW photograph, intimate, tactile, and grounded in natural light.
Meta.Morph
Lieutenant
- Registriert
- März 2022
- Beiträge
- 592
@Keuleman
Das Bild taugt auch wirklich nicht mehr...
Ich bin Versucht, solche Modelle wieder von der Platte zu werfen. Flux1 ist nicht gut gealtert.
Da finde ich es erstaunlich, wie lebendig die SDXL Community ist. Wie gesagt, will man bloß Menschen, mit nur einem Prompt/Versuch generieren, kann man auch solche Modelle vergessen. Aber fürs Creative ist das immer noch way to go.
Das Bild taugt auch wirklich nicht mehr...
Ich bin Versucht, solche Modelle wieder von der Platte zu werfen. Flux1 ist nicht gut gealtert.
Da finde ich es erstaunlich, wie lebendig die SDXL Community ist. Wie gesagt, will man bloß Menschen, mit nur einem Prompt/Versuch generieren, kann man auch solche Modelle vergessen. Aber fürs Creative ist das immer noch way to go.
Meta.Morph
Lieutenant
- Registriert
- März 2022
- Beiträge
- 592
Ob das so funktioniert? Und dann ist noch: Bei mir sind die Bilder in 5 bis 10 Sekunden generiert, mit Flux2 Klein 9b.Keuleman schrieb:Das ist der totale way to go. Läuft auf CPU und gibt gute erste Einschätzung, ob das Prompt was taugt.
---
Anfangs war ich skeptisch. Aber ich mag Flux2Klein inzwischen sehr.
Aktuell hab ich Spaß daran Bilder zu "editieren". Dadurch hat man nicht nur über den Text oder über LoRAs Einfluss auf auf das Ergebnis hat, sondern auch über das Input-Bild... surprise. Mir is klar, das das ControlNet usw. gibt. Aber mit Flux ist das eben nochmal einfacher.
Das man Input-Bilder verwenden kann, wird ja prominent dargestellt. Aber is schon etwas Shady, sich aus dem internet zu bedienen und Varianten von etwas zu erstellen. 😁
Aber unter Deepfakes dürfe das nicht fallen. Is ja ne Variate und keine Fälschung?
- Registriert
- Nov. 2005
- Beiträge
- 1.114
Heute Mittag ein Video gesehen bzgl. Anatomie-Verbesserung in Flux.Klein, wenn Probleme auftauchen, das waren im wesentlichen die Erkenntnisse:
Dann eben noch zum selben Thema über diese Lora gestolpert:
https://civitai.com/models/2324991/klein-anatomy-quality-fixer?modelVersionId=2615554
- mehr Steps (als 4)
- cfg leicht erhöhen (1.2)
- anderen Sampler, wie res2 probieren (den gibt's mit dieser custom_node)
Dann eben noch zum selben Thema über diese Lora gestolpert:
https://civitai.com/models/2324991/klein-anatomy-quality-fixer?modelVersionId=2615554
Ich hab den Prompt mal auf einem System eines Freundes gerechnet mit 6000 * 2 also 96 GB VRam (der das System teil"berufich" nutzt) und FP16 unquantized weights, Flux2
Ein ganz anderes Ergebnis aber auch interessant und recht "natürlich" - denke dass das auch an den Text encodern liegt - weshalb "gleiche" Modelle etwas unabhängig vom Seed ähnliche Bilder erzeugen.
Evtl ist sein Modell auch selber finegetuned - er nutzt das für technische Objekte in der Natur als (Massen) Sample Trainingsinput für spätere Objekterkennung durch andere Modelle.
Ein ganz anderes Ergebnis aber auch interessant und recht "natürlich" - denke dass das auch an den Text encodern liegt - weshalb "gleiche" Modelle etwas unabhängig vom Seed ähnliche Bilder erzeugen.
Evtl ist sein Modell auch selber finegetuned - er nutzt das für technische Objekte in der Natur als (Massen) Sample Trainingsinput für spätere Objekterkennung durch andere Modelle.
Anhänge
Zuletzt bearbeitet:
- Registriert
- Nov. 2005
- Beiträge
- 1.114
Sieht mir nicht nach Flux2 Dev aus. Das fp8mixed Modell gibt andere Ergebnisse und sollte an sich nicht meilenweit von dem vollen entfernt liegen. Vielleicht kannst du du mal fragen, was genau verwendet wird?
das ist fp16 unquantized weights mit einem (XXXL) grossen Textencoder - eben ein Kombi-Modell für 96 Gbyte VRAM, die auch genutzt werden.
Wie gesagt ich weiss nicht ob er das Modell - oder das textencoder Modell - für seine Zwecke gefeintuned hat - er nutzt die Ausgabe als input für das Training von ganz spezifischer Objektidentifizierung in generierter Umwelt. Es ist aber Flux 2 dev based. Er trainiert schon viele Modelle selber bzw macht fine tuning.
Ich meine dass er als Textencoder DeepSeek-R1 nutzt. Aber seine Systeme werden oft umgehäkelt wenn er mit einem Setup genug Bilder erzeugt hat.
Ich benutze halt einfach nur immer gerne seinen Rechner, weil ich lokal nur 4070ti habe.
Aber ich kann ihn gerne mal am Montag fragen. Sein System ist halt nur CLI based auf "Masse" optimiert, also kein ConmfyUI etc.
Wie gesagt ich weiss nicht ob er das Modell - oder das textencoder Modell - für seine Zwecke gefeintuned hat - er nutzt die Ausgabe als input für das Training von ganz spezifischer Objektidentifizierung in generierter Umwelt. Es ist aber Flux 2 dev based. Er trainiert schon viele Modelle selber bzw macht fine tuning.
Ich meine dass er als Textencoder DeepSeek-R1 nutzt. Aber seine Systeme werden oft umgehäkelt wenn er mit einem Setup genug Bilder erzeugt hat.
Ich benutze halt einfach nur immer gerne seinen Rechner, weil ich lokal nur 4070ti habe.
Aber ich kann ihn gerne mal am Montag fragen. Sein System ist halt nur CLI based auf "Masse" optimiert, also kein ConmfyUI etc.
Zuletzt bearbeitet:
blubberbirne
Lt. Commander
- Registriert
- Okt. 2005
- Beiträge
- 1.614
Falls ihr mit LTX2 Prompting Probleme habt, hier ein Tip. In Chatgpt einen neuen Chat starten und damit beginnen:
Lerne von der Seite https://ltx.io/model/model-blog/prompting-guide-for-ltx-2 wie man eine LTX2 Prompt korrekt erstellt
Danach könnt ihr grob schreiben was ihr haben möchtet und Chatgpt übernimmt den Rest. In ersten Tests funktioniert das bisher recht gut
Lerne von der Seite https://ltx.io/model/model-blog/prompting-guide-for-ltx-2 wie man eine LTX2 Prompt korrekt erstellt
Danach könnt ihr grob schreiben was ihr haben möchtet und Chatgpt übernimmt den Rest. In ersten Tests funktioniert das bisher recht gut
Zuletzt bearbeitet:
(Rechtschreibfehler behoben 😁)
blubberbirne
Lt. Commander
- Registriert
- Okt. 2005
- Beiträge
- 1.614
Kommt immer darauf an was man vorhat und auf das LLM Model.
Wenn das LLM eine Rolle übernehmen kann (z.B. AI Artist), macht es durchaus sinn.
Generationszeit knapp 5min:
Wenn das LLM eine Rolle übernehmen kann (z.B. AI Artist), macht es durchaus sinn.
Generationszeit knapp 5min:
Zuletzt bearbeitet:
Keuleman
Lt. Junior Grade
- Registriert
- Aug. 2014
- Beiträge
- 257
@Meta.Morph Muss ich noch nachschieben: "ist der totale way to go"... bei mir. Muss ich wohl anhängen so: ich habe hier auf der Arbeit einen älteren PC, der hat immerhin 32 GB RAM und einen i7 der 10. Generation. Flux (1) Schnell liefert da in 10 Minuten ansprechende Bilder (halt auf CPU berechnet). Da kann ich dann abschätzen, ob das Prompt was taugt oder geändert werden muß. Wenn sogar Flux (1) Schnell was gutes / passendes / in sich stimmig Aussehendes ausspuckt ist das dann für daheim Material für die größeren Modelle, die auf RTX Karte dann laufen. Dann dann "in Schön".
Meta.Morph
Lieutenant
- Registriert
- März 2022
- Beiträge
- 592
Spannend!Keuleman schrieb:Wird für ne Schulung:
Ist das ein firmeninternes Ding oder berätst du andere Firmen?
Okay etwas verständlicher. Aber dennoch, gerade wenn man mit unterschiedlichen Versionen eines Modells arbeitet, würde ich davon ausgehen, das einige Prompt spezifisch funktionieren bzw. nicht funktionieren. Aber okay, als ganz grobe Marschrichtung...Keuleman schrieb:auf der Arbeit einen älteren PC, der hat immerhin 32 GB RAM und einen i7 der 10. Generation. Flux (1) Schnell liefert da in 10 Minuten ansprechende Bilder
---
Mein Problem ist, ich bin wohl echt zu unkreativ und ich weiß auch nicht, wie ich das vermarkten soll. Bildchen einfach nur so für mich zu erstellen... naja, schön aber naja...
Keuleman
Lt. Junior Grade
- Registriert
- Aug. 2014
- Beiträge
- 257
Nee, das wird so eher für Privatleute, die Bock haben, Ideen auf den Bildschirm zu zaubern. Und das isses ja, man braucht nur "die Idee". Daher auch mein halb unprofessioneller Slogan "It's all in the prompt." (hab ich gemacht weil der mir so einfiel und auch passt einfach). Firmenintern... bin ich wohl der Einzige, der Bock hat auf KI und da was macht. Möbelhandel, eigentlich auch ganz andere Richtung. Aber.. da geht was, ich will nicht immer nur Absagen per KI schreiben :-P Daher, bin gespannt, was in der Schulung so für Ideen "um die Ecke kommen". Geht mir auch 0 ums Geld, klar, ich könnte (wie hier in der Ecke angeboten) ChatGPT für Unternehmen für 300 Euro machen.... nä. Kommt her, wir haben Spaß und machen witzige Sachen... so ticke ich da. Wenn ich was in meinem Lebenslauf habe mit "Schulungen geben" bin ich schon zufrieden. Ist ne Weile her, die letzte meiner Schulungen, damals noch QM...
Noch im Nachtrag zu den Prompts: Klar, Flux Schnell liefert andere Outputs aber man erkennt schon "taugt, taugt nicht": Wenn in Flux Schnell was stimmig Aussehendes kommt hat das auch Potential für die dicken Modelle. Beispiel schiebe ich gleich noch mal nach.
Anhang: Mein momentaner Job ;-D
Musste echt ein bisschen suchen nach einem Beispiel "Flux 1 Schnell" = haut das hin? Anderes Modell = "jetzt neu und in nice":
Bin kein Fan von Fußball, Sport und so aber das war eine Idee, die ich schnell in Flux Schnell ( ;-P ) dokumentiert habe und dann in Qwen ausstaffiert habe.
Noch im Nachtrag zu den Prompts: Klar, Flux Schnell liefert andere Outputs aber man erkennt schon "taugt, taugt nicht": Wenn in Flux Schnell was stimmig Aussehendes kommt hat das auch Potential für die dicken Modelle. Beispiel schiebe ich gleich noch mal nach.
Anhang: Mein momentaner Job ;-D
Ergänzung ()
Musste echt ein bisschen suchen nach einem Beispiel "Flux 1 Schnell" = haut das hin? Anderes Modell = "jetzt neu und in nice":
Bin kein Fan von Fußball, Sport und so aber das war eine Idee, die ich schnell in Flux Schnell ( ;-P ) dokumentiert habe und dann in Qwen ausstaffiert habe.
Anhänge
Zuletzt bearbeitet:
Z-Image wurde veröffentlicht
https://huggingface.co/Tongyi-MAI/Z-Image
https://huggingface.co/Tongyi-MAI/Z-Image