[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

@Dennis_BW
Was hat das mit Fedora zu tun? Sind die nicht auch Cutting-Edge?

Keuleman schrieb:
Fände ich gut, AMD Karten bringen ja gut VRAM mit.
All diese Spieletests interessieren mich eigentlich nimmer. Wobei CB hat dieser Tage einen guten Veröffentlicht: https://www.computerbase.de/artikel...omorrow-from-the-ashes-pc-tuning-guide.95811/
Aber ehrlich, ich seh da keinen Großen unterschied mehr zwischen den Einstellungen... egal.

Der Punkt ist: Mich würden Benchmaks in diesen Bereich interessieren. Da findet doch gerade die Entwicklung statt.

braindamage10k schrieb:
Die AI versteht nicht
Eben. Deshalb ist Bildgenerierung auch so ein gutes Mittel, sich das klar zu machen. Mir schlackern die Ohren, wenn ich so manchen Untergaspropheten höre.

---

Ich experimentiere gerade wieder mit Krita AI Diffusion. Das ist so ein Cooles Addon. Über eine relativ einfache UI hat man zugriff auf unterschiedlichste Workflows und Modelle! Dadurch, das alles innerhalb eines Malprogramms läuft, kann man auch super leicht Eingreifen und das Bild bzw. die Entwicklung beeinflussen.

Wenn nicht direkt ComfyUI, dann über Kita...

Gerade lade ich Flux 2 klein 9b base herunter. Darauf gekommen bin ich, weil Krita bei der non-base Variante irgendein Problem mit der CFG hat. Die lässt sich nicht aut 5 stellen - zumindest nicht ohne, das es zu Bildfehlern kommt. Ich brauch aber diese Genauigkeit.

Ich hoffe, das ich dann meinen Workflow in Krita machen kann. Bin auch gespannt, ob sich die Base-Variante etwas anders verhält...

Mir ist noch aufgefallen, das Flux nur eine gewisse Oberweite bei Frauen erstellt. Egal wie aggressiv ich eine gewisse Größe beschreibe, manche "Standards" können wohl nicht überwunden werden. Da macht es dann auch keinen Unterschied, ob ich ein Referenzbild in das Modell gebe. Wie geht es euch damit?

Das führt dazu:
SDXL, Pony, Illustrious für kreatives
Qwen Image (Edit) für Menschen
Flux 2 klein 9b für Editing

SDXL für Menschen, dann wenn Hände ins Spiel kommen, ist echt nervig.

Welche Favoriten habt ihr?
 
Zuletzt bearbeitet:
Meta.Morph schrieb:
@Dennis_BW
Was hat das mit Fedora zu tun? Sind die nicht auch Cutting-Edge
Ich hatte das nur erwähnt weil vor dem Treiber Update bei mir ComfyUI unter Windows mit der 9070 XT nicht gelaufen ist und ich deswegen parallel zu Linux gewechselt bin. Allerdings mit hoher Zufriedenheit und bleibe auch dabei.
 
Linux ist auch was Feines. 9070 XT nun mit Pytorch grandios! Bin auf die ersten Erfahrungen gespannt. Aktuell bin ich aber gut aufgestellt, Nvidia Karten. Dennoch immer gut, Alternativen zu haben.
 
loaded partially; 0.00 MB usable, 0.00 MB loaded, 2331.69 MB offloaded, 648.02 MB buffer reserved, lowvram patches: 0
Warning: Ran out of memory when regular VAE decoding, retrying with tiled VAE decoding.
Weiß jemand, welcher Speicher hier gemeint ist, RAM oder VRAM?

Ach, ich ärger mich nun tatsächlich, dass ich vor Monaten nicht 2x32 oder gar 2x64GB RAM gekauft habe.
 
Meta.Morph schrieb:
Gerade lade ich Flux 2 klein 9b base herunter. Darauf gekommen bin ich, weil Krita bei der non-base Variante irgendein Problem mit der CFG hat. Die lässt sich nicht aut 5 stellen - zumindest nicht ohne, das es zu Bildfehlern kommt. Ich brauch aber diese Genauigkeit.

Die Modelle ohne "base" im Namen sind "distilled" Modelle, also wenig steps usw., daher funktionieren die nicht oder nicht gut mit höherer CFG als 1. Das base Modell ist erstmal nicht so gut wie das distilled Modell, man kann es sich in etwa vorstellen, wie bei SDXL 1.0 (Base), da brauchte es auch Finetunes, um das Potential auszuschöpfen. Diese werden ja kommen bzw. sind schon unterwegs. Und für das von Dir verwendete Modell gibt es bereits LORAs die Dir bei Deinen Oberweiten-Wünschen helfen können (siehe civitai) ;)
Ergänzung ()

Tr8or schrieb:
Weiß jemand, welcher Speicher hier gemeint ist, RAM oder VRAM?

Ach, ich ärger mich nun tatsächlich, dass ich vor Monaten nicht 2x32 oder gar 2x64GB RAM gekauft habe.
Recht sicher, dass es da um VRAM geht, das ist ja der letzte SChritt in der Bildgenerierung. Was genau machst Du denn?
 
MechanimaL schrieb:
Recht sicher, dass es da um VRAM geht, das ist ja der letzte SChritt in der Bildgenerierung. Was genau machst Du denn?
16 Sekunden LTX2 I2V, 640x520.
Der läuft zwar durch, aber muss wohl immer nachladen was verzögert. Wobei ich 250s schon echt gut finde. Wobei ab und zu die Stimmen fehlen, die fallen wohl als erstes untern Tisch wenn es eng wird.
 
"Und für das von Dir verwendete Modell gibt es bereits LORAs die Dir bei Deinen Oberweiten-Wünschen helfen können ;)"
@MechanimaL ;-P

RAM ist immer fein, offloading. Werde nie vergessen, wie ich bei den 128 GB einmal davor gesessen habe und in Comfy sehen konnte, die der immer weiter voll gepackt wurde "58%.... 65%.... 77%...". Es hat gepasst, ich weiß nicht mal welcher Flow/Modell/wofür aber da hab ich da gesessen und gedacht "ok...128 GB kriegt man auch voll... Wahnsinn".
 
MechanimaL schrieb:
Und für das von Dir verwendete Modell gibt es bereits LORAs die Dir bei Deinen Oberweiten-Wünschen helfen können (siehe civitai) ;)

"Meine Wünsche" sind noch außerhalb des Fetisch-Spektrums 😉
Es ist ja nicht ganz so trivial. Gerade wenn man augenscheinlich auf Realismus drängt, kann man nicht nur Standardkörper generieren...

MechanimaL schrieb:
Die Modelle ohne "base" im Namen sind "distilled" Modelle, also wenig steps usw., daher funktionieren die nicht oder nicht gut mit höherer CFG als 1. Das base Modell ist erstmal nicht so gut wie das distilled Modell, man kann es sich in etwa vorstellen, wie bei SDXL 1.0 (Base),
Soweit hab ich das mitbekommen.

Aber mit dem Non-Base Modell kann ich über ComfyUI auf CFG 5 gehen mit 20 Steps. Was zur Folge hat, das dass Ergebnis ziemlich genau am Prompt dran ist. Ich kann aber auch - mit dem selben Modell! die CFG auf 1 lassen und nur 4 Steps ausführen. Das Ergebnis schaut schön aus aber entspricht nicht genau dem Prompt.
 
Zuletzt bearbeitet:
Ich meinte nicht mal fetisch einfach ne anpassbare Größe 😁

@Tr8or wie machst du es, comfy oder swarmui? Im swarm kannst du mit lora 0.6, 8 Steps und ohne upscale prozess direkt in der gewünschten Auflösung probieren. Dieser zweite sampler Schritt ist dort noch nicht richtig möglich Qualität ist aber auch damit gut und es ist schnell.
 
  • Gefällt mir
Reaktionen: Tr8or
Ich nutze derzeit Comfy, aber werde es mir in Swarm morgen Vormittag mal angucken :)
 
Keuleman schrieb:
NVFP4, da bin ich raus :-D
Keuleman schrieb:
Aktuell bin ich aber gut aufgestellt, Nvidia Karten
Warum nicht nutzen, wenn man's kann?

Ich hab NVFP4 mit dem Flux Modell getestet.
Hab alle 3 Quantisierungen. Hab ein Seed laufen lassen und ich bin erstaunt!

Das große Modell hat ja knapp 17 GB
Das mittlere ist 8,8 GB
Und die NVFP4 Variante nur noch 5,4 GB

Hab euch mal Bilder von jedem Model mit demselben Seed gemacht.
Was das Base Model macht, keine Ahnung...
Zwischen dem fp16 und fp8 sehe ich keine Unterschiede und bei dem nvfp4 dürft ihr euch selber mal auf die suche machen. Es gibt einen Unterschied... :)

Ich werde die nvfp4 weiterhin in Krita verwenden. Die fp8 kommt zum Einsatz, wenn ich direkt mit ComfyUI arbeite und für den Rest, sehe ich keinen Sinn...

blubberbirne schrieb:
Da die Datei fast so groß ist wie die fp8 Variante, kann ich mir den Download wohl fast sparen. Da wirds auf meinem System mit 12VRAM und 32RAM echt knapp.
 

Anhänge

  • base.png
    base.png
    1,7 MB · Aufrufe: 26
  • Flux2-Klein.png
    Flux2-Klein.png
    1,9 MB · Aufrufe: 24
  • Flux2-Klein_fp8.png
    Flux2-Klein_fp8.png
    1,9 MB · Aufrufe: 24
  • nvfp4.png
    nvfp4.png
    1,9 MB · Aufrufe: 24
NVFP4 ist glaub für die neuen Karten, 5er Generation. Kann auf 4er laufen, soll langsam sein? FP8 tut's mir aber auch tatsächlich sehr gut. Speed Lora und go. Ich muss aber gestehen, ich mag das ältere QWEN Edit 2509 mehr, das fantasiert (gefühlt) nicht so viel rum wie das neue Modell.
 
Keuleman schrieb:
NVFP4 ist glaub für die neuen Karten, 5er Generation. Kann auf 4er laufen, soll langsam sein?

Puh... stimmt. Hab eine 4070...
Das Ganze ist um eine ganze Sekunde langsamer (mit den selben Bildern - siehe oben).

Schon enttäuschend... wenn man da nicht auf den USP der 50er Karten setzen will... echt schade, wozu ein Monopol so alles führt.
 
eine Sekunde, ok X-D. Vielleicht eine Option, wenn der Speicher ganz eng wird, mit den FP8s bin ich aber bisher immer gut gefahren, passt mir schon.

EDIT: übrigens auffällig viele Haare, die Dame, bei allen kleineren Modellen. Mir auch schon bei einigen Bildern untergekommen.
 
@Tr8or jo, nichts geht über einen gepflegten Damenbart 🙃

An dieser Stelle ist der Prompt auch nur C&P eines SDXL Bildes...
girl, long hair, multicolored hair, soft smile, leaning against wall, graffiti wall, partial illumination, afternoon lighting, shallow depth of field, large format, ultra high res, RAW photo, 70mm lens, muted colors, textured skin, dry skin, skin fuzz, detailed eyes, visible pupils, perfect eyes
Vielleicht hat Flux Probleme mit der Beschreibung der Haut? Das Base Model finde ich auch nicht so krass. Aber da kommt, finde ich, die Plastikhaut wieder raus. Und ich hoffe einfach mal, das die Dame nicht mit der Wand verschmolzen ist.

Sehr schade, das die Metadaten gelöscht werden...

Flux 2 finde ich fürs Editieren genial. Aber für die T2I Erstellung von Menschen...
Aber das wird die Community richten können.
 
Tr8or schrieb:
Du kennst den Prompt doch nicht, vielleicht mag @Meta.Morph eine niedliche Flaumbehaarung :)
Meta.Morph schrieb:
@Tr8or jo, nichts geht über einen gepflegten Damenbart 🙃
😅

Also ich vermute das liegt einfach an der Zahl der Steps (und ggf. erhöhter CFG). Mit 8 Steps, CFG 1 und EULER/FLUX2, Flux2.Klein.9B (gleiches Prompt):

1769158692687.png
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Meta.Morph
Zurück
Oben