[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

2026-02-19-21-00-28-1-landscape_lake_mountain_sunlight_blue_sky_cloudy_sky_cloud_no_humans_lak...png
auf einem Ivy Bridge Rechner, 16 GB RAM, NMKD Stable Diffusion, RealisticVision V6 mit Nature_SDXL Lora. Acutally, nicht schlecht!
 
  • Gefällt mir
Reaktionen: MuhSagtDieKuh
Krik schrieb:
Ryzen 9600X
Radeon 9070XT 16 GB
32 GB RAM
Laut der Beschreibung bei Flux 2 Dev FP8 werden 16 GB VRAM und wenigsten 64 GB System-RAM benötigt. Flux 2 selber ist 60 GB groß.

Flux 2 Klein 9B + Qwent 3 4B + AE habe ich mal kurz angeworfen:
Anhang anzeigen 1707677
ZRAM = so eine Art Auslagerungsdatei
Noch läuft es, aber ich erwarte, dass es mangels Speicher abstürzt. Bei der Performance ist das Ganze aber eh nicht praktikabel. :(
Was ist denn die Performance? Vom Speicher sollte das locker gehen und die Flux 2 klein 9b FP8 non-base sollte schnell sein…wobei ich keine Ahnung habe, wie AMD rocM vs CUDA performt…fp8 dürfte die Radeon nativ können.

Ich hab 96 GB System-RAM im Hintergrund, macht vieles entspannter…hatte vorher auch 32 GB und das 64 GB Upgrade hat nur knapp über 100 € gekostet 🫣
 
MechanimaL schrieb:
Flux9b sollte aber eigtl bei Dir laufen, es läuft auch bei nem Bekannten von mir mit 12GB Vram und 32GB Sysram.
MuhSagtDieKuh schrieb:
Was ist denn die Performance? Vom Speicher sollte das locker gehen und die Flux 2 klein 9b FP8 non-base sollte schnell sein
Flux 9B läuft auch, aber die Kombination mit Qwent für die Prompt-Verabreitung und das extra VAE-Model dazu, weil beides nicht im Checkpoint-Modell enthalten ist, ist einfach zu viel.
Die Performance ist unterirdisch, weil er permanent die Daten zwischen VRAM, RAM und Auslagerungsdatei hin- und herschiebt.

Ich hab mich dann umgeschaut und dieses Flux-Modell mit integriertem CLIP-Verarbeiter und VAE gefunden. Damit experimentiere ich gerade. Das hier scheint die maximale Auslastung zu sein, wenn ich es zusammen einem 4x-Upscaler-Modell laufen lasse.
1771546718292.png

Es läuft immerhin durch, aber mit dem Ergebnis bin ich noch nicht zufrieden. Ich muss noch herausfinden, mit welchen Parametern ich die besten Ergebnisse erziele.

Flux 1 Compact - 512x512, Step 20, CFG 1.0, Euler
Upscaler - djz4XLandscapes_v1
ComfyUI_temp_axmau_00005_.png


Prompt schrieb:
An oil painting with delicate brush strokes. The subject is an Irish woman with long, bright red hair, pale skin, green eyes. She is happy and carefree. She is dressed in a translucent white smock dress. She is barefoot. The setting is a field of wildflowers. The flowers are almost as big as the woman. In the background is an ancient forest, and to the subject's left is a small pond. The woman is frolicking among the flowers. Bright, cheerful light, midday sunshine. Painting in a pre-Raphaelite artistic style, with visible sunbeams. The painting is old and slightly faded with age.

Generell bin ich mit allen Upscalern bis jetzt unzufrieden. Aber ohne sie dauert ein Bild locker 20 Minuten, mit ihnen 1 Minute. Hmph!
 
Zuletzt bearbeitet:
Krik schrieb:
Flux 9B läuft auch, aber die Kombination mit Qwent für die Prompt-Verabreitung und das extra VAE-Model dazu, weil beides nicht im Checkpoint-Modell enthalten ist, ist einfach zu viel.
Die Performance ist unterirdisch, weil er permanent die Daten zwischen VRAM, RAM und Auslagerungsdatei hin- und herschiebt.
Was für ein Tool benutzt du den für die Generierung? ComfyUI oder was anderes?

Ob Qwen und VAE separat geladen werden oder in einem Checkpoint stecken, ist für die Geschwindigkeit der Ausführung komplett irrelevant.

Der Flow ist immer
  • Load Text-Encoder => Encode Prompts => Unload Text-Encoder
  • Load Model => Run Generation => Unload Model
  • Load VAE => Generate final image => Unload VAE
Es ist also nur immer ein Teil gleichzeitig im VRAM...wenn der System-RAM dann zum Limit wird, kann man auch Caching in ComfyUI deaktivieren...braucht dann etwas länger zum Laden.
 
  • Gefällt mir
Reaktionen: MechanimaL
@All Mal ne Frage ich nutze AMUSE von AMD. Da kann man ja verschiedenste Modelle nutzen. Mit welchen habt Ihr schon Erfahrungen gesammelt?

Eine Schwäche bei den jetzigen Modellen bisher - das ich es nicht fertig bringe das weitere Objekte ins Bild generiert werden. Hat wer einen guten Einstieg fürs Prompting - vielleicht liegt es ja nur an mir - und meinem unzureichenden Wissen...

Ach und noch was - hat wer von euch schon sein eigenes Modell trainiert?
 
MechanimaL schrieb:
Du bist unter Linux und benutzt einen aktuellen Build von comfy für linux, korrekt?
MuhSagtDieKuh schrieb:
Was für ein Tool benutzt du den für die Generierung? ComfyUI oder was anderes?
ComfyUI in Pinokio unter CachyOS (Linux)

MechanimaL schrieb:
Hast du Z-Image Turbo schon probiert?
Jepp und das macht gute Bilder. Und es ist schnell genug, dass ich direkt mit einem größeren Anfangsbild anfangen kann. Ich bräuchte jetzt "nur" noch einen 2x Upscaler, aber das scheint es nicht direkt zu geben.

Das hier hat nur 53 Sekunden gebraucht mit 6 Steps. In dieser Auflösung. Nice! 🤓
ComfyUI_00006_.png
 
  • Gefällt mir
Reaktionen: MechanimaL
Krik schrieb:
Jepp und das macht gute Bilder. Und es ist schnell genug, dass ich direkt mit einem größeren Anfangsbild anfangen kann. Ich bräuchte jetzt "nur" noch einen 2x Upscaler, aber das scheint es nicht direkt zu geben.
https://freeimage.host/i/q3pgvxR
mit SeedVR2 7B FP8 Mixed

Wenn Dir das gefällt, ein angepasster Workflow ist im Anhang. Hat mit diesen Setttings bei mir für den 2x upscale deines Bildes 12,6GB VRAM und 24 SYS RAM gebraucht, also auch im Rahmen. Template sollte auch in comfyui sein. Wer viel VRAM hat, kann auch die bf16 Variante probieren bzw. block swap deaktivieren usw. :)

Settings kann man noch tweaken für höhere Auflösungen, bessere Geschwindigkeit usw. z.B. bei Block Swap Anpassungen machen oder Attention (je nachdem was unterstützt ist) sowie Compile Settings.

Dokumentation z.B. hier unter usage.
 

Anhänge

  • Gefällt mir
Reaktionen: Keuleman
MechanimaL schrieb:
ein angepasster Workflow ist im Anhang
Irgendwas geht da schief.

Aus das
ComfyUI_00006_.png
macht er das
ComfyUI_00008_.jpg

Keine Ahnung, was hier schief läuft. Ich habe keine Einstellungen geändert.
1771626302717.png

Code:
got prompt
 
 
   ███████╗███████╗███████╗██████╗ ██╗   ██╗██████╗     ██████╗       ███████╗
   ██╔════╝██╔════╝██╔════╝██╔══██╗██║   ██║██╔══██╗    ╚════██╗      ██╔════╝
   ███████╗█████╗  █████╗  ██║  ██║██║   ██║██████╔╝     █████╔╝      ███████╗
   ╚════██║██╔══╝  ██╔══╝  ██║  ██║╚██╗ ██╔╝██╔══██╗    ██╔═══╝       ╚════██║
   ███████║███████╗███████╗██████╔╝ ╚████╔╝ ██║  ██║    ███████╗  ██╗ ███████║
   ╚══════╝╚══════╝╚══════╝╚═════╝   ╚═══╝  ╚═╝  ╚═╝    ╚══════╝  ╚═╝ ╚══════╝
   v2.5.24                                    © ByteDance Seed · NumZ · AInVFX
   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
 
[23:32:41.018] 🏃 Creating new runner: DiT=seedvr2_ema_7b_fp8_e4m3fn_mixed_block35_fp16.safetensors, VAE=ema_vae_fp16.safetensors
[23:32:41.032] 🚀 Creating DiT model structure on meta device
[23:32:41.111] 🎨 Creating VAE model structure on meta device
[23:32:41.435] 
[23:32:41.435] 🎬 Starting upscaling generation...
[23:32:41.435] 🎬   Input: 1 frame, 1920x1088px → Padded: 3616x2048px → Output: 3614x2048px (shortest edge: 2048px)
[23:32:41.435] 🎬   Batch size: 1, Seed: 181478889, Channels: RGB
[23:32:41.435] 
[23:32:41.435]  ━━━━━━━━ Phase 1: VAE encoding ━━━━━━━━
[23:32:41.435] 🎨 Materializing VAE weights to CPU (offload device): /home/krik/pinokio/api/comfy.git/app/models/SEEDVR2/ema_vae_fp16.safetensors
[23:32:41.625] 🎨 Encoding batch 1/1
[23:32:41.631] 📹   Sequence of 1 frames
[23:32:41.654] 🎨   Using VAE tiled encoding (Tile: (1024, 1024), Overlap: (128, 128))
[23:32:48.459] 
[23:32:48.459]  ━━━━━━━━ Phase 2: DiT upscaling ━━━━━━━━
[23:32:48.460] 🚀 Materializing DiT weights to CPU (offload device): /home/krik/pinokio/api/comfy.git/app/models/SEEDVR2/seedvr2_ema_7b_fp8_e4m3fn_mixed_block35_fp16.safetensors
[23:32:49.251] 🔀 BlockSwap: 16/36 transformer blocks offloaded to CPU
[23:32:49.843] 🎬 Upscaling batch 1/1
EulerSampler: 100%|█████████████████████████████████████████████████████████████EulerSampler: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:11<00:00, 11.89s/it]
[23:33:02.094] 
[23:33:02.094]  ━━━━━━━━ Phase 3: VAE decoding ━━━━━━━━
[23:33:02.094] 🔧 Pre-allocating output tensor: 1 frames, 3614x2048px, RGB (0.04GB)
[23:33:02.118] 🎨 Decoding batch 1/1
[23:33:02.118] 🎨   Using VAE tiled decoding (Tile: (1024, 1024), Overlap: (128, 128))
[23:33:17.326] 
[23:33:17.326]  ━━━━━━━━ Phase 4: Post-processing ━━━━━━━━
[23:33:17.326] 📹 Post-processing batch 1/1
[23:33:17.388] 📹   Applying LAB perceptual color transfer
[23:33:17.480] 🎬 Output assembled: 1 frames, Resolution: 3614x2048px, Channels: RGB
[23:33:17.481] 
[23:33:17.486] ✅ Upscaling completed successfully!
[23:33:17.888] ⚡ Average FPS: 0.03 frames/sec
[23:33:17.888] 
[23:33:17.888]  ────────────────────────
[23:33:17.889] 💬 Questions? Updates? Watch, star & sponsor if you can!
[23:33:17.890] 🎬 https://www.youtube.com/@AInVFX
[23:33:17.890] ⭐💝 https://github.com/numz/ComfyUI-SeedVR2_VideoUpscaler
Prompt executed in 37.84 seconds
Ganz so viel RAM wie bei dir hat er bei mir nicht gebraucht. 16 VRAM und ca. 18 GB Sys-RAM waren in Verwendung.
 
Hey, ich tippe es geht irgendwas mit dem tiling Prozess bzw. beim Zusammensetzen am Ende schief. Du kannst natürlich mal versuchen tiled encoding/decoding zu deaktivieren, um dieses als Fehler festzunageln oder auszuschließen (dafür evtl. höhere BlockSwap und kleinere Zielauflösung, damits läuft).

Bei der letzten Node mal uniform batch size auf true setzen, könnte auch helfen.

"enable_debug" auf true sollte genauere Logs ausgeben.

(Ansonsten schauen, dass alles aktuell ist bzgl. ROCm und Comfy, aber hast Du ja wsl schon.)
 
Zuletzt bearbeitet:
Deine Tipps haben leider keine Abhilfe gebracht. :(
Nun gut, dann geht das bei mir halt nicht.

Es gibt da noch so viel zu entdecken, ich finde sicher auch noch einen guten 2x-Upscaler.
 
  • Gefällt mir
Reaktionen: Krik
Heute mal den schnellsten Rechner am Start, den die Sammlung hergibt (i9-13900T, 128 GB RAM und RTX 4070 TI Super). LTX-2 in der FP8 destilled Variante. 19b Parameter. Durch ein anderes Modell habe ich vermutlich nur noch minimal bessere Qualität, gell. Schon schick, mehr Parameter werden genial! Hat mal jemand ein anderes Gemma getestet und kann mir zu einem für die RTX 4070 TI raten? Grad die 12b fp8 Version laufen. Hätte noch genug RAM für grössere tatsächlich aber bringt das was?
 
@Keuleman
Ich hab eine normale 4070. Ich kann LTX 2 FP8 über Wan2GP laufen lassen. Das Modell nutzt "gemma-3-12b-it-qat-q4_0-unquantized".

Bin allerdings so semi begeistert von LTX2. Keine Ahnung woran es liegt aber meinen Erwartungen, wenn es um Kontrolle und Konsistenz geht, erfüllt es nicht. Du kannst mir ja mal ein Prompt schicken...
Kannst mir dann sagen, ob dir das genügen würde.

Keuleman schrieb:
Hätte noch genug RAM für grössere tatsächlich aber bringt das was?

Das du größere Modelle laufen lassen kannst? Ist doch eine starke Tatsache.

Keuleman schrieb:
kann mir zu einem für die RTX 4070 TI raten

Warum? Wie viel soll die Karte kosten? Geschenkt? Klar warum nicht 😁
 
@MechanimaL
Das hat den Fehler beseitigt. 👍
Es neigt trotzdem gelegentlich zu merkwürdigen Fehlern. Z. B. meckert es ab und zu, dass der VRAM voll wäre, dabei stimmt das gar nicht. Egal, es läuft die meiste Zeit und bringt ein gutes Ergebnis.
 
Ok cool :) Wegen VRAM/RAM, da kannst Du durch Probieren wahrscheinlich am meisten erreichen, also das Setting, was maximale Geschwindigkeit bei ausreichender Stabilität bringt, je nach Auflösung. Wenn besagte Fehler entlang der Überlappungsbereiche der Kacheln (tiles) verlaufen, dann ggf. mal diesen Wert (overlap) anheben. Mit "tile debug" kannst Du die Bereiche genau anzeigen lassen (für encode und decode) und sehen, ob die Fehler dort liegen.
Ergänzung ()

Keuleman schrieb:
Hat mal jemand ein anderes Gemma getestet und kann mir zu einem für die RTX 4070 TI raten?
Meine mich zu erinnern, dass das keinen nennenswerten Unterschied macht.

noch zu LTX2: Prompts machen einen Qualitätsunterschied, dafür gibts GPTs oder lokal einbindbare Nodes die helfen, damit man nicht selbst alles im Detail ausführen muss. Ansonsten LORAs, höhere Auflösung (sofern möglich), custom workflows. FP8 Modell ist aber wsl das höchste der Gefühle für die Normalsterblichen (bis 32GB VRAM). Zumindest mit Template Workflow, andere würden vll irgendwie laufen, aber müssten dann sehr langsam sein. Also lieber mal die oben genannten Ideen zur Qualitätssteigerung mit fp8/gguf modellen probieren:
  • Bessere Prompts, -LORAs/-Lokrs, -Auflösung höher (sofern möglich- hier ggf. wieder custom workflows nötig)
  • custom workflows auf civitai oder in der nächsten Quelle
  • laufend weitere tweaks im #ltxressources discord channel von banodoco :)
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Krik
Zurück
Oben