Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden.
Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)
- Ersteller MechanimaL
- Erstellt am
MuhSagtDieKuh
Cadet 2nd Year
- Registriert
- Mai 2023
- Beiträge
- 28
Was ist denn die Performance? Vom Speicher sollte das locker gehen und die Flux 2 klein 9b FP8 non-base sollte schnell sein…wobei ich keine Ahnung habe, wie AMD rocM vs CUDA performt…fp8 dürfte die Radeon nativ können.Krik schrieb:Ryzen 9600X
Radeon 9070XT 16 GB
32 GB RAM
Laut der Beschreibung bei Flux 2 Dev FP8 werden 16 GB VRAM und wenigsten 64 GB System-RAM benötigt. Flux 2 selber ist 60 GB groß.
Flux 2 Klein 9B + Qwent 3 4B + AE habe ich mal kurz angeworfen:
Anhang anzeigen 1707677
ZRAM = so eine Art Auslagerungsdatei
Noch läuft es, aber ich erwarte, dass es mangels Speicher abstürzt. Bei der Performance ist das Ganze aber eh nicht praktikabel.![]()
Ich hab 96 GB System-RAM im Hintergrund, macht vieles entspannter…hatte vorher auch 32 GB und das 64 GB Upgrade hat nur knapp über 100 € gekostet 🫣
MechanimaL schrieb:Flux9b sollte aber eigtl bei Dir laufen, es läuft auch bei nem Bekannten von mir mit 12GB Vram und 32GB Sysram.
Flux 9B läuft auch, aber die Kombination mit Qwent für die Prompt-Verabreitung und das extra VAE-Model dazu, weil beides nicht im Checkpoint-Modell enthalten ist, ist einfach zu viel.MuhSagtDieKuh schrieb:Was ist denn die Performance? Vom Speicher sollte das locker gehen und die Flux 2 klein 9b FP8 non-base sollte schnell sein
Die Performance ist unterirdisch, weil er permanent die Daten zwischen VRAM, RAM und Auslagerungsdatei hin- und herschiebt.
Ich hab mich dann umgeschaut und dieses Flux-Modell mit integriertem CLIP-Verarbeiter und VAE gefunden. Damit experimentiere ich gerade. Das hier scheint die maximale Auslastung zu sein, wenn ich es zusammen einem 4x-Upscaler-Modell laufen lasse.
Es läuft immerhin durch, aber mit dem Ergebnis bin ich noch nicht zufrieden. Ich muss noch herausfinden, mit welchen Parametern ich die besten Ergebnisse erziele.
Flux 1 Compact - 512x512, Step 20, CFG 1.0, Euler
Upscaler - djz4XLandscapes_v1
Upscaler - djz4XLandscapes_v1
Prompt schrieb:An oil painting with delicate brush strokes. The subject is an Irish woman with long, bright red hair, pale skin, green eyes. She is happy and carefree. She is dressed in a translucent white smock dress. She is barefoot. The setting is a field of wildflowers. The flowers are almost as big as the woman. In the background is an ancient forest, and to the subject's left is a small pond. The woman is frolicking among the flowers. Bright, cheerful light, midday sunshine. Painting in a pre-Raphaelite artistic style, with visible sunbeams. The painting is old and slightly faded with age.
Generell bin ich mit allen Upscalern bis jetzt unzufrieden. Aber ohne sie dauert ein Bild locker 20 Minuten, mit ihnen 1 Minute. Hmph!
- Registriert
- Nov. 2005
- Beiträge
- 1.150
Du bist unter Linux und benutzt einen aktuellen Build von comfy für linux, korrekt? Die Frage ist auch ob fp8 oder fp8 mixed für dich das ganze zusätzlich verlangsamen (wäre möglich). Musst Du mal selbst testen.
Hast du Z-Image Turbo schon probiert? 4-8 Steps, cfg1 bei guter Qualität. (workflow template in comfy.)
https://civitai.com/models/2168935/z-image-turbo (mal zuerst probieren)
https://civitai.com/models/2170391/z-image-turbo-fp8-kijai
Hast du Z-Image Turbo schon probiert? 4-8 Steps, cfg1 bei guter Qualität. (workflow template in comfy.)
https://civitai.com/models/2168935/z-image-turbo (mal zuerst probieren)
https://civitai.com/models/2170391/z-image-turbo-fp8-kijai
Zuletzt bearbeitet:
MuhSagtDieKuh
Cadet 2nd Year
- Registriert
- Mai 2023
- Beiträge
- 28
Was für ein Tool benutzt du den für die Generierung? ComfyUI oder was anderes?Krik schrieb:Flux 9B läuft auch, aber die Kombination mit Qwent für die Prompt-Verabreitung und das extra VAE-Model dazu, weil beides nicht im Checkpoint-Modell enthalten ist, ist einfach zu viel.
Die Performance ist unterirdisch, weil er permanent die Daten zwischen VRAM, RAM und Auslagerungsdatei hin- und herschiebt.
Ob Qwen und VAE separat geladen werden oder in einem Checkpoint stecken, ist für die Geschwindigkeit der Ausführung komplett irrelevant.
Der Flow ist immer
- Load Text-Encoder => Encode Prompts => Unload Text-Encoder
- Load Model => Run Generation => Unload Model
- Load VAE => Generate final image => Unload VAE
@All Mal ne Frage ich nutze AMUSE von AMD. Da kann man ja verschiedenste Modelle nutzen. Mit welchen habt Ihr schon Erfahrungen gesammelt?
Eine Schwäche bei den jetzigen Modellen bisher - das ich es nicht fertig bringe das weitere Objekte ins Bild generiert werden. Hat wer einen guten Einstieg fürs Prompting - vielleicht liegt es ja nur an mir - und meinem unzureichenden Wissen...
Ach und noch was - hat wer von euch schon sein eigenes Modell trainiert?
Eine Schwäche bei den jetzigen Modellen bisher - das ich es nicht fertig bringe das weitere Objekte ins Bild generiert werden. Hat wer einen guten Einstieg fürs Prompting - vielleicht liegt es ja nur an mir - und meinem unzureichenden Wissen...
Ach und noch was - hat wer von euch schon sein eigenes Modell trainiert?
MechanimaL schrieb:Du bist unter Linux und benutzt einen aktuellen Build von comfy für linux, korrekt?
ComfyUI in Pinokio unter CachyOS (Linux)MuhSagtDieKuh schrieb:Was für ein Tool benutzt du den für die Generierung? ComfyUI oder was anderes?
Jepp und das macht gute Bilder. Und es ist schnell genug, dass ich direkt mit einem größeren Anfangsbild anfangen kann. Ich bräuchte jetzt "nur" noch einen 2x Upscaler, aber das scheint es nicht direkt zu geben.MechanimaL schrieb:Hast du Z-Image Turbo schon probiert?
Das hier hat nur 53 Sekunden gebraucht mit 6 Steps. In dieser Auflösung. Nice! 🤓
- Registriert
- Nov. 2005
- Beiträge
- 1.150
https://freeimage.host/i/q3pgvxRKrik schrieb:Jepp und das macht gute Bilder. Und es ist schnell genug, dass ich direkt mit einem größeren Anfangsbild anfangen kann. Ich bräuchte jetzt "nur" noch einen 2x Upscaler, aber das scheint es nicht direkt zu geben.
mit SeedVR2 7B FP8 Mixed
Wenn Dir das gefällt, ein angepasster Workflow ist im Anhang. Hat mit diesen Setttings bei mir für den 2x upscale deines Bildes 12,6GB VRAM und 24 SYS RAM gebraucht, also auch im Rahmen. Template sollte auch in comfyui sein. Wer viel VRAM hat, kann auch die bf16 Variante probieren bzw. block swap deaktivieren usw.
Settings kann man noch tweaken für höhere Auflösungen, bessere Geschwindigkeit usw. z.B. bei Block Swap Anpassungen machen oder Attention (je nachdem was unterstützt ist) sowie Compile Settings.
Dokumentation z.B. hier unter usage.
Anhänge
Irgendwas geht da schief.MechanimaL schrieb:ein angepasster Workflow ist im Anhang
Aus das
Keine Ahnung, was hier schief läuft. Ich habe keine Einstellungen geändert.
Code:
got prompt
███████╗███████╗███████╗██████╗ ██╗ ██╗██████╗ ██████╗ ███████╗
██╔════╝██╔════╝██╔════╝██╔══██╗██║ ██║██╔══██╗ ╚════██╗ ██╔════╝
███████╗█████╗ █████╗ ██║ ██║██║ ██║██████╔╝ █████╔╝ ███████╗
╚════██║██╔══╝ ██╔══╝ ██║ ██║╚██╗ ██╔╝██╔══██╗ ██╔═══╝ ╚════██║
███████║███████╗███████╗██████╔╝ ╚████╔╝ ██║ ██║ ███████╗ ██╗ ███████║
╚══════╝╚══════╝╚══════╝╚═════╝ ╚═══╝ ╚═╝ ╚═╝ ╚══════╝ ╚═╝ ╚══════╝
v2.5.24 © ByteDance Seed · NumZ · AInVFX
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
[23:32:41.018] 🏃 Creating new runner: DiT=seedvr2_ema_7b_fp8_e4m3fn_mixed_block35_fp16.safetensors, VAE=ema_vae_fp16.safetensors
[23:32:41.032] 🚀 Creating DiT model structure on meta device
[23:32:41.111] 🎨 Creating VAE model structure on meta device
[23:32:41.435]
[23:32:41.435] 🎬 Starting upscaling generation...
[23:32:41.435] 🎬 Input: 1 frame, 1920x1088px → Padded: 3616x2048px → Output: 3614x2048px (shortest edge: 2048px)
[23:32:41.435] 🎬 Batch size: 1, Seed: 181478889, Channels: RGB
[23:32:41.435]
[23:32:41.435] ━━━━━━━━ Phase 1: VAE encoding ━━━━━━━━
[23:32:41.435] 🎨 Materializing VAE weights to CPU (offload device): /home/krik/pinokio/api/comfy.git/app/models/SEEDVR2/ema_vae_fp16.safetensors
[23:32:41.625] 🎨 Encoding batch 1/1
[23:32:41.631] 📹 Sequence of 1 frames
[23:32:41.654] 🎨 Using VAE tiled encoding (Tile: (1024, 1024), Overlap: (128, 128))
[23:32:48.459]
[23:32:48.459] ━━━━━━━━ Phase 2: DiT upscaling ━━━━━━━━
[23:32:48.460] 🚀 Materializing DiT weights to CPU (offload device): /home/krik/pinokio/api/comfy.git/app/models/SEEDVR2/seedvr2_ema_7b_fp8_e4m3fn_mixed_block35_fp16.safetensors
[23:32:49.251] 🔀 BlockSwap: 16/36 transformer blocks offloaded to CPU
[23:32:49.843] 🎬 Upscaling batch 1/1
EulerSampler: 100%|█████████████████████████████████████████████████████████████EulerSampler: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:11<00:00, 11.89s/it]
[23:33:02.094]
[23:33:02.094] ━━━━━━━━ Phase 3: VAE decoding ━━━━━━━━
[23:33:02.094] 🔧 Pre-allocating output tensor: 1 frames, 3614x2048px, RGB (0.04GB)
[23:33:02.118] 🎨 Decoding batch 1/1
[23:33:02.118] 🎨 Using VAE tiled decoding (Tile: (1024, 1024), Overlap: (128, 128))
[23:33:17.326]
[23:33:17.326] ━━━━━━━━ Phase 4: Post-processing ━━━━━━━━
[23:33:17.326] 📹 Post-processing batch 1/1
[23:33:17.388] 📹 Applying LAB perceptual color transfer
[23:33:17.480] 🎬 Output assembled: 1 frames, Resolution: 3614x2048px, Channels: RGB
[23:33:17.481]
[23:33:17.486] ✅ Upscaling completed successfully!
[23:33:17.888] ⚡ Average FPS: 0.03 frames/sec
[23:33:17.888]
[23:33:17.888] ────────────────────────
[23:33:17.889] 💬 Questions? Updates? Watch, star & sponsor if you can!
[23:33:17.890] 🎬 https://www.youtube.com/@AInVFX
[23:33:17.890] ⭐💝 https://github.com/numz/ComfyUI-SeedVR2_VideoUpscaler
Prompt executed in 37.84 seconds
- Registriert
- Nov. 2005
- Beiträge
- 1.150
Hey, ich tippe es geht irgendwas mit dem tiling Prozess bzw. beim Zusammensetzen am Ende schief. Du kannst natürlich mal versuchen tiled encoding/decoding zu deaktivieren, um dieses als Fehler festzunageln oder auszuschließen (dafür evtl. höhere BlockSwap und kleinere Zielauflösung, damits läuft).
Bei der letzten Node mal uniform batch size auf true setzen, könnte auch helfen.
"enable_debug" auf true sollte genauere Logs ausgeben.
(Ansonsten schauen, dass alles aktuell ist bzgl. ROCm und Comfy, aber hast Du ja wsl schon.)
Bei der letzten Node mal uniform batch size auf true setzen, könnte auch helfen.
"enable_debug" auf true sollte genauere Logs ausgeben.
(Ansonsten schauen, dass alles aktuell ist bzgl. ROCm und Comfy, aber hast Du ja wsl schon.)
Zuletzt bearbeitet:
Meta.Morph
Lieutenant
- Registriert
- März 2022
- Beiträge
- 646
@Krik
Vielleicht bringt SwarmUI Abhilfe.
https://github.com/mcmonkeyprojects/SwarmUI
Setzt auf ComfyUI. Über die UI hat man zugriff auf diverse Workflows.
Vielleicht bringt SwarmUI Abhilfe.
https://github.com/mcmonkeyprojects/SwarmUI
Setzt auf ComfyUI. Über die UI hat man zugriff auf diverse Workflows.
- Registriert
- Nov. 2005
- Beiträge
- 1.150
https://github.com/numz/ComfyUI-SeedVR2_VideoUpscaler/issues/514
Das sieht aus, wie Dein Fehler @Krik also probier mal color correction zu deaktivieren oder eine andere Variante als "lab" auszuwählen.
Das sieht aus, wie Dein Fehler @Krik also probier mal color correction zu deaktivieren oder eine andere Variante als "lab" auszuwählen.
Keuleman
Lt. Junior Grade
- Registriert
- Aug. 2014
- Beiträge
- 321
Heute mal den schnellsten Rechner am Start, den die Sammlung hergibt (i9-13900T, 128 GB RAM und RTX 4070 TI Super). LTX-2 in der FP8 destilled Variante. 19b Parameter. Durch ein anderes Modell habe ich vermutlich nur noch minimal bessere Qualität, gell. Schon schick, mehr Parameter werden genial! Hat mal jemand ein anderes Gemma getestet und kann mir zu einem für die RTX 4070 TI raten? Grad die 12b fp8 Version laufen. Hätte noch genug RAM für grössere tatsächlich aber bringt das was?
Meta.Morph
Lieutenant
- Registriert
- März 2022
- Beiträge
- 646
@Keuleman
Ich hab eine normale 4070. Ich kann LTX 2 FP8 über Wan2GP laufen lassen. Das Modell nutzt "gemma-3-12b-it-qat-q4_0-unquantized".
Bin allerdings so semi begeistert von LTX2. Keine Ahnung woran es liegt aber meinen Erwartungen, wenn es um Kontrolle und Konsistenz geht, erfüllt es nicht. Du kannst mir ja mal ein Prompt schicken...
Kannst mir dann sagen, ob dir das genügen würde.
Das du größere Modelle laufen lassen kannst? Ist doch eine starke Tatsache.
Warum? Wie viel soll die Karte kosten? Geschenkt? Klar warum nicht 😁
Ich hab eine normale 4070. Ich kann LTX 2 FP8 über Wan2GP laufen lassen. Das Modell nutzt "gemma-3-12b-it-qat-q4_0-unquantized".
Bin allerdings so semi begeistert von LTX2. Keine Ahnung woran es liegt aber meinen Erwartungen, wenn es um Kontrolle und Konsistenz geht, erfüllt es nicht. Du kannst mir ja mal ein Prompt schicken...
Kannst mir dann sagen, ob dir das genügen würde.
Keuleman schrieb:Hätte noch genug RAM für grössere tatsächlich aber bringt das was?
Das du größere Modelle laufen lassen kannst? Ist doch eine starke Tatsache.
Keuleman schrieb:kann mir zu einem für die RTX 4070 TI raten
Warum? Wie viel soll die Karte kosten? Geschenkt? Klar warum nicht 😁
@MechanimaL
Das hat den Fehler beseitigt. 👍
Es neigt trotzdem gelegentlich zu merkwürdigen Fehlern. Z. B. meckert es ab und zu, dass der VRAM voll wäre, dabei stimmt das gar nicht. Egal, es läuft die meiste Zeit und bringt ein gutes Ergebnis.
Das hat den Fehler beseitigt. 👍
Es neigt trotzdem gelegentlich zu merkwürdigen Fehlern. Z. B. meckert es ab und zu, dass der VRAM voll wäre, dabei stimmt das gar nicht. Egal, es läuft die meiste Zeit und bringt ein gutes Ergebnis.
- Registriert
- Nov. 2005
- Beiträge
- 1.150
Ok cool
Wegen VRAM/RAM, da kannst Du durch Probieren wahrscheinlich am meisten erreichen, also das Setting, was maximale Geschwindigkeit bei ausreichender Stabilität bringt, je nach Auflösung. Wenn besagte Fehler entlang der Überlappungsbereiche der Kacheln (tiles) verlaufen, dann ggf. mal diesen Wert (overlap) anheben. Mit "tile debug" kannst Du die Bereiche genau anzeigen lassen (für encode und decode) und sehen, ob die Fehler dort liegen.
noch zu LTX2: Prompts machen einen Qualitätsunterschied, dafür gibts GPTs oder lokal einbindbare Nodes die helfen, damit man nicht selbst alles im Detail ausführen muss. Ansonsten LORAs, höhere Auflösung (sofern möglich), custom workflows. FP8 Modell ist aber wsl das höchste der Gefühle für die Normalsterblichen (bis 32GB VRAM). Zumindest mit Template Workflow, andere würden vll irgendwie laufen, aber müssten dann sehr langsam sein. Also lieber mal die oben genannten Ideen zur Qualitätssteigerung mit fp8/gguf modellen probieren:
Ergänzung ()
Meine mich zu erinnern, dass das keinen nennenswerten Unterschied macht.Keuleman schrieb:Hat mal jemand ein anderes Gemma getestet und kann mir zu einem für die RTX 4070 TI raten?
noch zu LTX2: Prompts machen einen Qualitätsunterschied, dafür gibts GPTs oder lokal einbindbare Nodes die helfen, damit man nicht selbst alles im Detail ausführen muss. Ansonsten LORAs, höhere Auflösung (sofern möglich), custom workflows. FP8 Modell ist aber wsl das höchste der Gefühle für die Normalsterblichen (bis 32GB VRAM). Zumindest mit Template Workflow, andere würden vll irgendwie laufen, aber müssten dann sehr langsam sein. Also lieber mal die oben genannten Ideen zur Qualitätssteigerung mit fp8/gguf modellen probieren:
- Bessere Prompts, -LORAs/-Lokrs, -Auflösung höher (sofern möglich- hier ggf. wieder custom workflows nötig)
- custom workflows auf civitai oder in der nächsten Quelle
- laufend weitere tweaks im #ltxressources discord channel von banodoco

Zuletzt bearbeitet: