News AMD ROCm 7.0: Instinct-MI350-Support und mehr Leistung im AI-Wettstreit

@Rock Lee
Es ist egal da es mit allen Modelle (FP16, pruned) funktionieren. Auch egal mit welchen Workflows Du arbeitest. ComfyUI ist ComfyUI. Alles Standardkomponenten! Ich habe kein speziellen Nodes im Einsatz. Kein Mods, keine experimentielles Sachen. ComfyUI Stable v0.3.59 und Stability Matrix Stable v2.15.0.

1758141105805.png



Was ich stattdessen gemacht habe, zeige ich dir meine Konfiguration hier:

Die Command Line Arguments für Linux und Windows (Stability Matrix):
--listen 127.0.0.1 --port 8188 --normalvram --reserve-vram 0.9 --preview-method auto --use-pytorch-cross-attention --disable-xformers
Löst ein Problem mit VAE Decode und Out of Memory:
--disable-smart-memory



Die HIP-Argumente fallen weg, da nativ.

AMD ROCm:
Linux nativ -> ComfyUI ROCm über Stability Matrix -> pytorch ROCm 6.4 Nightly : https://pytorch.org/get-started/locally/
Windows nativ -> ComfyUI ROCm über Stability Matrix (https://github.com/LykosAI/StabilityMatrix) -> Die experimentiellen PyTorch ROCm 7.0.0 RC1 und die weiter zugehörigen Komponenten werden automatisch mit installiert.

Die restlichen PyTorch-Komponenten, die von ComfyUI (Stability Matrix) bereitgestellt wurden, nie daran geändert oder ausgetauscht.

Für die Datei main.py in Ordner ComfyUI habe ich die zwei Zeilen manuell eingefügt:
1758143699824.png


Dieses behebt ein Problem für KSampler, die während der Generierungsprozess stecken blieb für ein Bild größer oder kleiner als 1024 x 1024 Pixeln und führte zu starke Ruckeln. Mit beiden Methoden (--disable-smart-memory) konnte ich die Bildern nach beliebigen Auflösung (960x960, 1080x1080, 960x1280 uvm.) ohne Probleme generieren! Keine Ruckler. VAE Decode schnell und locker ausgeführt! Ein fertiges Bild. Selbst bei 960x1600 kam ich sehr gut klar.

Für ein SDXL Bild mit 1024x1024 (20 Steps) konnte ich in ComfyUI ROCm (Windows) fast auf 10 Sekunden runterdrücken bei 2.62 it/s. Und zwar mit VAE Decode!
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: NameHere, Rock Lee, Moerf und eine weitere Person
Gestern kam ein neuer Version für ComfyUI. Es sind auch neuere Versionen von experimentiellen pytorch ROCM 7.0.0 RC1 mit eingeschlossen. Stand: 23 September 2025.

Die Leistung ist erneut gestiegen:

Code:
Requested to load SDXL
loaded completely 14194.54951171875 4897.0483474731445 True
100%|██████████| 20/20 [00:04<00:00,  4.21it/s]
Requested to load AutoencoderKL
loaded completely 10655.75 159.55708122253418 True
Prompt executed in 7.27 seconds

Von 2.62 it/s auf 4.21 it/s ist beachtlich. Das ist +60.7% mehr. Gleiches Workflow samt zwei Workarounds. Mehr nicht.

Flux 1 Dev FP8 habe ich noch nicht getestet. Werde die Werte irgendwann Heute nachliefern.
EDIT: Flux 1 Dev FP8 lief nur im CPU Modus. Das kann man so nicht vergleichen...
EDIT²: Aha! Da hat ComfyUI Developer sich selbst verbockt. Warte nun auf ein Fix. --supports-fp8-compute half nicht da es nur auf CPU lief.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: MechanimaL
Zurück
Oben