Leserartikel Stable Diffusion lokal auf AMD Grafikkarten

SpartanerTom · 30. Oktober 2023

Ergänzungen zum Hauptartikel

Hier zur Einzelbetrachtung die erzeugten Bilder nochmal zur größeren Ansicht einzeln. Ich habe versucht die Dateinamen möglichst konsistent zu gestalten (OS_Software_Backend_Seed). Ansonsten stehen die meisten nötigen Informationen auch in den PNG Metadaten (inspizierbar z.B. mit TweakPNG).

Win10_ComfyUI_DirectML_Seed- 40718042950803.png

Ubuntu22.04_ComfyUI_ROCm_Seed-1114251351430752.png

Ubuntu22.04_ComfyUI_ROCm_Seed-991131598094633.png

Ubuntu22.04_ComfyUI_ROCm_Seed-831525894267235.png

Ubuntu22.04_ComfyUI_ROCm_Seed-643423921727507.png

Ubuntu22.04_ComfyUI_ROCm_Seed-596651281511039.png

Ubuntu22.04_A1111_ROCm_no-half_Seed-2584414865.png

Ubuntu22.04_A1111_ROCm_no-half_Seed-2584414864.png

Ubuntu22.04_A1111_ROCm_no-half_Seed-2584414863.png

Ubuntu22.04_A1111_ROCm_no-half_Seed-2584414862.png

Ubuntu22.04_A1111_ROCm_no-half_Seed-2584414861.png

Ubuntu22.04_A1111_ROCm_upcast_Seed-2587853208.png

Ubuntu22.04_A1111_ROCm_upcast_Seed-2587853207.png

Ubuntu22.04_A1111_ROCm_upcast_Seed-2587853206.png

Ubuntu22.04_A1111_ROCm_upcast_Seed-2587853205.png

Ubuntu22.04_A1111_ROCm_upcast_Seed-2587853204.png

Ubuntu22.04_ComfyUI_ROCm-upcast_Seed- 1019265716925626.png

Ubuntu22.04_ComfyUI_ROCm-upcast_Seed-349426710112416.png

Ubuntu22.04_ComfyUI_ROCm-upcast_Seed-474243887454317.png

Ubuntu22.04_ComfyUI_ROCm-upcast_Seed-535222927664028.png

Ubuntu22.04_ComfyUI_ROCm-upcast_Seed-746134033409835.png

Bei den Bildern aus A1111 + Olive sind leider keine Metadaten eingebettet.

Hier wird immer die aktuellste Benchmarkliste unter Berücksichtigung aller Folgeposts stehen. Für die Einzelheiten bitte in den Thread schauen:

Balkenfarbe: rot = ROCm, orange = Vulkan, grün = Olive, schwarz = DirectML
Textfarbe: rot = Ubuntu 22.04LTS, blau = Windows 10

CoMo · 30. Oktober 2023

Der erste Github-Link ist kaputt: http://lshqqytiger/

JaeMcBean · 30. Oktober 2023

Vielen Dank für den Artikel! Habe nahezu exakt die gleiche Hardware und würde das auch mal ausprobieren wollen. War bislang nur zu faul, aber SHARK scheint ja recht simpel von der Installation zu sein.

SirKhan · 30. Oktober 2023

Oh, danke für die Einordnung der Leistung. Ich hab mich immer schon gefragt, ob es sich lohnt, das ML mal auszuprobieren (wegen Windows). Aber dann lasse ich es bleiben.

Ich habe die Szene oben mal bei mir ausprobiert, mit Automatic1111, ROCm und den Einstellungen oben. Mit Linux Mint + Docker eben.
Ich komme mit meiner 6900XT auf 9.5 it/s.
Da werde ich bei Linux bleiben, bis AMD das vollständig auf Windows umsetzt (sie sind ja dabei und Teile laufen schon, aber noch nicht genug). Bis auf den Dualboot ist es ok.

Rickmer · 30. Oktober 2023

Schöner Test

Warum steht in der Tabelle 0,8 it/s für A1111 wenn im Screenshot 1,25 zu sehen sind? Kleines Maleur beim Abschreiben?

Meine Installation von A1111 ist alt genug, dass ich den SD1.5 nur als .ckpt statt als .safetensors habe, aber ich habe die oben erwähnten Einstellungen mal durchlaufen lassen:

Mit RTX 4090 und xformers läuft das ganze mit ca. 20 it/s durch.

Der Unterschied zwischen 'in einer halben Minute fertig' und 'dauert 10 Minuten' macht da schon einen ziemlichen Unterschied in der 'user experience'...

SpartanerTom schrieb:
Zur Performance von SHARK gibt es noch einen Punkt zu erwähnen. Während die anderen getesteten Optionen lediglich das lokale Modell laden müssen (was je nach Storage Geschwindigkeit einige Sekunden dauert), müssen für SHARK zunächst erst die Vulkan Shader compiliert werden. Dies dauert mehrere Minuten (für das hier getestete v1-5 Modell etwa 2min30s). Des Weiteren muss dieser Schritt für jede Kombination aus Pixelgröße + Modell + VAE + LoRA erneut durchgeführt werden, was bei häufigem rumprobieren schnell die benötigte Zeit vervielfachen kann. Verwendet man hingegen eine bereits bekannte Kombination, startet die Generation zügig (sofern der Cache nicht manuell geleert wurde). Weiterhin ist zu SHARK der sich durch die Shader zusätzliche ergebende lokale Speicherplatzbedarf zu erwähnen. Ich hatte beim Rumspielen mit verschiedenen Modellen schnell 150GB an .vmfb und .mlir files angehäuft.

Das würde SHARK für mich disqualifizieren... ich probiere teils mehrere Checkpoints durch bis ich mir sicher bin, welchen ich für ein spezifisches Bild nutzen will...

SpartanerTom · 30. Oktober 2023

Rickmer schrieb:
Warum steht in der Tabelle 0,8 it/s für A1111 wenn im Screenshot 1,25 zu sehen sind? Kleines Maleur beim Abschreiben?

Das ist ein quirk von dem Python-Skript. Das sind 1.25 Sekunden pro Iteration, also 1/1.25 it/s. Da bin ich auch erst drauf reingefallen, dass sich bei Werten unter eins der Bruch umkehrt.

Ja zum vielfachen Rumprobieren ist SHARK tatsächlich in meiner Wahrnehmung nicht das Optimum. Kann allerdings gut sein, dass es da auch andere Einstellungen gibt die das besser machen. Es gibt ja auch theoretisch eine ROCm Integration unter Windows, aber da muss Upstream erst noch die Unterstützung von AMD für PyTorch nachkommen.

SirKhan · 30. Oktober 2023

Ist das Problem nicht, dass pytorch auf MIOpen setzt, aber der neue ROCm-Windows-Treiber nur HIP mitbringt?

Btw. ist da oben schon "Microsoft Olive" (was immer das ist) mit drinnen? Scheint laut dem hier ja massiv (Faktor 10) die Performance zu verbessern:
https://community.amd.com/t5/ai/upd...ed-automatic1111-stable-diffusion/ba-p/630252

SpartanerTom · 30. Oktober 2023

SirKhan schrieb:
Btw. ist da oben schon "Microsoft Olive" (was immer das ist) mit drinnen? Scheint laut dem hier ja massiv (Faktor 10) die Performance zu verbessern:
https://community.amd.com/t5/ai/upd...ed-automatic1111-stable-diffusion/ba-p/630252

Da bin ich ertappt. Das ist ein guter Punkt, den ich stillheimlich vorhin noch als Kommentar hinzugefügt hab. In dem getesteten DirectML fork ist die Olive Unterstützung noch nicht drin und ich habe auch keine separaten Tweaks vorgenommen.

Mein Edit im Artikel:

Der Automatic1111 soll mittlerweile auch mit Optimierungen für Microsoft Olive gut auf AMD Karten laufen - dies habe ich aber nicht getestet.

Mittlerweile hab ich etwas mehr Erfahrung und könnte das eventuell mal Ausprobieren. Für den Artikel wollte ich es aber zunächst bei einer echten Out-Of-The-Box Erfahrung eines Laien halten.

SpartanerTom · 30. Oktober 2023

@SirKhan Update zu Olive:

Habe die Olive Implementierung nach der Anleitung aus dem AMD Blog nach einiger Fummelei zum Laufen bekommen. Ich habe es jetzt nur hinbekommen Modelle per Direktimport von Huggingface zu optimieren, meine lokalen Modelle konnte ich nicht aufrufen (kann aber an meiner Unfähigkeit liegen).

Die Modelloptimierung hat etwa sieben Minuten + Downloadzeit von Huggingface beansprucht. Ich habe testweise noch ein anderes SD 1.5 Model optimiert, was auch bei ca. 7min gelandet ist.

Das Ergebnis ist wie folgt:

Die Geschwindigkeit ordnet sich zwischen den beiden SHARK-Ergebnissen ein.

Ein FunFact als Zusatz:

Mein R7 5800X3D schafft bei der CPU Inferenz via SHARK ca. 0.025 it/s, sprich in etwa 1/1800 des getunten GPU Profils.

andi_sco · 30. Oktober 2023

@SpartanerTom könntest du die erzeugten Bilder einzeln hochladen? Oder zumindest mit einem weißen Balken zwischen den Bildern?
Dürfte sich dann einfacher anzuschauen sein

SpartanerTom · 30. Oktober 2023

@andi_sco Kann ich morgen Nachmittag nachreichen. Was macht mehr Sinn, im Eingangspost hochladen oder separater Post mit Verweis?

andi_sco · 30. Oktober 2023

Ich würde die Mods anklingeln, ob sie dir Post#2 geben können. Dann lässt es sich, in meinen Augen, ganz gut auseinander halten.

NameHere · 31. Oktober 2023

Ich hoffe da tut sich noch was bei den AMD GPU. Die 7000er Serie soll da schon einiges stärker sein, aber leider immer noch weit abgeschlagen hinter Nvidia.

Meine 3060 schafft ~ 8 it/s

SirKhan · 1. November 2023

Hm. Also ich hab mir nun auch mal die DirectML-Version angesehen. Zum einen erreicht sie nicht die Geschwindigkeit von meinem Linux. Und dann ist es irgendwie sehr frickelig.

Beim ersten Versuch (noch mit dem installierten PRO-Treiber 23Q3) habe ich gerade mal 0,5 it/s herausholen können. Danach habe ich den neusten Treiber installiert und siehe da: 5,2 it/s. Ist ok, um mal schnell ein wenig herumzuspielen, ohne Linux starten zu müssen.
Es kamen aber Meldungen wie

Code:

Some nodes were not assigned to the preferred execution providers which may or may not have an negative impact on performance. e.g. ORT explicitly assigns shape related ops to CPU to improve perf.

Also dachte ich mir, ich hab das Model ja mit dem alten Treiber optimiert (Olive, ONNX), machste das nochmal. Danach (reoptimized) ist aber die Performance eingebrochen, auf 3,6 it/s :/
Nach ein paar Versuchen habe ich dann Windows neugestartet und nun bin ich wieder bei 0,5 it/s unten

Damit werde ich das Experiment erstmal beenden. ROCm läuft super und ich kann nur hoffen, dass MIOpen und damit PyTorch (ROCm) bald auch auf Windows kommen.

SpartanerTom · 3. November 2023

Ich konnte mit AMD Adrenalin 23.11.1 keine praxisrelevanten Verbesserungen der DirectML performance feststellen. Habe aber natürlich auch nur einen begrenzten Testhorizont mit den hier diskutierten Parametern.

P.S. Ich werde die Bilder über das Wochenende noch einpflegen, leider ist über den (katholischen - bevor jemand sich wundert

) Feiertag zu viel dazwischen gekommen.

andi_sco · 3. November 2023

SpartanerTom schrieb:
Feiertag zu viel dazwischen gekommen

Keine Hektik

SpartanerTom · 9. November 2023

Ein weiterer fröhlicher Test in dieser Runde, diesmal main-branch Automatic1111 Version 1.6.0-2 (nicht mehr der AMD fork), ausgeführt nativ unter Ubuntu mit ROCm 5.7 und pytorch 2.2.0.dev20231109+rocm5.7.

Getestet wurde einmal mit Startparameter --no-half und einmal mit --upcast-sampling:

Bei ComfyUI gibt es den Upcast-Parameter auch:

Was zur Upstream-Attention zu erwähnen ist: Es funktioniert nach meiner Erfahrung nicht mit allen Modellen. SD 1.5 und diverse Derivate sind kein Problem, aber SD 2.1 oder SDXL muss wieder auf den Standard zurückfallen. YMMV

Damit ergibt sich folgendes Gesamtbild:

SpartanerTom · 2. Dezember 2023

Stable Diffusion XL Turbo läuft auch lokal auf meiner 6800.

Rickmer · 2. Dezember 2023

Die Architekturischen Meisterleistungen die SDXL Turbo bei dem Prompt erstellt sind unter aller Kanone^^
Wobei grade beim kurzen Gegentest SDXL kaum besser ist...

prompt schrieb:
tori gate, japanese zen garden in autumn, koi pond, wooden bridge

CPU	Ryzen 7 5800X3D (Curve Optimizer -30)
RAM	Crucial 32GB DDR4 3600MHz CL16
GPU	XFX RX 6800 16GB (NAVI 21 XL, Sienna Cichlid), Powertarget 200W
Storage	Crucial P2 1TB NVMe PCIe 3.0 x4 (für Modelle und Python System)

Leserartikel Stable Diffusion lokal auf AMD Grafikkarten

Umfang und Kenntnisse:​

Die Hardware:​

Die Software:​

Der Prompt:​

Der Performance-Vergleich:​

Exkurs: Windows Subsystem for Linux 2​

Das Fazit:​

Update 06.03.2024: Test-Roundup SDXL​

Commander

Ergänzungen zum Hauptartikel​

Commander

Lt. Junior Grade

Lt. Junior Grade

Fleet Admiral

Commander

Lt. Junior Grade

Commander

Commander

Legends of Tomorrow

Commander

Legends of Tomorrow

Vice Admiral

Lt. Junior Grade

Commander

Legends of Tomorrow

Commander

Commander

Fleet Admiral

Ähnliche Themen

Umfang und Kenntnisse:

Die Hardware:

Die Software:

Der Prompt:

Der Performance-Vergleich:

Exkurs: Windows Subsystem for Linux 2

Das Fazit:

Update 06.03.2024: Test-Roundup SDXL

Ergänzungen zum Hauptartikel