Leserartikel Stable Diffusion lokal auf AMD Grafikkarten

SpartanerTom · 2. Dezember 2023

@Rickmer Ja ist vermutlich nicht der beste Prompt, war aber das erste was mir so in den Sinn kam.
Wollte nur mal testen was da neues bei rumkam mit dem Model. Ergebnisorientiert sicher keine gute Wahl, aber eine nette Spielerei.

SpartanerTom · 6. März 2024

Update 06.03.2024: Test-Roundup SDXL

Mittlerweile ist etwas Zeit vergangen, Zeit genug um einen neuen Blick auf die Situation zu werfen. Auch wenn mit Stable Cascade schon der vielversprechende Nachfolger in den Startlöchern steht habe ich im aktuellen Durchlauf drei Frameworks für SDXL getestet, da die Stable Cascade Unterstützung noch nicht weitflächig verfügbar ist.
Da ich mich zudem weitestgehend im privaten Umfeld von Windows verabschiedet habe hier zunächst nur Tests, welche nativ auf meiner Hardware in Linux laufen. Sollte es besonderes Interesse an Windows spezifischen Tests (z.B. DirectML, ONNX, Windows ROCm/HIP) geben müsste ich die ggf. gesondert noch nachholen.

Test-Roundup

Das ganze findet mittlerweile auf meinem neuen Daily Driver Linux System statt:

Zugrunde liegen dem ganzen separat geführte Python 3.11.5 Installationen mit folgender pytorch-Version:

Name: torch
Version: 2.2.1+rocm5.7
Summary: Tensors and Dynamic neural networks in Python with strong GPU acceleration
Home-page: https://pytorch.org/
Author: PyTorch Team
Author-email: packages@pytorch.org
License: BSD-3

Als Frontend für Stable Diffusion kommen folgende Kandidaten zur Verwendung:

ComfyUI | Revision 2049 (>Github)
Automatic1111 | Version 1.8 (>Github)
Automatic1111 | mit Forge Backend f0.0.17v1.8.0rc-latest-273 (>Github)
Fooocus | Version 2.1.857 (>Github)

Fooocus wurde hierbei der Vollständigkeit halber her getestet. Hier ist wird vor allem ein Augenmerk auf einfache Verwendbarkeit gelegt, während Automatic1111 und vor allem ComfyUI auf Vielseitigkeit und Geschwindigkeit setzen.

Prompt Parameter:

positive prompt

Code:

beautiful spring landscape, blooming flowers, sunny weather

negative prompt

Code:

text, watermark

weitere Parameter

Code:

1024x1024 Pixel
DPM++  2M Karras
30 steps
CFG 7
random seed
no refiner
no live preview
batchsize 1
batchcount 5

Verwendeter Checkpoint
SDXL Artium v1.0 by FrenzyX (>CivitAI)

Generations-Benchmarks auf einen Blick

Das Teilnehmerfeld zeigt sich insgesamt relativ dicht beieinander. Foocus landet mit etwas über 0.8 Iterationen pro Sekunde auf dem letzten Platz was in etwa 70% der Geschwindigkeit von ComfyUI mit gesetztem "dont-upcast-attention" flag entspricht. Obwohl das Forge Backend grundsätzlich leichte Verbesserungen gegenüber den Main-Branch verspricht bewahrheitet sich dies in meinem kleinen Testparcours zunächst nicht. 0.97 it/s für das Forge-Backend stehen 1.11 it/s für den Main-Branch gegenüber. Allerdings ist der gewählte Anwendungfall auch nicht optimal, da insbesondere Karten mit kleinerer VRAM Kapazität von den Verbesserungen im Speichermanagment profitieren sollen.

Stichwort Speicherverwaltung

Da ich in der Vergangenheit häufiger Out-Of-Memory-Probleme durch momentane VRAM-Spikes hatte, habe ich mir dieses Mal auch den Verlauf der VRAM-Auslastung angesehen:

Hier zeigt sich für ComfyUI nur ein kleiner Spike am Ende des ersten VAE-Encodings, während Automatic1111 im main branch bei jedem VAE-Encoding einen sehr starken sprunghaften Anstieg des VRAM-Verbrauchs aufweist. Dieser Umstand kann insbesondere nahe des VRAM Limits eine Hürde darstellen. Interessanterweise weißt A1111 mit Forge ähnlich wie ComfyUI nur einen kleinen Spike beim ersten VAE Encoding auf, aber auch ingesamt liegt hier der Gesamtverbrauch etwas höher als bei den anderen Lösungen. Woran dies liegt ist mir zur Zeit nicht unmittelbar klar. Am kompaktesten und unauffälligsten ist der VRAM Verlauf bei Fooocus, womit dieses Paket seinem Ruf als Gutes All-In-One Paket zum Einstieg und Rumprobieren durchaus gerecht wird.

Fazit

Zusammenfassend möchte ich mich zu keiner eindeutigen Empfehlung hinreißen lassen. Alle getesteten Softwarelösungen sind (in meinem Anwendungsfall) gut nutzbar und findet sicher seine Abnehmer. ComfyUI bringt als mächtiges Node-basiertes WebUI eine höhere Einstiegshürde mit, liefert dafür aber maximale Flexibilität und häufig zuerst cutting edge Features wie z.B. Stable Cascade. Autmatic1111 profitiert dafür von seiner einerseits leichter zugängigen Weboberfläche und vielen A1111 spezifischen Online-Tutorials.

Besonders herausgehoben sei insgesondere für Einsteiger an dieser Stelle Fooocus, wenn es zunächst einfach mal nur um ein Ausprobieren gehen soll ist diese Lösung vermutlich die beste Wahl. Zudem hier auch ein integriertes GPT-2 basiertes LLM zur Hilfe steht, welches den eigenen Text-Prompt noch etwas zu optimieren versucht.

Ergänzung (6. März 2024)

Im Folgenden noch die einzelnen Bilder zu den getesteten WebUIs:

Rickmer · 6. März 2024

Danke für's Update

SpartanerTom schrieb:
Auch wenn mit Stable Cascade schon der vielversprechende Nachfolger in den Startlöchern steht

Persönlich muss ich sagen, dass ich viel mehr auf Stable Diffusion 3 gespannt bin, welches ja auch in der Zwischenzeit angekündigt wurde.

Stable Cascade hat in ein paar Versuchen von mir sehr schnell gezeigt, dass es absolut keine Fähigkeit, relationale Prompts auszuführen (also sowas wie 'cat on the table, dog under the table').

Damit ist SC mMn schlicht zu 'dumm'.

Aber vielleicht wird das ja noch im finalen Release gefixt.

SpartanerTom schrieb:
Automatic1111 | mit Forge Backend f0.0.17v1.8.0rc-latest-273 (>Github)

Ich bin gespannt

SpartanerTom schrieb:
SDXL Artium v1.0 by FrenzyX (>CivitAI)

Nice. Einer meiner Favouriten.

SpartanerTom schrieb:
Obwohl das Forge Backend grundsätzlich leichte Verbesserungen gegenüber den Main-Branch verspricht bewahrheitet sich dies in meinem kleinen Testparcours zunächst nicht. 0.97 it/s für das Forge-Backend stehen 1.11 it/s für den Main-Branch gegenüber. Allerdings ist der gewählte Anwendungfall auch nicht optimal, da insbesondere Karten mit kleinerer VRAM Kapazität von den Verbesserungen im Speichermanagment profitieren sollen.

Etwas merkwürdig. Forge sollte eigentlich in keiner Situation wirklich langsamer sein, nur in manchen Situationen signifikant schneller.

Es sind nicht nur Karten mit kleinem vram, die signifikant profitieren, sondern auch mit der RTX 4090 habe ich festgestellt, dass ich deutlich höhere Auflösungen erreichen kann, ohne das vom VRAM in den RAM ausgelagert wird - und damit höhere Auflösungen ohne Verlangsamung genutzt werden können.
Außerdem ist die maximal erreichbare Auflösung ohne Tricks (Tiled VAE, Ultimate SD Upscale Script, etc) signifikant höher. Mit A1111 ist 3440x1440 nativ ziemlich das Limit, mit Forge geht da noch viel mehr und auch schneller.

Falls du nichts der Art bemerkt hast, liegt das vielleicht an ROCm?
Bzw. andersrum gedacht daran, dass die Optimierungen in Forge für nvidia GPU Architekturen gemacht sind?

SpartanerTom · 6. März 2024

@Rickmer
Ich will mir die Forge-Thematik auf jeden Fall noch einmal genauer ansehen. Insbesondere wenn man die VRAM-Auslastung stärker mit einbezieht. Da ist im vorliegenden Fall ja eher Langeweile angesagt. Das habe ich allerdings in diesem Run nicht mehr geschafft, da saubere Vorbereitungen der Dependencies und Testen für die vorliegenden Fälle schon fast vier Stunden gedauert hat.

Es kann aber natürlich auch generell eine Limitierung durch ROCm vorliegen, welches nicht explizit unterstützt wird. Ich habe hier schlicht per git checkout zwischen den branches main und lllyasviel/main gewechselt. Vielleicht bleiben hier irgendwo nicht berücksichtigte Altlasten zurück, obwohl es laut Dokumentation eigentlich funktionieren sollte.

Eventuell sollte man das Ganze mal mit einer ganz sauberen Installation von A1111 mit Forge testen.

Rickmer · 7. März 2024

SpartanerTom schrieb:
Eventuell sollte man das Ganze mal mit einer ganz sauberen Installation von A1111 mit Forge testen.

Ja, ich war eher erstaunt, bei dir in Forge 12GB VRAM zu sehen während sich A1111 mit 11GB (plus Spikes) begnügt hatte.

Das passt so ein bisschen überhaupt nicht, was ich von Forge kenne - wobei ich zugegeben bei den 'kleinen' Auflösungen wie 1024x1024 eh nicht so wirklich drauf achte.

Für mich war ein 'oha' Effekt als ich festgestellt habe, dass ich bei 832x1216 mit Upscale in Forge problemlos 2x Highres Fix ohne Verlangsamung machen konnte während A1111 irgendwo oberhalb einem 1.6x Upscale anfängt von VRAM in RAM auszulagern mit entsprechender Auswirkung auf die Performance.

SpartanerTom · 8. März 2024

@Rickmer
Kurzes Zwischenupdate für das ich zwischendrin mal Zeit gefunden habe (werde den Artikel im Nachgang noch entsprechend anpassen). Ich habe ein paar Dinge getestet und ein paar Dinge neu gelernt

Das größte Problem im vorliegenden Fall ist dass es xformers nicht für AMD/ROCm gibt. Einige Optimierungen gibt es deshalb nicht von Haus aus.

Die Einstellungen zum Attention Upcast beziehen sich (soweit ich das sehen kann) vor allem auf die Verwendung von FP32 in einigen attention layern, welches Performance kostet und ein ganzes Stück mehr VRAM benötigt. Diese Optimierung/Einstellung kann man manuell hinzuschalten, heißen aber bei jedem WebUI anders, weshalb ich das zunächst nicht realisiert habe:

A1111: --upcast-sampling
Forge/Foocus: --disable-attention-upcast
ComfyUI: --dont-upcast-attention

Diese Settings funktionieren wohl nicht mit SD2.* aber ich verwende zur Zeit wenn dann eh SD1.5 oder SDXL.

Mit den entsprechenden Settings liegt Forge für SDXL 1024x1024 bei etwa 7.5GB VRAM Bedarf (wenn man den Hintergrund abzieht). Automatic1111 liegt einige 100MB höher, allerdings ist der Unterschied nicht so riesig. Was für Forge noch ein großer Vorteil ist, ist die integrierte "Never OOM" Extension mit der man TiledVAE einfach erzwingen kann. Denn ich habe bemerkt, dass im VAEDecode Step ca 3GB RAM dauerhaft reserviert werden, die nicht so ohne weiteres wieder freigegeben werden. Mit TiledVAE passiert das nicht und es treten auch keine Spikes auf.

forge_dontupcast+upcast_tiled+notiled_comments.png

In der Geschwindigkeit überholt Forge ohne FP32 attention auch den main branch und liegt etwa gleichauf mit ComfyUI.

MechanimaL · 30. März 2024

Du hattest teilweise diesen Fork benutzt von A1111 für den Test unter Windows/ DirectML, korrekt?
https://github.com/lshqqytiger/stable-diffusion-webui-directml

Für mich stellt sich noch die Frage, was unter Windows aktuell die schnellste Lösung ist für A1111. Es gibt auch noch Zluda Support, das dürfte schneller sein als DirectML, oder? Ist diese "olive-optimierung" damit kombinierbar?

SpartanerTom · 30. März 2024

@MechanimaL
Ich bin aus dem Windows Game ehrlich gesagt (im Moment) etwas raus da auf meiner Mühle seit Dezember Linux rennt. Für den DirectML Test hatte ich wie du richtig gesagt hattest den oben genannten branch verwendet.

Olive optimiert die zugrundeliegenden Diffuser und Transformer Modelle und übersetzt diese in ein ONNX Format, welches nativ auf AMD unter Windows laufen kann. Das ist (in meinem Verständnis) konzeptionell vergleichbar mit der "Übersetzung" der Modelle in ein Vulkan-Format wie es SHARK tut. Dabei ist ONNX aber in meiner kurzen Erfahrung deutlich flexibler, weil die Übersetzung nicht für jedes Rendertarget neu erfolgen muss.

Ich würde vermuten, dass man mit ZLUDA die nativen Modelle laufen lassen kann um die beste Performance zu haben, wenn ich das Funktionsprinzip richtig verstanden habe. Nach meinem Verständnis würde ich hier keine übermäßigen Gewinne durch einen ONNX Zwischenschritt erwarten.

Falls ich die Zeit dazu finde kann ich eventuell mal wieder in mein altes Windows booten und die verschiedenen Dinge testen. Allerdings ist dies ehrlich gesagt im Moment eher weiter unten auf meiner Liste.

CPU	Ryzen 7 5800X3D (Curve Optimizer -30)
RAM	Crucial 32GB DDR4 3600MHz CL16
GPU	XFX RX 6800 16GB (NAVI 21 XL, Sienna Cichlid), Powertarget 200W
Storage	Crucial P2 1TB NVMe PCIe 3.0 x4 (für Modelle und Python System)

Suche

Leserartikel Stable Diffusion lokal auf AMD Grafikkarten

Umfang und Kenntnisse:

Die Hardware:

Die Software:

Der Prompt:

Der Performance-Vergleich:

Exkurs: Windows Subsystem for Linux 2

Das Fazit:

Update 06.03.2024: Test-Roundup SDXL

SpartanerTom

Captain

SpartanerTom

Captain

Update 06.03.2024: Test-Roundup SDXL

Test-Roundup

Prompt Parameter:

Generations-Benchmarks auf einen Blick

Stichwort Speicherverwaltung

Fazit

Rickmer

Silent-Fanatiker Pro

SpartanerTom

Captain

Rickmer

Silent-Fanatiker Pro

SpartanerTom

Captain

MechanimaL

Lt. Commander

SpartanerTom

Captain

Ähnliche Themen

Leserartikel Stable Diffusion lokal auf AMD Grafikkarten

Umfang und Kenntnisse:​

Die Hardware:​

Die Software:​

Der Prompt:​

Der Performance-Vergleich:​

Exkurs: Windows Subsystem for Linux 2​

Das Fazit:​

Update 06.03.2024: Test-Roundup SDXL​

Captain

Captain

Update 06.03.2024: Test-Roundup SDXL​

Test-Roundup​

Prompt Parameter:​

Generations-Benchmarks auf einen Blick​

Stichwort Speicherverwaltung​

Fazit​

Silent-Fanatiker Pro

Captain

Silent-Fanatiker Pro

Captain

Lt. Commander

Captain

Ähnliche Themen

Umfang und Kenntnisse:

Die Hardware:

Die Software:

Der Prompt:

Der Performance-Vergleich:

Exkurs: Windows Subsystem for Linux 2

Das Fazit:

Update 06.03.2024: Test-Roundup SDXL

Update 06.03.2024: Test-Roundup SDXL

Test-Roundup

Prompt Parameter:

Generations-Benchmarks auf einen Blick

Stichwort Speicherverwaltung

Fazit