[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

Ich habe in einem Youtube Kommentar einen Tipp erhalten, wie man beim Inpainting von Händen und Füßen bessere Resultate erhält:

Die erwünschte Gliedmaße in den negativen Prompt schreiben.
Total unintuitiv, aber der Praxistest hat gezeigt, dass da wirklich bessere Resultate entstehen.

Ich hatte das hier umgesetzt und bin mit dem Ergebnis ziemlich glücklich:
00201-2690748276.png

Bildschirmausschnitt:
1704622452127.png


Prompt insgesamt (im Durchschnitt, je nach Upscale-Schritt habe ich den etwas angepasst. Außerdem ist das Bild wie in Beitrag #355 beschrieben zusammengefügt.)
solo, (tinker bell:1.2) wearing sexy skimpy flower dress, deep neckline, seethrough, looking at viewer, <lora:treebark-SDXL (tw lichen, treebark):0.2> lichen, treebark <lora:crystalz-sdxl:0.5> crystalz style, crystal wings, sitting on a fallen log in a clearing of flowers, (colorful, vivid:1.5), ((masterpiece)), ((best quality)), (detailed), beautiful lighting, intricate, high detail, sharp focus, dramatic, 8K, 4K, highres caustics, subsurface scattering, reflections
Negative prompt: smog, mist, fog, blurry

Wobei ich trotzdem hier cherrypicking von 108 Inpaint-Versuchen durchgeführt habe - 36 für den Fuß und 72 für die Hand. Die zu generieren, alle zu sichten und jeweils die Favouriten aussuchen hat ca. 20min gedauert.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: MechanimaL und painomatic
Mal wieder nen bisschen mit Midjourney, Runaway Gen2 Image2Video und Pica.art Image2Video...
Kleines Musikvideo zu "Alice in Wonderland" leider noch nicht dazu gekommen AnimateDiff mit ComfyUI zuteseten


Midjourney Prompt:the alice in wonderland animated film, alice in wonderland (1999 movie), (scene description), screencaps anime, deformed inbetween animation frame, studio ghibli, cute face, by the artist noriyoshi ohrai, in the style of colorful moebius, 32k uhd, colorized, cartoon violence,in the style of color reversal film, lightningwave, retrocore, animated expressions, fine art film, pseudo-realistic, cel-shaded, nikon d850, movie still, old tv style, film grain, anamorphic lens --ar 16:9 --niji 5
 
  • Gefällt mir
Reaktionen: MechanimaL
Für erfahrene Nutzer wahrscheinlich nicht beliebig interessant, aber es gibt einen aktuellen 'Onlinekurs' für Stable Diffusion in ComfyUI von und mit Olivio Sarikas:

https://openart.ai/workflows/academy

Auch wenn einige der Beispiel-Workflows ordentlich meine 16GB VRAM sprengen (zumindest im ROCm backend, welches womöglich hinsichtlich VRAM managment noch ausbaufähig ist).
 
Zuletzt bearbeitet:
@Rickmer @MechanimaL
Sieht ja alles sehr interessant aus und dich würde da (irgendwann) auch gerne mal reinschnuppern.
Kann man eigentlich mit einer Quadro P5000 in der Richtung was anfangen? Extra eine Grafikkarte werde ich mir jetzt nicht dafür kaufen. Leider scheint bis jetzt auch kein Multi-GPU-Support zu existieren?

In den letzten Tagen habe ich civitai entdeckt und stöbere da ein "bisschen" rum (ein Faß ohne Boden 🤦‍♂️:D)
Ist eigentlich civitai.com immer so langsam bis (jetzt gerade) grottenlangsam :grr:
 
@Fusionator
Die P5000 sollte grundsätzlich keine unüberwindbarenProbleme haben. Damit kann man sicher loslegen um ein wenig rumzuprobieren, auch wenn die CUDA Architektur nicht mehr die neuste ist.

Ich selbst hab keine gesonderten Probleme mit Civitai festgestellt. Allerdings ist die Seite bei mir insgesamt ziemlich buggy hinsichtlich der interaktiven Elemente.
 
Zuletzt bearbeitet:
SpartanerTom schrieb:
Ich selbst hab keine gesonderten Probleme mit Civitai festgestellt.
Na ja, ich versuche einfach nur durch die Bilder zu scrollen und es dauert ewig bis sich da was aufbaut. Ich klicke dann z.B. auf den Ersteller eines beliebigen Bildes um in sein Profil zu gelangen und es dauert wieder ewig bis da mal alles angezeigt wird. Als ob ich wieder in der 2Mbit ADSL Ära wäre :grr:
Früh/Tagsüber hat es relativ gut funktioniert, als ich kurz Urlaub hatte. Gegen Abend dann Katastrophe.
Liegt das etwas an dem tollen Telekom Peering? Da liest man ja immer nur "Gutes" davon.
 
Also es ist sicher nicht die flüssigste aller Webseiten, aber es fällt mir jetzt zumindest nicht dramatisch auf. Vielleicht sind es aber auch irgendwelche Scripte o.Ä. welche bei mir durch uBlock und pihole wegfallen. Das beschleunigt Webseiten teils deutlich.

Edit: Eine Sache die mir bei Civitai aufgefallen ist: Manche Anfragen laufen schlicht ins Leere. Da rödelt die Seite ewig aber man kommt nie ans Ziel. Ein zweiter Klick schafft dann Abhilfe.
 
Zuletzt bearbeitet:
Fusionator schrieb:
Na ja, ich versuche einfach nur durch die Bilder zu scrollen und es dauert ewig bis sich da was aufbaut.
Welchen Browser nutzt du? In Firefox wollen bei mir überhaupt keine Bilder laden. Mit Edge (also Chromium) hat die Seite deutlich spürbare Latenz, ist aber ansonsten bedienbar.

So richtig flüssig habe ich die Website noch nie erlebt, aber aktuell ist die auch nicht unbrauchbar. Ein bisschen Gedult muss man leider mitbringen.

Fusionator schrieb:
Kann man eigentlich mit einer Quadro P5000 in der Richtung was anfangen? Extra eine Grafikkarte werde ich mir jetzt nicht dafür kaufen. Leider scheint bis jetzt auch kein Multi-GPU-Support zu existieren?
Das ist derselbe Chip wie die GTX 1080Ti, mit der ich angefangen hatte und mit 16GB VRAM wirst du weiter kommen als mir die 11GB der 1080Ti erlaubt hatten.

Aber erwarte nicht zu viel bezüglich Geschwindigkeit - die Rohleistung für 'abgedrückt und das Bild ist direkt da' hat die Karte nicht ansatzweise.
Beispiel: Wenn ic hauf den Zeitstempel schaue, hat eine img2img Generation in 1688x1864 (am Rande der Fehlermeldung bezüglich unzureichend VRAM) mit übertakteter 1080Ti fast exakt 5 Minuten gebraucht. Wenn ich das heute nachstellen versuche, dauert das mit der RTX 4090 30 Sekunden, also ein Zehntel der Zeit...

Dennoch - mit 16GB ist die Quadro P5000 deutlich besser geeignet als eine schnellere Karte mit nur 8GB. Du wirst auf jeden Fall keine neue Karte zwingend benötigen nur um Stable Diffusion mal auszuprobieren.

Ich würde auch für erste Versuche nicht A1111 oder Comfy UI nutzen, sondern erstmal Fooocus laufen lassen. Fooocus ist auf 'ease of use' focussiert und die Installtion ist click&run: https://github.com/lllyasviel/Fooocus

Wenn du dich damit komfortabel fühlst und mehr Optionen / Funktionen haben willst ist es dann Zeit, auf A1111 oder Comfy (oder auch beide) zu wechseln.
Ergänzung ()

Nachtrag @Fusionator

Damit du nicht auf den Default Checkpoints versauerst, 2 Empfehlungen für je SD1.5 und SDXL:

SD1.5: Dreamshaper 8 als Allrounder und ReV Animated* als Alternative
SDXL: Juggernaut XL 8 als Allrounder und Artium V1.0** als Alternative

*ReV Animated ist jetzt schon was älter, aber das war einer der ersten richtig guten Checkpoints der auch Hände häufiger mal ganz gut hinbekommen hat.
**Artium V2.0 geht mehr in den realistischen Stil rein, den Juggernaut schon abdeckt. Ich bevorzuge die erste Revision.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Fusionator
Interessant ist auch, was Fooocus unter der Haube macht. Letztlich werden da ein Haufen Prompt Bausteine hinzugefügt um die Eingabe im Hauptfeld zu ergänzen. Ganz interessant auch, wenn man das zugrunde liegende GPT-2 Modell mal separat laufen lässt.

Zum Rumprobieren aber wirklich prima. Und man bekommt direkt was ordentliches raus.
 
@Rickmer
Vielen Dank für deine Ausführungen. Werde ich - wenn es soweit ist - gerne befolgen.
Rickmer schrieb:
Welchen Browser nutzt du?
Chrome und Edge. Gestern und teilweise auch an Tagen vorher war wie gesagt, absolute Katastrophe. Heute geht es komischerweise ungewohnt flüssig 🤦‍♂️

Rickmer schrieb:
Wenn ich das heute nachstellen versuche, dauert das mit der RTX 4090 30 Sekunden, also ein Zehntel der Zeit...
Habe ich richtig gelesen, dass die Karte fast 82,5 TFlops hat und meine Quadro lediglich 8,8? Die ist ja sogar etwas langsamer als die 1080Ti 🤦‍♂️ Selbst eine RTX 8000 stinkt ja dagegen völlig ab.
https://www.techpowerup.com/gpu-specs/geforce-gtx-1080-ti.c2877
https://www.techpowerup.com/gpu-specs/quadro-p5000.c2864
https://www.techpowerup.com/gpu-specs/quadro-rtx-8000.c3306
https://www.techpowerup.com/gpu-specs/geforce-rtx-4090.c3889

Sind halt alles FP32 Werte und ich weiß jetzt auch nicht, ob man das so direkt vergleichen kann, aber offensichtlich führt in der Richtung kein Weg an der 4090 vorbei.

Ich hatte heute in der Arbeit schon Gedankenspiele veranstaltet :D.... Aber selbst wenn ich mir eine 4090 rauslassen würde :stock:, fehlt mir der passende Unterbau dafür. Das zieht vermutlich nochmal minimum 1000€ an Kosten nach sich. Im Prinzip ein kompletter Rechner 🤐
 
Ich sehe gerade Tom's Hardware haben ein aktualisiertes Stable Diffusion Roundup zusammen gestellt.

https://www.tomshardware.com/pc-components/gpus/stable-diffusion-benchmarks

Auch wenn sie abseits von nvidia aktuelle Entwicklungen ziemlich schlecht eingefangen haben.

@Fusionator wenn es nur zum rumprobieren sein soll, muss es ja nicht direkt eine 4090 sein.

Für meine 6800 kommt Tom's Hardware auf 4,86 Bilder pro Minute für 512x512 (1,49 bei 768x768). Ich schaffe mit aktueller Technik etwas über 8 bei 512x512 (3 bei 768x768). Sicher immer noch ein großer Unterschied, aber etwas mehr Mühe hätte man sich ja geben können.
 
Zuletzt bearbeitet:
Fusionator schrieb:
Selbst eine RTX 8000 stinkt ja dagegen völlig ab.
Die ist ja auch was älter, die RTX 6000 Ada ist die korrekte. Ist doch total offensichtlich :p
https://www.techpowerup.com/gpu-specs/rtx-6000-ada-generation.c3933

Fusionator schrieb:
offensichtlich führt in der Richtung kein Weg an der 4090 vorbei.
Naja, kommt drauf an was für Ambitionen man hat. Mit einer 4070 Ti Super hat man 2/3 des VRAM und der Leistung für die Hälfte vom Preis.
Oder darunter noch die 4060 Ti 16GB - dann muss man halt länger auf sein Bild warten. Aber das gilt ja auch für deine Quadro P5000...

Aber ja - wer die 24GB VRAM haben will hat die Wahl zwischen einer (gebrauchten) 3090 als 'Budget'-Lösung, einer 4090 und einer Profi Karte.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: SpartanerTom
SpartanerTom schrieb:
Ich sehe gerade Tom's Hardware haben ein aktualisiertes Stable Diffusion Roundup zusammen gestellt.
Danke. Muss ich mir mal in Ruhe durchlesen.
Rickmer schrieb:
Naja, kommt drauf an was für Ambitionen man hat.

SpartanerTom schrieb:
wenn es nur zum rumprobieren sein soll, muss es ja nicht direkt eine 4090 sein.
Wie gesagt; kurzes Gedankenspiel in der Arbeit :p
Rickmer schrieb:
Die ist ja auch was älter, die RTX 6000 Ada ist die korrekte. Ist doch total offensichtlich :p
Absolut, den es gibt ja auch eine RTX A6000 🤦‍♂️ Aber der Preis der RTX 6000 ADA 😲 9000€ :freak:
Rickmer schrieb:
Mit einer 4070 Ti Super hat man 2/3 des VRAM und der Leistung für die Hälfte vom Preis.
Laut dem Bild hier wohl eher nicht ganz 2/3 der Leistung? Ok, das ist nur eine 4070 Ti
https://cdn.mos.cms.futurecdn.net/FtXkrY6AD8YypMiHrZuy4K-1200-80.png.webp

Ja, die 4090 haut richtig rein. Schade, dass in dem Test keine RTX 6000 ADA vertreten war 😝
 
Fusionator schrieb:
Wie gesagt; kurzes Gedankenspiel in der Arbeit :p
Damit musst du vorsichtig sein... Stable Diffusion und Gedankenspiele haben mich dazu gebracht, von der 1080Ti auf die 4090 zu upgraden.

Und plötzlich war der 'Spielgeld-Anteil' von vier Monatsgehältern weg...
 
  • Gefällt mir
Reaktionen: Fusionator
Rickmer schrieb:
Damit musst du vorsichtig sein... Stable Diffusion und Gedankenspiele haben mich dazu gebracht, von der 1080Ti auf die 4090 zu upgraden.
:D Also wird dein nächstes Upgrade dann unweigerlich eine 5090(?)werden
Rickmer schrieb:
Und plötzlich war der 'Spielgeld-Anteil' von vier Monatsgehältern weg..
Sei doch froh. Andere kriegen im halben Jahr keine 500€ gespart.
Andere wiederum versenken mal eben 50k in einen fahrenden Blechhaufen 🤷‍♂️
Wir können doch eigentlich froh sein, diese ganze technische Entwicklung mitzuerleben.
Für jemanden, der aus der VHS und Kassetten Ära kommt ist das einfach nur noch geil, was inzwischen möglich ist. :daumen: MB USB-Sticks/840 MB GB Festplatte/400Mhz Pentium 3/ISDN Kanalbündelung. Das Wort Terabyte existierte vielleicht im Duden :p
Da würde ich so manchen Gen-Zler mal für eine Woche 30 oder 40 Jahre zurück schicken, um mal gewisse selbstverständliche Sachen besser schätzen zu lernen
 
SpartanerTom schrieb:
Für meine 6800 kommt Tom's Hardware auf 4,86 Bilder pro Minute für 512x512 (1,49 bei 768x768). Ich schaffe mit aktueller Technik etwas über 8 bei 512x512 (3 bei 768x768). Sicher immer noch ein großer Unterschied, aber etwas mehr Mühe hätte man sich ja geben können.
Gibt es wirklich Leute, die mit AMD-Karten ernsthaft A1111 nutzen? Noch nicht einmal Microsofts Olive Optimierungen kommen ansatzweise an die NVidia-Karten heran
https://www.pugetsystems.com/labs/a...ns-for-stable-diffusion-performance-analysis/

Da hilft nur Shark (egal, ob das bei gleichen Parametern identische Bilder liefert oder nicht):
https://www.pugetsystems.com/labs/a...ion-performance-nvidia-geforce-vs-amd-radeon/

Irgendwelche performacnevergleiche sind m.M.n. ohne vollständige Angaben aller Parameter zwischen unterschiedlichen Benchmarks sowieso unsinnig. Hast Du schon nur mit dem selben Sampler und die selbe Anzahl an Steps verglichen? 50 Steps? Irgendwas mache ich schon da falsch, dass das nur in den seltenstens Fällen bei meinen Promps mit SD 1.5 noch einen Vorteil liefert.

Das ist für mich aber das Selber wie hier die Panik von Fusionator, dass er als Einsteiger in das Thema eine 4090 (warum nicht auf eine 6090 Ti Super warten?) benötigen würde. Ja, eine 1080 Ti wird langsamer sein und wenn man dann intensiv viele Tage/Woche damit herum gespielt hat und das noch weiter machen will, überlegt man sich, ob man eine andere Karte kauft. Dann kann man auch besser abschätzen, in welche Richtung man selber gehen will und welche Ausstatung sinnvoll sein könnte.

Aber gut, ich warte ohne ConfiUI und eigene Modelgenerierung immer noch darauf, dass die 12 GB VRam überhaupt mal voll werden. Mit SDXL waren zwar die 6 GB meiner vorherigen 1060 übervoll, aber er hat die Bilder trotzdem berechnet. Dauert halt länger, was nur zum Ermitteln, ob man sowas mit den verfügbaren Models überhaupt möchte, m.M.n. ausreicht.

Fusionator schrieb:
Da würde ich so manchen Gen-Zler mal für eine Woche 30 oder 40 Jahre zurück schicken, um mal gewisse selbstverständliche Sachen besser schätzen zu lernen
Hast Du selber vor 30 Jahren die aufgezählten Sachen geschätzt? Ich persönlich nicht, ich war nur immer sauer, wenn die digitalen TV-Mitschnitte direkt vom Tuner des SVHS-Rekorders auf dem PC viel besser aussahen wie jede 1. Gen SVHS-Aufnahme, die mit der selben Karte digitalisiert wurde. Und meinen PPro habe ich damals auch nicht mehr geschätzt wie ein paar Jahre zuvor den 486er. Der hat halt meine MPEGs bedeutend schneller berechnet, das war es aber auch.

Vor 40 Jahren war ich grafikmäßig noch beim C64 und mit viel Glück bei einem S/W Handscanner.

Und wenn ich mit in Erinnerung rufe, wieviel Geld ich vor 20-10 Jahren mit diversen dig. DSLRs verschwendet habe anstatt mir gleich "nur" richtige (und die richtigen Objektive dazu anstatt vermeintlich günstigeren Dritthersteller-Schrott) zu kaufen, dann weiss ich nicht nur, warum ich mir für für SD keine AMD Karte gekauft habe. Lieber mehr Geld in die HW stecken und damit derzeit weniger Aufwand mit der SW haben.
 
gymfan schrieb:
Das ist für mich aber das Selber wie hier die Panik von Fusionator, dass er als Einsteiger in das Thema eine 4090 (warum nicht auf eine 6090 Ti Super warten?) benötigen würde.
Das ist keine Panik, nur Gedankenspielerei. Erst mal das Thema überhaupt ausprobieren ;)

Die 6090 Ti Super wird bestimmt der Hammer, sofern TSMC die noch produzieren kann :daumen:

gymfan schrieb:
Hast Du selber vor 30 Jahren die aufgezählten Sachen geschätzt?
Nein, ich habe VHS und co. schon immer gehasst, weil das Bild einfach scheiße aussah. Und natürlich war ein 128MB Stick lächerlich. Aber mit sowas im Hinterkopf denke ich, dass man eine andere Sicht auf die moderne Technik hat. Zumindest mir geht das so.
An sowas wie ein Smartphone war nicht einmal im Entferntesten zu denken.
 
@gymfan Habe natürlich nicht A1111 verwendet, aber (in meiner Persönlichen Wahrnehmung) liegt das auch abseits der AMD Performance mittlerweile in einigen Dingen in der Entwicklung zurück. Aber vielleicht muss ich mir auch hier nochmal ein aktuelleres Bild verschaffen. Und zudem hängt es auch wieder davon ab was man letztlich erreichen möchte. Am meisten "Spaß" habe ich z.B. vermutlich aktuell mit Fooocus, weil man das schon fast als poliertes Stück Software bezeichnen kann, welches "einfach funktioniert".

Hinsichtlich der Testparameter bin ich selbst auch wieder der Meinung dass der Autor auf TH einfach irgendetwas ausgewählt hat. Im Test vor einem Jahr war es ja noch unsinniger gewählt. immerhin ist es diesmal ein Ancestral Sampler wo immer etwas neuer Noise injected wird, so dass mehr steps nach der Bildergeneration zumindest etwas Varianz bringen können.

Ansonsten traue ich mir durchaus zu diese Dinge halbwegs kompetent zu beleuchten. Ich lade dich gerne ein meinen Leserartikel zu lesen wenn du dich davon überzeugen willst.

Mir ging es auch nie darum Leute dazu zu bewegen AMD Karten mit dem Ziel Stable Diffusion zu kaufen. Allerdings fand ich in vielen Beiträgen und Artikeln die technische Repräsentation im besten Fall unvollständig und im schlimmsten Fall einseitig.

Ich habe für meinen Leserartikel damals bewusst den alten Tom's Hardware Artikel als Basis genommen, um etwas Vergleichbarkeit zu schaffen. Vielleicht sollte ich die nächsten Tage irgendwann entsprechend das ganze etwas aktualisieren. Es gibt seit Dezember auch ein neues stable Release von SHARK, auch wenn ich mittlerweile selbst Windows privat nicht mehr aktiv nutze so dass ich ROCm auch nativ einsetzen kann.

@Fusionator Der Kommentar zur "6090TI" ist gar nicht so abwegig da Nvidia mit den monolithischen Designs stramm auf das Reticle Limit zuwandert.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: MechanimaL
Zurück
Oben