Text to Picture AIs

MechanimaL · 28. September 2022

Klar, wenn Du unbedingt WAKÜ brauchst, bezahlst Du halt mehr. Rein beim SD wird meine Grafikkarte nicht mal warm und selbst in Spielen höre ich die nicht (MSI 3070 aktuell). 14xx wären mir persönlich für eine 12GB 3080 zuviel. Beim Budget von 1000€ würde ich zur 3090 mit 24GB greifen und der RAM ist echt der Knackpunkt, jedenfalls aktuell und könnte es umsomehr in Zukunft werden. Wenn Du selbst auch Models trainieren willst, brauchst Du (glaube ich) auch viel GPU RAM. Von daher, bei Neukauf jetzt würd ich sagen minimal 12 (wegen Budget) oder halt direkt 3090 oder 4xxx mit 24 GB dann ist man auf der sicheren Seite ^^ ohne WAKÜ auch alles billiger, vll kannst Du doch drauf verzichten.
https://geizhals.de/msi-geforce-rtx-3060-gaming-x-12g-a2473949.html

Wenn jemand das anders sieht bitte schreiben, ich habe auch noch nicht das vollste Verständnis und entsprechend sind Zukunftsprognosen schwierig- habe halt ein paar Threads zu Hardwarefragen durchgelesen und ein Benchmark gesehen.

Pyrukar · 28. September 2022

@MechanimaL Wie Wakü ist nicht diskutabel

die möchte ich haben und den Aufpreis bin ich bereit zu zahlen ... Mir geht es darum wie viel mir die Rechenpower in SD wirklich bringt

nicht zuletzt brauche ich die Wakü weil die meisten GPUs zu lang sind wenn sie ordentliche Luftkühler haben (Node 804)

MechanimaL · 28. September 2022

Mein Freund hat sich jetzt die 3060 bestellt. Hat einen alten i5 4570 oder sowas ähnliches, ich werde berichten, wie lange das dauert

etwas weiter oben im Thread hatte ich ein Benchmark gepostet. Hier stehen noch ein paar Zeiten: https://www.reddit.com/r/StableDiff...able_diffusion_gui_benchmark_results_loading/ die sehen auch mit kleineren karten gut aus. Wäre die Frage, wie es dann bei 1024x1024 läuft, was ja demnächst als sozusagen native Berechnungsmethode kommen soll. Mehr RAM ist wohl wichtiger, solangs nicht die lahmste Gurke ist ^^

Pyrukar · 28. September 2022

und RAM wäre ja identisch

Danke für die Info

Der Kabelbinder · 28. September 2022

Hab bei mir mittlerweile die AMD-Treiber unter Linux ans Laufen bekommen. Gar nicht mal so einfach, wenn die Dependencies allesamt streiken. Anyway, Stable Diffusion Web UI rendert mit der 6900XT jetzt stabil in wenigen Sekunden. Werde damit auch mal ein wenig rumprobieren.

Bisher habe ich nur mit Midjourney gearbeitet und dort auch mal ein Abo gemacht, um einige Stunden fast Rendering mit allen Parametern zu bekommen. Das Problem sehe ich bei MJ allerdings darin, dass die normale Engine immer extrem gezeichnet nach Digital Art aussieht. Das ist zwar super, wenn man durchpolierte digitale Artworks generieren möchte. Sobald es in Richtung Photorealismus geht, wird es aber ziemlich schnell eng. Man kann mit den Promts zwar noch einiges drehen. Im Wesentlichen bleibt dieser künstliche Look aber immer erhalten, was vor allem bei Gesichtern schon sehr einschränkt. --test und --testp sind da schon wesentlich besser und geben mit den richtigen Prompts zusammen stellenweise auch tatsächlich photorealistische Ergebnisse aus.

detailed skin, high-res photography style, natural colors, 8k --upbeta --test bzw. --testp

Allerdings kann man mit den beiden kein High Quality laufen lassen und so Dinge wie --aspect sind ebenfalls broken. Ist halt alles noch nicht gänzlich ausgereift. Davon abgesehen hatte ich die heute und gestern zwischendurch immer mal wieder Downtimes beim Bot. Schon irgendwie bitter, wenn man Premium-Kunde mit zeitlich begrenztem Guthaben ist.

Was die Quali der Bilder mit Stable Diffusion betrifft, kann ich noch nicht viel sagen. Dass man das Ganze auch lokal auf der eigenen Hardware laufen lassen kann, ist aber schon mal ein dicker Pluspunkt. Die Einstellungsmöglichkeiten und Parameter sind bei solch offenen Plattformen auch wesentlich umfangreicher.

Werde mal versuchen, ein promts zu finden, die vergleichbar gute Ergebnisse liefern.

PS: Achja, zum schnellen Reworken von Gesichtern lohnt sich ein Blick auf: https://arc.tencent.com/en/ai-demos/faceRestoration
Scheint z.B. bei dem Elfen-Beispiel aber nicht so gut zu funktionieren, weil wohl einfach zu wenig Anhaltspunkte für die AI (stark verwaschene Haut) vorhanden sind.

EDIT:
Photorealistische Portraits scheinen in Stable Diffusion auch nicht so einfach zu sein. Man muss ihm schon sehr viele Prompts an die Hand geben und auch einige Punkt ausschließen, damit man kein überbelichtetes oder überkontrastiertes Bild mit gezeichnetem Look bekommt. Beispiel:

A portrait of Jeff Bridges sitting in a late night sports bar. Natural colors. Detailed face, detailed skin, detailed texture, detailed cloth, crisp, high detail, very detailed, hyper detailed, high-res, 4k, 8k, 8k texture, super resolution, ultra detailed, fine texture skin, fine texture face, photo, restoration. Mild contrast, natural contrast, natural light, good lighting. Hands.

Negativ:

drawn, hdr, overexposed, oversaturation

Settings: 60 Steps, DDIM, Scale 7, 4081700472, Restore faces an (links) und aus (rechts)

Wirkt zwar alles etwas retouschiert und zusammengeschnitten. Für KI-Verhältnisse aber durchaus ordentlich.
Das obige ist mit Abstand aber auch mein bester Anlauf. Der Durchschnitt hatte immer arge Probleme mit den Händen, deplatzierten Details, falschen Schatten, etc.

Die Gesamtkomposition mit allen Objekten, deren perspektiver Krümmung und dem Übergang von Vordergrund zu Hintergrund (insb. Schärfeverlauf) bekommt Midjourney jedenfalls schon mal merklich authentischer hin. Photorealismus ist da mit guten Prompts auch machbar.

A portrait of Jeff Bridges sitting in a late night sports bar. Natural colors. Detailed face, detailed skin, detailed texture, detailed cloth, high detail, very detailed, fine texture face, photo. natural light, good lighting. Hands. Photographic, photo, photorealistic, ISO, mm, aperture. --testp --upbeta

Leider erlaubt --testp keine Negativ-Promts, sonst hätte ich noch HDR rausgenommen.

painomatic · 29. September 2022

Bin auch mal gespannt, wann sie --test und --testp mit den Funktionen der MJ V3 ausstatten - da wird dann bestimmt noch einiges mehr möglich sein.

MechanimaL · 2. Oktober 2022

Der Kabelbinder schrieb:
Die Gesamtkomposition mit allen Objekten, deren perspektiver Krümmung und dem Übergang von Vordergrund zu Hintergrund (insb. Schärfeverlauf) bekommt Midjourney jedenfalls schon mal merklich authentischer hin. Photorealismus ist da mit guten Prompts auch machbar.

Dafür weiß SD, was der Dude zu trinken begehrt.. ;D
Werde auch mal ein paar Tests machen zu dem Prompt und melde mich nochmal

Der Kabelbinder · 2. Oktober 2022

@MechanimaL
Also ich sehe da keinen White Russian.

Vielleicht bekommst du die Szene ja noch besser hin. Meine größte Schwierigkeit war, sowohl den Detailgrad als auch die Beleuchtung richtig hin zu bekommen. Die meisten Bilder waren viel zu hell, die Haut ausgebrannt. Vermutlich, weil Celebrity Fotos oft mit Blitzlicht oder bei hellem Tageslicht entstehen. Womöglich hat die AI dann zu wenig Referenzpunkte, wenn die Szene sehr dunkel beleuchtet sein soll. Das wird mit fiktiven Figuren denke ich besser gehen als mit einem bestimmten Schauspieler.

MechanimaL · 3. Oktober 2022

Einen für Dich, einen für mich?

noch ausbaufähig, aber ich bin sicher, das geht

Der Kabelbinder · 3. Oktober 2022

Prosit! Jetzt bin ich auf deine Prompts gespannt.

In dem Beispiel sieht man wieder ganz gut, dass die Haut ziemlich ausgebrannt ist. Vielleicht bekommt man das mit "desaturated" oder mit dem negativ-prompt "HDR" in den Griff?

MechanimaL · 3. Oktober 2022

Ergebnis hängt bestimmt auch von Sampler und Steps ab, hatte jetzt meistens Werte zwischen 60-100 verwendet mit mit EulerA, LMS und PLMS. Kann bei jedem Foto nachsehen, was genau eingestellt war, inkl Prompt usw., das legt das WEBUI in der PNG Datei ab, suche gerade noch noch einem Programm um das bequem per Shell im Datei manager einzusehen (anyone?).

Prompt leicht variiert, in etwa, wie am Ende angegeben. Die Tendenz des Ausbrennens (das ist wenn bereiche überbelichtet sind oder?) sehe ich grundsätzlich auch. Evtl einen Celebrity Fotografen finde, der außerdem noch viel mit Ambient Licht / natürlichem Licht gearbeitet hat und adden. Was außerdem noch geht und ich glaube, vieles macht MJ automatisch- es gibt ja noch img2img usw. Manchmal ist es auch schon ok, oder? Meine Augen machen schlapp, hab zwischendurch auch wieder nach allem möglichen geschaut, es ist einfach zu faszinierend.
I'll be back..

Wenn Dir was gefällt können wir ja mal versuchen auf dem gleichen Seed mit weiteren Variationen zu suchen, habe da jetzt nicht drauf geachte und CFG war immer zw. 7-8.

Prompt in der Richtung: Photographic portrait of (Jeff Bridges:0.9) sitting in a sports bar late at night, (low back light:1.2), (neon lights in the background:0.9), intricate face, intricate eyes, intricate hair, highly detailed, cinematic, sigma 85mm f/1.4, depth of field, (bokeh:1.4), medium shot, Butterfly lighting

MechanimaL · 3. Oktober 2022

Ich gehe davon aus, das MJ sehr viel automatisiert macht, was man halt bei SD mit Prompting und Tools machen kann, dadurch zwar vielleicht in der Summe auf Anhieb mehr Ausschuss hat, aber letztlich mehr Einfluss. Als Anfänger, der erst seit knapp 2 Wochen mit dem Fieber infiziert ist und sich versucht möglichst breit mit der Materie zu befassen, habe ich noch wenig Zeit in Prompting gesteckt- fast immer nur zum gezielten Experimentieren, wie hier bspw., weshalb ich überzeugt bin, selbst noch lange nicht alles mögliche abzurufen

Finde es cool, dass hier Leute mit einem kritischen Blick sind, was meinen bisherigen Austausch Partner (im Real Life) weniger interessiert. Das hilft meinem eigenen Blick zu schärfen und fordert mich heraus, mehr zu erreichen.

Auf Deinem JB Foto oben von MJ ist noch einiges an Körnung, das könnte man wsl auch noch reinbringen/etwas rauskitzeln, wenn gewünscht. Bzgl. des Prompts hatte ich noch ein paar Gedanken, einen Fotografen finden, der JB schon im Professionellen Bereich fotografiert hat (nicht bei irgendeiner Prom-Show) und angeben. Fotografen/Künstler, die das gewünschte Feeling mitbringen hinzufügen. Dann kam mir noch die Idee, dass es nach einem Bild aus einem Film aussehen sollte, was ja viel mehr der gewünschten Stimmung entspricht, deshalb "movie still".

Letztes Prompt, das denke ich ne gute Basis ist: photographic portrait of (Jeff Bridges:0.8) sitting at a sports bar having a drink, late at night, (movie still: 1.2), low back light, (neon lights in the background:0.9), intricate face, intricate eyes, intricate hair, highly detailed, cinematic, sigma 85mm f/1.4, depth of field, (bokeh:1.4), medium shot, cinestill

Negativ Prompt: black and white

Hier mal ein Vergleich von einem 512 Original Bild und dann 2xUpsampling (Settings als Screenshot):

Der Kabelbinder · 4. Oktober 2022

Das sieht doch schon sehr ordentlich aus!

MJ ist ja genau dafür angelegt, schnelle, schicke Bilder zu liefern, die keine große Nachbearbeitung mehr benötigen. In SD hat man dahingegen Einfluss auf alle möglichen Stellrädchen, die das Bild schrittweise verbessern, aber genau so auch verschlechtern können. Ich merke auf jeden Fall, dass ich mit SD doch einiges länger brauche, um ein visuell ansprechendes, intaktes Bild zu bekommen. Habe mit MJ allerdings auch angefangen und deutlich mehr Zeit verbracht, daher erst mal schauen ...

Den Datensatz weiter einzuschränken, in dem man einen bestimmten Fotografen hinzufügt, könnte funktionieren. Es ist aber gerade bei komplexen Prompts, die so real nie fotografiert wurden, sehr wichtig, die Quelldaten nicht zu sehr einzugrenzen. Ansonsten neigen SD wie auch MJ dazu, konfliktbehaftete Prompts, für die es nicht genug Bezugspunkte in der Datenbank gibt, einfach wegzulassen. Man kann mit diesen Tools zwar schon erstaunlich viel machen. Am Ende des Tages sind sie aber noch nicht dazu in der Lage, ein Bild tatsächlich zu verstehen und im Zweifel auch größere Lücken authentisch interpolieren zu können. Von Extrapolation auf völlig Unbekanntes mal ganz zu schweigen. Das funktioniert im Ansatz höchstens bei abstrakten Bildern, aber (noch) nicht bei menschlichen Gesichtern und komplexen geometrischen Konstellationen.

Was genau ist das eigentlich für eine Syntax, die du verwendet hast? Reagiert SD auf Klammern? Bin davon ausgegangen, dass man auch beim Weighting einfach ein Komma als Trennzeichen zum nächsten Prompt setzt.

Als negativ-prompt kann ich übrigens "drawing" sehr empfehlen. Dadurch bekomme ich viel häufiger photorealistische Outputs.

Pyrukar · 4. Oktober 2022

Der Kabelbinder schrieb:
Was genau ist das eigentlich für eine Syntax, die du verwendet hast? Reagiert SD auf Klammern? Bin davon ausgegangen, dass man auch beim Weighting einfach ein Komma als Trennzeichen zum nächsten Prompt setzt.

Das konnte ich auch noch nicht ganz herausfinden, was klammern, kommas und punkte bezwecken. Was anscheinend funktioniert ist !!! anzuhängen

MechanimaL · 4. Oktober 2022

Im WEB UI, das ich verwende ist die Gewichtung entweder mit ( zur Verstärkung oder [ zur Verminderung möglich. Allerdings muss man viele Klammern setzen um auf hohe Werte zu kommen und die Schreibweise mit den Zahlen lässt sich schneller anpassen und ist übersichtlicher

Mehr dazu hier: https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Features#attentionemphasis

Maviapril2 · 5. Oktober 2022

MechanimaL schrieb:
Recht gelungener Einsteiger Guide: https://www.reddit.com/r/StableDiffusion/comments/x41n87/how_to_get_images_that_dont_suck_a/

Vielen vielen Dank dafür

Habe jetzt erst die Zeit gefunden, mir das mal anzusehen. Der Verweis dort auf https://lexica.art/ hat mich doch ein bisschen gehookt, es auch mal auszuprobieren… Vielleicht ja mal in der Weihnachtszeit

Der Kabelbinder · 6. Oktober 2022

Prompt Editing mit gleich bleibender Szene:

Sieht alles noch ein wenig glitchy aus. Aber es geht vorran.

Maviapril2 · 7. Oktober 2022

Wäre es Zeit, einen CB-AI-Bilderwettbewerb ins Leben zu rufen?

MechanimaL · 7. Oktober 2022

Zu dem Thema habe ich in der Tat schon Kontakt zu Moderatoren aufgenommen

Angelehnt an den bereits bestehenden Foto-Wettbewerb, dachte ich mir. Nach erster Rückmeldung steht nun im Raum, zunächst einen Sammelthread zu erstellen, um die allgemeine Resonanz besser einschätzen zu können und darüber eine Community innerhalb des Forums aufzubauen. Danach wäre es, sofern das gut klappt, eventuell möglich.

painomatic · 8. Oktober 2022

Das is ne coole Idee.

Text to Picture AIs

Lt. Commander

Commodore

Lt. Commander

Commodore

Higitus figitus zumbakazing.

Lt. Commander

Lt. Commander

Higitus figitus zumbakazing.

Lt. Commander

Anhänge

Higitus figitus zumbakazing.

Lt. Commander

Anhänge

Lt. Commander

Anhänge

Higitus figitus zumbakazing.

Commodore

Lt. Commander

Lt. Commander

Higitus figitus zumbakazing.

Lt. Commander

Lt. Commander

Lt. Commander

Ähnliche Themen