Text to Picture AIs

madmax2010 · 26. September 2022

grundsaetzlich kann die OpenCL.
Aber 8GB sind zu wenig.

Pyrukar · 26. September 2022

deshalb nutze ich ja derzeit die cpu

das funktioniert schon, wenn man etwas zeit mitbringt

MechanimaL · 26. September 2022

Pyrukar schrieb:
na ja meine rx570 hat zwar auch 8gb vram, aber ist warscheinlich schlicht zu alt um noch ordentlich unterstützt zu werden. ich halte mal nach einer 3080 12gb ausschau sobald die 4000er serie verfügbar ist ich glaube nicht das sich der Aufpreis zu einer 3090 wirklich lohnt (ja ich weis dass die deutlich mehr VRAM hat) aber ich will das hier als hobby und nicht beruflich

Ich bin grade am Schauen nach einer Grafikkarte für einen Freund, dessen Karte ne schrottige 2GB GT710 ist, damit er auch offline arbeiten kann. Meine aktuelle Vermutung ist, dass der RAM erstmal wichtiger ist, wenn man insgesamt nicht so viel investieren möchte oder kann (bis 500).

Hier noch ein Bild zu Rechenzeiten:
https://i.ibb.co/yd7SZ32/chartthin.png

Ich selbst bin NOCH ich in einer sehr intensiven Erkundungsphase gepaart mit einer riesigen Begeisterung und sehe schon kommen, dass ich die 24GB 3090 ins Auge fassen werde oder etwas vergleichbares der 4xxx Serie - und zwar nur für das "Hobby". Das ist schließlich - gelinde gesagt - das krasseste was ich seit langem erleben durfte und was mich voll in seinen Bann gezogen hat

Maviapril2 · 26. September 2022

Jo, RAM kann man nie genug haben

Pyrukar · 26. September 2022

gabs da nicht mal technologien (AMD hat angefangen, aber Nvidea nachgezogen) dass die Grafikkarte auch auf den normalen RAM zugreifen kann? Ich meine 32 oder sogar 64 GB RAM auf dem Motherboard ist jetzt nix absolut besonderes mehr, aber selbst eine 3080 gibts in einer 10GB Variante ... das sind ja auch "nur" nur 2gb bzw. 25% mehr

jb_alvarado · 27. September 2022

@madmax2010, hast du mit stable deffusion gute Ergebnisse hinbekommen? Wir haben das mal kurz getestet, auch das Webfrontend installiert, aber zumindest mit Standardsettings waren die Ergebnisse nicht so schön, nicht zu vergleichen mit den Bildern auf dem Github Repo. Vielleicht ist aber auch die Grafikkarte zu klein.

Pyrukar · 27. September 2022

@jb_alvarado hat vermutlich nix mit deiner Grafikkarte zu tun, eher mit den Wörtern, die du eingibst oder an der Auflösung ( fang am besten mit 512x512 an da die KI damit trainiert wurde). ich rendere gerade mit CPU und bekomme recht gute ergebnisse

dauert eben nur ewig

Beispielsweise:

young_elven_male__wearing_noble_robes_and_cloak_st_b6f5177d_GFPGANv1.3.png

Propt:
young elven male, wearing noble robes and cloak standing on the street of an elven city build. middle earth, lord of the rings, long straight hair, full shot, Cinematic, Beautiful Lighting
Seed: 570305

jb_alvarado · 27. September 2022

Ok, muss ich noch mal testen. Mein String war in etwa so: "booted cat sits on cactus and drinks tea", muss vielleicht noch länger sein :-). Dein Beispiel hat sehr gut geklappt! CPU und warten finde ich auch ok, als ich noch mit 3D zutun hatte mussten wir macnhmal Stunden auf ein Bild warten...

Pyrukar · 27. September 2022

@jb_alvarado versuch mal mit Art Styles zu arbeiten

ich habe eine UI die welche zur auswahl gibt. Oftmals mache ich es so, dass ich ein erstes Bild als digital Art rendere und dann Image2Image zu einem näher an Fotorealismus liegenden bild

du kannst oftmals mit recht wenig änderungen im Bild den Artstyle recht stark ändern und soweit ich das bisher gesehen habe ist Fotorealismus von beginn an nicht die beste idee. da kommen leichter mal merkwürdige Gliedmaßen o.ä. heraus. ähnliches gilt soweit ich das sehe durchaus auf für posen wie sitzen oder liegen

Stehen oder gar nicht die Position im Prompt funktioniert idR recht gut. aber ich beschäftige mich damit auch erst seit wenigen Tagen (wie aus dem Thema ersichtlich ist)

Der Kabelbinder · 27. September 2022

Das Gesicht sieht aber ziemlich blurry aus. 🤔
Würde mal "detailed face", " hyper detailed", "4k" oder "8k" hinzufügen. Scheint zumindest in Midjourney sehr gut zu funktionieren.

Pyrukar · 27. September 2022

@Der Kabelbinder ja klar das funktioniert auch bei Stable diffusion so, jedoch brauchts dann für ein sinnvollen durchlauf gleich mal 50+ zwischenschritte und auf der CPU gerendert bedeutet das, dass es ewig dauert ... das bild ist mit nur 25 zwischenschritten entstanden

aber wenn man das wirklich mag dann kann man ja nochmal den Seed nehmen und eben dafür diese Zwischenschritte investieren und die Prompts erweitern.

Der Kabelbinder · 27. September 2022

Hab noch nicht sonderlich viel Erfahrung mit SD. Aber nach dem, was ich gestern probiert habe, skaliert die CPU-Rendering-Zeit in erster Linie mit den Steps, der Cfg Scale und der Auflösung natürlich. Mit steigenden Prompts lief er mir relativ gleichbleibend. Dauert bei den Stock Settings immer so rund 2 min. mit meinem 5800X.

Werde heute mal versuchen, das Web UI mit meiner 6900 XT ans laufen zu bringen. Unter der Prämisse, dass mir die Treiber nicht dazwischen funken ... AMD hat wohl Probleme mit den Dependencies unter Debian/Ubuntu. 🙇

Als Orientierungshilfe für die Prompts nutze ich https://promptomania.com/stable-diffusion-prompt-builder/. Die Art Styles wollte er bei mir aber noch nicht so wirklich umsetzen. Meine anderen prompts waren aber auch schon relativ spezifisch, sodass er vermutlich zu wenig Schnittmengen bei den Quelldaten im Netzwerk finden konnte.

In Midjourney habe ich gute Erfahrungen mit "optane look" und "unreal engine". Das sind so Trigger, mit denen man sehr polierte Renderings bekommen kann.

Pyrukar · 27. September 2022

@Der Kabelbinder ich hab das bild jetzt nochmal gerendert mit einigen der dir vorgeschlagenen Prompts

ich finde es eigentlich ganz gut, aber ich glaube das glatte gesicht gehört für ihn zum Elf/Elb einfach dazu und ich würde ihm zustimmen

die Herr der Ringe Elfen hatten auch alle derart glatte Gesichter. Außerdem habe ich eben immer noch "nur 25 steps" gemacht

zumal der Hintergrund jetzt auch wirklich so aussieht wie ich mir das im Herr der Ringe vorgestellt hätte

hyper_realistic_detailed_face_8k_young_elven_male__7e61d63a_GFPGANv1.3.png

prompt:
hyper realistic detailed face 8k young elven male, wearing noble robes and cloak standing on the street of an elven city build. middle earth, lord of the rings, long straight hair, full shot, Cinematic, Beautiful Lighting

Seed: 570306

madmax2010 · 27. September 2022

Die Ergebnisse hängen auch stark am Sampler und den steps:

painomatic · 27. September 2022

Pyrukar schrieb:
Okay und gibt es auch welche die wie gewünscht in die Kategorie "ohne Anmeldung" fallen.

Ich habe Stable Diffusion(lokal) und Dall-E-2 getest, bin aber bei Midjourney hängen geblieben - liefert für mich die besten Ergebnisse.

Registrierung fand ich nicht tragisch, da man ja eh nur dem Midjourney Channel joint bzw sich den Bot in den eigenen Channel einladen kann.

Grosser Vorteil von Stable Diffusion ist natürlich, dass es kostenlos ist. Midjourney gibt es in der 10$ und 30$ Variante.
Prompt: vending machine with biological structures in plastic bags, cyberpunk, cinematic, 8k, 3d, unreal engine, hyper realistic, ultra detailed, atmospheric, octane render, Fibonacci grid layout

pain_o_matic_vending_machine_with_biological_structures_in_plas_16b25433-02e0-44ee-acf8-36cabc...png

Prompt: jellyfish in matrix, stopped in time, atmospheric, ominous, eerie, cinematic, Epic, 8k, 4k, ultra detail, ultra realistic, 85mm lens

pain_o_matic_jellyfish_in_matrix_stopped_in_time_atmospheric_om_c90fa3a8-ac40-4bdd-b9a7-917ccb...png

Nutze dann noch Gigapixel AI zum hochskalieren.

MechanimaL · 27. September 2022

Generell vll noch eine Online-Version verwenden, bis die Basis zu 80% oder so stimmt und ab da dann in den längeren Prozess img2img am eigenen PC, wenn man dort hardwarebedingt aktuell noch so lange Wartezeiten hat? So kann man den Ausschuss erstmal aussortieren und schneller probieren und lernen. Sobald der Rechner es aber über die Grafikkarte schafft ist das natürlich generell zu bevorzugen

Mein bester Freund macht richtig geile Sachen, noch vollkommen ohne eigenen Rechner dafür zu benutzen, einfach durch extrem artikulierte Prompt-Arbeit und viel Probieren.

Pyrukar schrieb:
@Der Kabelbinder ich hab das bild jetzt nochmal gerendert mit einigen der dir vorgeschlagenen Prompts ich finde es eigentlich ganz gut, aber ich glaube das glatte gesicht gehört für ihn zum Elf/Elb einfach dazu und ich würde ihm zustimmen die Herr der Ringe Elfen hatten auch alle derart glatte Gesichter. Außerdem habe ich eben immer noch "nur 25 steps" gemacht zumal der Hintergrund jetzt auch wirklich so aussieht wie ich mir das im Herr der Ringe vorgestellt hätte

Anhang anzeigen 1264470

prompt:
hyper realistic detailed face 8k young elven male, wearing noble robes and cloak standing on the street of an elven city build. middle earth, lord of the rings, long straight hair, full shot, Cinematic, Beautiful Lighting

Seed: 570306

Ja schon nicht schlecht, insbesondere für die wenigen steps erst recht ! Allerdings wirkt der Hintergrund etwas wie eine Leinwand, vor der er steht. Das liegt auch viel an der Beleuchtung. Ich hab das mal als Basis genommen, testweise

aber dieses Problem hab ich nicht rausbekommen aus dem Bild rein mit img2img und ohne inpainting. Siehe Beispiel-Grid. Allerdings fehlt es mir auch noch an Erfahrung und wissen, die Beleuchtung anzupassen, der Charakter ist ja immer "backlit" wie man sagt, das heißt, man könnte jetzt vll versuchen die Sonne da auch noch mehr an den Himmel zu backen, aber irgendwie, dieser Leinwand-Schleier müsste man auch noch angehen, geht evtl auch mit den richtigen Worten bzw auch negativ-Prompts.

Hab dann mit wenigen klicks auch noch einen young-male-elf produziert, siehe Beispiel 2. Da wären noch ein paar Details zu machen, wo ich aber nicht genau weiß, wie am besten Rangehen: Der Bereich von der rechten Ohrenspitze bis zum Nacken. Also ggf. das Grüne hinter seinem Kopf weg. Und an der Stelle glaub ich, man ist schneller, wenn man Photoshop oder was ähnliches benutzt das wegschnibbelt und Himmel reinkopiert und dann nochmal drüber rechnen lässt (ggf mit inpaint) oder mit dem gleichen Prompt über alles, dass es perfekt eingepasst wird. Denn ich weiß nicht, wie ich bspw. genau einfach nur Himmel an die Stelle bekomme und der Teil sich perfekt dem Rest des Bildes anpasst an den Übergängen rein durch Inpainting. Ein UI, das Ausschneiden und Kopieren kann (auch aus einem 2. Bild) wäre Top, habe sowas auch schon gesehen, aber Automatic hat es mal noch nicht drin.

painomatic · 27. September 2022

Hier mal der Prompt mit Midjourney - dort gibt es zur Zeit mehrere Modele:
Hier einmal MJ3 und Bild hochskaliert:

pain_o_matic_hyper_realistic_detailed_face_8k_young_elven_male__18c5bcbd-384a-42a5-88db-172d20...png

pain_o_matic_hyper_realistic_detailed_face_8k_young_elven_male__7ac39054-1bcf-4748-aff6-59bea4...png

Dann Bild4 mit dem Modus --test --creative --upbeta bzw gibt es die Funktion ein hochskaliertes Bild zuremastern

pain_o_matic_hyper_realistic_detailed_face_8k_young_elven_male__ccace7a0-df18-4565-9c8b-e46392...png

Und einmal der Prompt mit der Endung --testp, was es mehr nach Foto aussehen lassen soll

pain_o_matic_hyper_realistic_detailed_face_8k_young_elven_male__d7ce0822-cbb2-46e9-bee7-ec29ab...png

Pyrukar · 27. September 2022

ja midjurney ist schon ganz cool, andererseits gibts glaube ich erst ab 30€ unbegrenzt wiederholungen ... und 30€ finde ich schon ne ganze stange Geld da geb ich lieber 200-300€ mehr für eine stärkere GPU aus und kann die auch für andere Sachen gut nutzen. Eine neue wäre sowieso bei mir inzwischen fällig, und ich hätte diesmal sowieso zur kleinsten mit Fullcover Wakü gegriffen ... das sind idR 3070 und konsorten dann ist der Weg zur 3080 auch nicht mehr so gewaltig

außerdem bin ich großer freund von Open Source Projekten und das gibts eben bei Stable diffussion

MechanimaL · 28. September 2022

Ich dachte auch zuerst, ich brauche Midjourney und habe mich schon bei meiner Bank nach einer Kreditkarte erkundigt, nur damit ich es bezahlen kann

Aber von dem Gedanken habe ich mich mittlerweile entfernt.

MJ ist auf jedenfall für den Gelegenheitsnutzer viel besser, da man mit wesentlich weniger Aufwand direkt eine Fülle atemberaubender Bilder erstellen kann. Wahrscheinlich, weil ein großes Maß an Optimierung und Promptbereicherung automatisiert anhand der eingegebenen Begriff erfolgt.

Versteht mich nicht falsch, ich habe ein paar selbst erstellte Bilder von MJ gesehen, wegen derer ich mir noch einen Account machen muss, um sie runterzuladen, hochzusaklieren und mir an die Wand hängen zu können..

Bei SD muss man schon sehr viel mehr selbst an Überlegung und Prompt Gestaltung anstellen, um dort hin zu kommen. Das sehe ich aber nicht unbedingt als Nachteil an, sondern man muss sich viel mehr mit der Materie auseinandersetzen, kann dann aber auch letzten Endes viel genauer selbst einwirken und auch das Zusammenspiel zwischen der eigenen Fantasie und der der AI regulieren. Auch die Möglichkeit, das Model selbst zu wählen, eigenes Training mit z.B selbst erstellten Charakteren zu betreiben usw usf

Die Möglichkeiten img2img zu verwenden, inpainting usw. sind bei MJ garnicht erst gegeben oder? Dafür hat man auf Anhieb geile Ergebnisse. Bei SD kann ich diese aber viel gezielter auswählen, weiterentwickeln mit inpaint bestimmte bereiche erneuern den Rest erhalten usw..

Diese Möglichkeiten, sowie alle Parameter im Prozess selbst steuern zu können, sehe ich als Riesen Vorteil. Es ist wie ein wenig wie MAC vs Linux ^^ Letztlich hat man größere Freiheiten, keine Kosten, unzensierte offline Nutzung usw. und täglich entwickeln sich das Verständnis und die Möglichkeiten der Nutzung weiter, anhand des offenen Codes und der stetig wachsenden Community.

Recht gelungener Einsteiger Guide: https://www.reddit.com/r/StableDiffusion/comments/x41n87/how_to_get_images_that_dont_suck_a/

Pyrukar · 28. September 2022

hallo zusammen, EDIT: Ich hab mir vorhin eine 3060 12GB bestellt ... ergo Thema erledigt

ich schaue gerade nach Grafikkarten und bin hin und her gerissen. also für mein Gaming reicht mir meine RX570 gerade noch so aus. Für SD sind aber AMD Karten klar im nachteil ...

Also suche ich offensichtlich nach einer RTX 30xx Karte die über einen Fullcover Wakü verfügt. Und jetzt kommts: Soweit ich das sehe ist größerer VRAM ja entscheidend für das ganze Unterfangen:
Die erste anlaufstelle RTX 3080 mit 12GB VRAM ... inkl Wasserkühlung und neue PSU: 1.447,25€
ziemlicher Brocken um ehrlich zu sein, aber dafür absolut zukunftsicher und fit für SD
Dann ist mir aber noch aufgefallen dass es auch 3060 mit 12GB VRAM gibt ... inkl. Wasserkühlung (PSU ist ausreichend): 570€ ... das ist merklich weniger als die Hälfte für gleich viel VRAM und etwas weniger als die Hälfte an Rechenpower ...
im vergleich zu meiner RX570 ist aber schon die rtx 3060 so viel besser dass ich mir eigentlich keine Sorgen mache was meine anderen Ansprüche angeht.

Hat jemand ne Ahnung wie viel Vorteil mir die 3080 in Stable Diffusion wirklich bringt gegenüber der 3060 (jeweils mit 12GB RAM)

Gruß
Pyrukar

Text to Picture AIs

Fleet Admiral

Commodore

Lt. Commander

Lt. Commander

Commodore

Lieutenant

Commodore

Lieutenant

Commodore

Higitus figitus zumbakazing.

Commodore

Higitus figitus zumbakazing.

Commodore

Fleet Admiral

Lt. Commander

Lt. Commander

Anhänge

Lt. Commander

Commodore

Lt. Commander

Commodore

Ähnliche Themen