Text to Picture AIs

Status
Für weitere Antworten geschlossen.
deshalb nutze ich ja derzeit die cpu :) das funktioniert schon, wenn man etwas zeit mitbringt :)
 
Pyrukar schrieb:
na ja meine rx570 hat zwar auch 8gb vram, aber ist warscheinlich schlicht zu alt um noch ordentlich unterstützt zu werden. ich halte mal nach einer 3080 12gb ausschau sobald die 4000er serie verfügbar ist :) ich glaube nicht das sich der Aufpreis zu einer 3090 wirklich lohnt (ja ich weis dass die deutlich mehr VRAM hat) aber ich will das hier als hobby und nicht beruflich :D
Ich bin grade am Schauen nach einer Grafikkarte für einen Freund, dessen Karte ne schrottige 2GB GT710 ist, damit er auch offline arbeiten kann. Meine aktuelle Vermutung ist, dass der RAM erstmal wichtiger ist, wenn man insgesamt nicht so viel investieren möchte oder kann (bis 500).

Hier noch ein Bild zu Rechenzeiten:
https://i.ibb.co/yd7SZ32/chartthin.png

Ich selbst bin NOCH ich in einer sehr intensiven Erkundungsphase gepaart mit einer riesigen Begeisterung und sehe schon kommen, dass ich die 24GB 3090 ins Auge fassen werde oder etwas vergleichbares der 4xxx Serie - und zwar nur für das "Hobby". Das ist schließlich - gelinde gesagt - das krasseste was ich seit langem erleben durfte und was mich voll in seinen Bann gezogen hat :cool_alt:
 
Zuletzt bearbeitet:
Jo, RAM kann man nie genug haben :)
 
gabs da nicht mal technologien (AMD hat angefangen, aber Nvidea nachgezogen) dass die Grafikkarte auch auf den normalen RAM zugreifen kann? Ich meine 32 oder sogar 64 GB RAM auf dem Motherboard ist jetzt nix absolut besonderes mehr, aber selbst eine 3080 gibts in einer 10GB Variante ... das sind ja auch "nur" nur 2gb bzw. 25% mehr :)
 
@madmax2010, hast du mit stable deffusion gute Ergebnisse hinbekommen? Wir haben das mal kurz getestet, auch das Webfrontend installiert, aber zumindest mit Standardsettings waren die Ergebnisse nicht so schön, nicht zu vergleichen mit den Bildern auf dem Github Repo. Vielleicht ist aber auch die Grafikkarte zu klein.
 
@jb_alvarado hat vermutlich nix mit deiner Grafikkarte zu tun, eher mit den Wörtern, die du eingibst oder an der Auflösung ( fang am besten mit 512x512 an da die KI damit trainiert wurde). ich rendere gerade mit CPU und bekomme recht gute ergebnisse :) dauert eben nur ewig :) Beispielsweise:
young_elven_male__wearing_noble_robes_and_cloak_st_b6f5177d_GFPGANv1.3.png

Propt:
young elven male, wearing noble robes and cloak standing on the street of an elven city build. middle earth, lord of the rings, long straight hair, full shot, Cinematic, Beautiful Lighting
Seed: 570305
 
Ok, muss ich noch mal testen. Mein String war in etwa so: "booted cat sits on cactus and drinks tea", muss vielleicht noch länger sein :-). Dein Beispiel hat sehr gut geklappt! CPU und warten finde ich auch ok, als ich noch mit 3D zutun hatte mussten wir macnhmal Stunden auf ein Bild warten...
 
@jb_alvarado versuch mal mit Art Styles zu arbeiten :) ich habe eine UI die welche zur auswahl gibt. Oftmals mache ich es so, dass ich ein erstes Bild als digital Art rendere und dann Image2Image zu einem näher an Fotorealismus liegenden bild :) du kannst oftmals mit recht wenig änderungen im Bild den Artstyle recht stark ändern und soweit ich das bisher gesehen habe ist Fotorealismus von beginn an nicht die beste idee. da kommen leichter mal merkwürdige Gliedmaßen o.ä. heraus. ähnliches gilt soweit ich das sehe durchaus auf für posen wie sitzen oder liegen :( Stehen oder gar nicht die Position im Prompt funktioniert idR recht gut. aber ich beschäftige mich damit auch erst seit wenigen Tagen (wie aus dem Thema ersichtlich ist)
 
  • Gefällt mir
Reaktionen: jb_alvarado
Das Gesicht sieht aber ziemlich blurry aus. 🤔
Würde mal "detailed face", " hyper detailed", "4k" oder "8k" hinzufügen. Scheint zumindest in Midjourney sehr gut zu funktionieren.
 
@Der Kabelbinder ja klar das funktioniert auch bei Stable diffusion so, jedoch brauchts dann für ein sinnvollen durchlauf gleich mal 50+ zwischenschritte und auf der CPU gerendert bedeutet das, dass es ewig dauert ... das bild ist mit nur 25 zwischenschritten entstanden :) aber wenn man das wirklich mag dann kann man ja nochmal den Seed nehmen und eben dafür diese Zwischenschritte investieren und die Prompts erweitern.
 
Hab noch nicht sonderlich viel Erfahrung mit SD. Aber nach dem, was ich gestern probiert habe, skaliert die CPU-Rendering-Zeit in erster Linie mit den Steps, der Cfg Scale und der Auflösung natürlich. Mit steigenden Prompts lief er mir relativ gleichbleibend. Dauert bei den Stock Settings immer so rund 2 min. mit meinem 5800X.

Werde heute mal versuchen, das Web UI mit meiner 6900 XT ans laufen zu bringen. Unter der Prämisse, dass mir die Treiber nicht dazwischen funken ... AMD hat wohl Probleme mit den Dependencies unter Debian/Ubuntu. 🙇

Als Orientierungshilfe für die Prompts nutze ich https://promptomania.com/stable-diffusion-prompt-builder/. Die Art Styles wollte er bei mir aber noch nicht so wirklich umsetzen. Meine anderen prompts waren aber auch schon relativ spezifisch, sodass er vermutlich zu wenig Schnittmengen bei den Quelldaten im Netzwerk finden konnte.

In Midjourney habe ich gute Erfahrungen mit "optane look" und "unreal engine". Das sind so Trigger, mit denen man sehr polierte Renderings bekommen kann.
 
@Der Kabelbinder ich hab das bild jetzt nochmal gerendert mit einigen der dir vorgeschlagenen Prompts :) ich finde es eigentlich ganz gut, aber ich glaube das glatte gesicht gehört für ihn zum Elf/Elb einfach dazu und ich würde ihm zustimmen :) die Herr der Ringe Elfen hatten auch alle derart glatte Gesichter. Außerdem habe ich eben immer noch "nur 25 steps" gemacht :D zumal der Hintergrund jetzt auch wirklich so aussieht wie ich mir das im Herr der Ringe vorgestellt hätte :)


hyper_realistic_detailed_face_8k_young_elven_male__7e61d63a_GFPGANv1.3.png


prompt:
hyper realistic detailed face 8k young elven male, wearing noble robes and cloak standing on the street of an elven city build. middle earth, lord of the rings, long straight hair, full shot, Cinematic, Beautiful Lighting

Seed: 570306
 
Die Ergebnisse hängen auch stark am Sampler und den steps:



IMG_20220927_181616.jpg
 
  • Gefällt mir
Reaktionen: Der Kabelbinder und jb_alvarado
Pyrukar schrieb:
Okay und gibt es auch welche die wie gewünscht in die Kategorie "ohne Anmeldung" fallen.
Ich habe Stable Diffusion(lokal) und Dall-E-2 getest, bin aber bei Midjourney hängen geblieben - liefert für mich die besten Ergebnisse.

Registrierung fand ich nicht tragisch, da man ja eh nur dem Midjourney Channel joint bzw sich den Bot in den eigenen Channel einladen kann.

Grosser Vorteil von Stable Diffusion ist natürlich, dass es kostenlos ist. Midjourney gibt es in der 10$ und 30$ Variante.
Prompt: vending machine with biological structures in plastic bags, cyberpunk, cinematic, 8k, 3d, unreal engine, hyper realistic, ultra detailed, atmospheric, octane render, Fibonacci grid layout
pain_o_matic_vending_machine_with_biological_structures_in_plas_16b25433-02e0-44ee-acf8-36cabc...png
Prompt: jellyfish in matrix, stopped in time, atmospheric, ominous, eerie, cinematic, Epic, 8k, 4k, ultra detail, ultra realistic, 85mm lens
pain_o_matic_jellyfish_in_matrix_stopped_in_time_atmospheric_om_c90fa3a8-ac40-4bdd-b9a7-917ccb...png

Nutze dann noch Gigapixel AI zum hochskalieren.
 
  • Gefällt mir
Reaktionen: jb_alvarado und madmax2010
Generell vll noch eine Online-Version verwenden, bis die Basis zu 80% oder so stimmt und ab da dann in den längeren Prozess img2img am eigenen PC, wenn man dort hardwarebedingt aktuell noch so lange Wartezeiten hat? So kann man den Ausschuss erstmal aussortieren und schneller probieren und lernen. Sobald der Rechner es aber über die Grafikkarte schafft ist das natürlich generell zu bevorzugen ;) Mein bester Freund macht richtig geile Sachen, noch vollkommen ohne eigenen Rechner dafür zu benutzen, einfach durch extrem artikulierte Prompt-Arbeit und viel Probieren.
Pyrukar schrieb:
@Der Kabelbinder ich hab das bild jetzt nochmal gerendert mit einigen der dir vorgeschlagenen Prompts :) ich finde es eigentlich ganz gut, aber ich glaube das glatte gesicht gehört für ihn zum Elf/Elb einfach dazu und ich würde ihm zustimmen :) die Herr der Ringe Elfen hatten auch alle derart glatte Gesichter. Außerdem habe ich eben immer noch "nur 25 steps" gemacht :D zumal der Hintergrund jetzt auch wirklich so aussieht wie ich mir das im Herr der Ringe vorgestellt hätte :)


Anhang anzeigen 1264470

prompt:
hyper realistic detailed face 8k young elven male, wearing noble robes and cloak standing on the street of an elven city build. middle earth, lord of the rings, long straight hair, full shot, Cinematic, Beautiful Lighting

Seed: 570306
Ja schon nicht schlecht, insbesondere für die wenigen steps erst recht ! Allerdings wirkt der Hintergrund etwas wie eine Leinwand, vor der er steht. Das liegt auch viel an der Beleuchtung. Ich hab das mal als Basis genommen, testweise ;) aber dieses Problem hab ich nicht rausbekommen aus dem Bild rein mit img2img und ohne inpainting. Siehe Beispiel-Grid. Allerdings fehlt es mir auch noch an Erfahrung und wissen, die Beleuchtung anzupassen, der Charakter ist ja immer "backlit" wie man sagt, das heißt, man könnte jetzt vll versuchen die Sonne da auch noch mehr an den Himmel zu backen, aber irgendwie, dieser Leinwand-Schleier müsste man auch noch angehen, geht evtl auch mit den richtigen Worten bzw auch negativ-Prompts.

Hab dann mit wenigen klicks auch noch einen young-male-elf produziert, siehe Beispiel 2. Da wären noch ein paar Details zu machen, wo ich aber nicht genau weiß, wie am besten Rangehen: Der Bereich von der rechten Ohrenspitze bis zum Nacken. Also ggf. das Grüne hinter seinem Kopf weg. Und an der Stelle glaub ich, man ist schneller, wenn man Photoshop oder was ähnliches benutzt das wegschnibbelt und Himmel reinkopiert und dann nochmal drüber rechnen lässt (ggf mit inpaint) oder mit dem gleichen Prompt über alles, dass es perfekt eingepasst wird. Denn ich weiß nicht, wie ich bspw. genau einfach nur Himmel an die Stelle bekomme und der Teil sich perfekt dem Rest des Bildes anpasst an den Übergängen rein durch Inpainting. Ein UI, das Ausschneiden und Kopieren kann (auch aus einem 2. Bild) wäre Top, habe sowas auch schon gesehen, aber Automatic hat es mal noch nicht drin.
 

Anhänge

  • grid-0270.png
    grid-0270.png
    1,9 MB · Aufrufe: 118
  • 01223-4192835310-young male ((elf)) wearing a cloak and ornaments standing in front an epic mo...png
    01223-4192835310-young male ((elf)) wearing a cloak and ornaments standing in front an epic mo...png
    382,7 KB · Aufrufe: 119
Hier mal der Prompt mit Midjourney - dort gibt es zur Zeit mehrere Modele:
Hier einmal MJ3 und Bild hochskaliert:
pain_o_matic_hyper_realistic_detailed_face_8k_young_elven_male__18c5bcbd-384a-42a5-88db-172d20...pngpain_o_matic_hyper_realistic_detailed_face_8k_young_elven_male__7ac39054-1bcf-4748-aff6-59bea4...png
Dann Bild4 mit dem Modus --test --creative --upbeta bzw gibt es die Funktion ein hochskaliertes Bild zuremastern
pain_o_matic_hyper_realistic_detailed_face_8k_young_elven_male__ccace7a0-df18-4565-9c8b-e46392...png
Und einmal der Prompt mit der Endung --testp, was es mehr nach Foto aussehen lassen soll
pain_o_matic_hyper_realistic_detailed_face_8k_young_elven_male__d7ce0822-cbb2-46e9-bee7-ec29ab...png
 
Zuletzt bearbeitet:
ja midjurney ist schon ganz cool, andererseits gibts glaube ich erst ab 30€ unbegrenzt wiederholungen ... und 30€ finde ich schon ne ganze stange Geld da geb ich lieber 200-300€ mehr für eine stärkere GPU aus und kann die auch für andere Sachen gut nutzen. Eine neue wäre sowieso bei mir inzwischen fällig, und ich hätte diesmal sowieso zur kleinsten mit Fullcover Wakü gegriffen ... das sind idR 3070 und konsorten dann ist der Weg zur 3080 auch nicht mehr so gewaltig

außerdem bin ich großer freund von Open Source Projekten und das gibts eben bei Stable diffussion :)
 
  • Gefällt mir
Reaktionen: painomatic und MechanimaL
Ich dachte auch zuerst, ich brauche Midjourney und habe mich schon bei meiner Bank nach einer Kreditkarte erkundigt, nur damit ich es bezahlen kann :D Aber von dem Gedanken habe ich mich mittlerweile entfernt.

MJ ist auf jedenfall für den Gelegenheitsnutzer viel besser, da man mit wesentlich weniger Aufwand direkt eine Fülle atemberaubender Bilder erstellen kann. Wahrscheinlich, weil ein großes Maß an Optimierung und Promptbereicherung automatisiert anhand der eingegebenen Begriff erfolgt.

Versteht mich nicht falsch, ich habe ein paar selbst erstellte Bilder von MJ gesehen, wegen derer ich mir noch einen Account machen muss, um sie runterzuladen, hochzusaklieren und mir an die Wand hängen zu können..

Bei SD muss man schon sehr viel mehr selbst an Überlegung und Prompt Gestaltung anstellen, um dort hin zu kommen. Das sehe ich aber nicht unbedingt als Nachteil an, sondern man muss sich viel mehr mit der Materie auseinandersetzen, kann dann aber auch letzten Endes viel genauer selbst einwirken und auch das Zusammenspiel zwischen der eigenen Fantasie und der der AI regulieren. Auch die Möglichkeit, das Model selbst zu wählen, eigenes Training mit z.B selbst erstellten Charakteren zu betreiben usw usf :)

Die Möglichkeiten img2img zu verwenden, inpainting usw. sind bei MJ garnicht erst gegeben oder? Dafür hat man auf Anhieb geile Ergebnisse. Bei SD kann ich diese aber viel gezielter auswählen, weiterentwickeln mit inpaint bestimmte bereiche erneuern den Rest erhalten usw..

Diese Möglichkeiten, sowie alle Parameter im Prozess selbst steuern zu können, sehe ich als Riesen Vorteil. Es ist wie ein wenig wie MAC vs Linux ^^ Letztlich hat man größere Freiheiten, keine Kosten, unzensierte offline Nutzung usw. und täglich entwickeln sich das Verständnis und die Möglichkeiten der Nutzung weiter, anhand des offenen Codes und der stetig wachsenden Community.

Recht gelungener Einsteiger Guide: https://www.reddit.com/r/StableDiffusion/comments/x41n87/how_to_get_images_that_dont_suck_a/
 
Zuletzt bearbeitet:
hallo zusammen, EDIT: Ich hab mir vorhin eine 3060 12GB bestellt ... ergo Thema erledigt :)

ich schaue gerade nach Grafikkarten und bin hin und her gerissen. also für mein Gaming reicht mir meine RX570 gerade noch so aus. Für SD sind aber AMD Karten klar im nachteil ...

Also suche ich offensichtlich nach einer RTX 30xx Karte die über einen Fullcover Wakü verfügt. Und jetzt kommts: Soweit ich das sehe ist größerer VRAM ja entscheidend für das ganze Unterfangen:
Die erste anlaufstelle RTX 3080 mit 12GB VRAM ... inkl Wasserkühlung und neue PSU: 1.447,25€
ziemlicher Brocken um ehrlich zu sein, aber dafür absolut zukunftsicher und fit für SD
Dann ist mir aber noch aufgefallen dass es auch 3060 mit 12GB VRAM gibt ... inkl. Wasserkühlung (PSU ist ausreichend): 570€ ... das ist merklich weniger als die Hälfte für gleich viel VRAM und etwas weniger als die Hälfte an Rechenpower ...
im vergleich zu meiner RX570 ist aber schon die rtx 3060 so viel besser dass ich mir eigentlich keine Sorgen mache was meine anderen Ansprüche angeht.

Hat jemand ne Ahnung wie viel Vorteil mir die 3080 in Stable Diffusion wirklich bringt gegenüber der 3060 (jeweils mit 12GB RAM)

Gruß
Pyrukar
 
Zuletzt bearbeitet:
Status
Für weitere Antworten geschlossen.
Zurück
Oben