[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

Hier nen ganz cooles MakingOf Video und nen Tutorial, wie man selbst solche Videos erstellen kann:

 
  • Gefällt mir
Reaktionen: jb_alvarado und MechanimaL
Der Kabelbinder schrieb:
Hat Midjourney bzw. Stable Diffusion mittlerweile eigentlich mal die Probleme mit den Händen und insbesondere Fingern halbwegs in den Griff bekommen? Das schien mir bisher immer eine schwerwiegende Baustelle zu sein.

Das ist seit v4 in Midjourney um einiges besser geworden und mit negative prompts kann man da auch viel rausholen.
 
  • Gefällt mir
Reaktionen: Der Kabelbinder
@Der Kabelbinder Auch bei SD sind bei Verwendung guter Models (die entsprechend realistische Personen erzeugen) in der Summe seltener Fehler in dem Bereich zu sehen, auch wenn es eine der Hauptfehlerquellen bleibt- insgesamt betrachtet. Bspw. zuviele Finger, aber es ist kein existenzielles Problem und lässt sich idR schnell beheben.

Es gibt außerdem noch die Möglichkeit, das ganze selbst in die Hand zu nehmen und zwar ist eine aktuelle Entwicklung in der SD-Szene, die Verwendung von "Controlnet" und 3D Modelling Tools (Blender u.ä.).

Für das im Eingangspost verlinkte WebUI A1111 finden sich entsprechende Extensions, um alles oder vieles davon direkt im UI umzusetzen.

Die User verwenden Controlnet, was es - grob gesagt - erlaubt eine Art Schablone eines Bildes zu erkennen, bspw. eine Körperhaltung (oder Handhaltung) und auf diesem Gerüst ein Bild zu erzeugen. (Beispiel) Sehr witzig, um bspw. bekannte Memes anzupassen ;-)

Für OpenPose gibt es außerdem eine A1111 Erweiterung und hier wird gezeigt, wie man mit OpenPose Modellen verschiedene Charakterposen erzeugt.

Hier wird mit Blender und einem (Multi)-Controlnet Plugin gearbeitet um Pose und bestimmte Handformen zu erschaffen.

edit: Noch ein Tutorial für die Verwendung von Controlnet, (<- könnte aber outdated sein, was die Installation angeht, die ist relativ einfach hier auf der Seite der Extension für A1111 beschrieben)
edit2: weiteres Tutorial

Installation von Controlnet in A1111: Einfach über Extensions-Tab und die Models (es gibt kleinere im Safetensor-Format) in den entsprechenden Ordner kopieren.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Der Kabelbinder und painomatic
@MechanimaL Interessante Entwicklungen! :)

Habe gestern nach längerer Zeit noch mal SD aufgesetzt. Dieses Mal unter Windows. Erst mit cmdr2 / stable-diffusion-ui und dabei direkt festgestellt, dass AMD immer noch problematisch ist. Dann mit lshqqytiger / stable-diffusion-webui-directml, womit ich die 6900XT endlich zum Laufen bekommen habe.

Habe jedenfalls ein konkretes Anliegen. Und zwar will ich einen Crop einer Fotografie von Giambolognas Merkur, eine Bronze von 1565, digital "restaurieren" oder besser gesagt halbwegs originalgetreu hochskalieren. Das Original ist ziemlich noisy und unscharf:

hand_512px.png

Giovanni da Bologna: Hand des fliegenden Merkur, Bronze, um 1565
(Bildquelle: syndrome-de-stendhal.blogspot.com)


Habe mich mal einige Stunden mit Img2Img und folgenden Settings probiert:

- Modell 1: stabilityai/stable-diffusion-2-1-base mit 512px
- Modell 2: stabilityai/stable-diffusion-2-1 mit 768px
- Sampling: Euler a
- Auflösung: 512px (bei 768px läuft sofort der VRAM der 6900XT voll, RuntimeError - ist das auch bei den größeren NVIDIA-Karten so?)
- CFG Scale: 7 bis 9
- Denoising strength: 0,28 bis 0,33

Mit letzteren beiden kann ich SD dazu bringen, sich weitgehend an das Original zu halten und lediglich die Texturen nachzuarbeiten. Hier mal ein Beispiel:

00001-1991221140.png


Prompt:
naturalistic hand sculpture, hand sculpture made of bronze, hyper detailed, photo, high-res, hyper detailed, sharp image, by giovanni da bologna, by giambologna
Negative prompt:
blurry image, disfigured, bad anatomy, illustration, 3d, out of focus
Model: v2-1_512-ema-pruned; Sampler: Euler a; Seed: 1991221140

Die plastisch-strukturelle Nacharbeitung funtioniert damit schon ganz gut. Allerdings habe ich unter diesen Bedingungen bisher kein Sample erzeugen können, welches wirklich knackscharf ist.

Ich könnte zwar die Denoising-Schraube lockern und auf bspw. 0,4 oder 0,5 erhöhen. Dann fängt er allerdings an, auch die Form und Stellung der Finger zu ändern und teilweise extrem zu verzerren. Ich vermute, dass er da mit dem vorgegebenen Quellbild und den vorgegebenen Prompts zu wenig gemeinsame Nenner in seiner Datenbank finden kann und deshalb alle möglichen (oft unsinnigen) Pfade einschlägt.

Zuvor hatte ich noch mit dem Web-UI von CMDR2 experimentiert, welches allerdings CPU-only lief. Dort habe ich mit dem Modell 1.4 allerdings Folgendes erzeugen können:

1.png


Prompt:
hand, made_of_bronze, detailed
Negative prompt:
disfigured
Model: sd-v1-4, Sampler: DDIM; Seed: 3858867; Prompt Strength: 0.5; Guidance Scale: 42; Upscale: RealESRGAN_x4plus

Das Beispiel war zwar stilistisch etwas abstrakter, totz gerade mal 25 Steps aber schon mal deutlich schärfer und konturierter. Den manieristischen Stil Giambolognas bekommt man (zumindest näherungsweise) mit einem anderen Seed und etwas spezifischeren Prompts sicherlich auch noch hin.

Ich frage mich allerdings, warum das Web-UI von lshqqytiger mit DirectML (auf AMD angepasster Fork auf Basis von Automatic1111) das nicht auch so hinbekommt. Das ist nämlich merklich unschärfer. Da kann auch das Upscaling nicht viel dran ändern.
Vielleicht muss ich wirklich das Denoising doch noch mal etwas erhöhen und die Prompts überarbeiten. Vielleicht gelingt ja es ja auch mit weniger komplexen Prompts.
Oder liegt das tatsächlich am älteren Stable Modell 1.4, welches größere Schnittmengen zu diesem Bildbeispiel aufweist? 🤔

Irgendwelche Ideen?

tHE_nICKEL schrieb:
mit negative prompts kann man da auch viel rausholen
Hast du da ein paar Beispiele, die vllt. auch mit SD funktionieren? :)
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: IceKillFX57
@painomatic
Danke, schau ich mir mal an!

Ich habe schon diverse ESRGAN-Modelle als Upscaler probiert. Die können allerdings nicht viel machen, außer Konturen schärfen und Flächen zu entrauschen. Alles, was an Details und Struktur fehlt, können die allerdings kaum rekonstruieren. Dafür braucht es denke ich Prompting.
 
@Der Kabelbinder Also zum Einen spielt das verwendete Model eine ernorme Rolle beim Output von daher, wenn du da mit dem 1.4er bessere Ergebnisse hattest, würde ich es auch nur damit vergleichen. Allerdings hab ich jetzt seit Ewigkeiten kein SD1.4 oder 2.1 verwendet, sondern stattdessen immer andere Models (variierend ob es Foto realistisch oder xy anderes sein soll).

Eigentlich schreit Dein Vorhaben doch förmlich danach, einmal Controlnet zu probieren: Damit könntest Du die Form 1:1 erhalten, aber frei bzgl. Oberfläche experimentieren :) PS: Habe oben noch ein weiteres Video dazu verlinkt.

Leider fehlt mir heute die Zeit (und morgen), aber vll am Sonntag, wollte ich eh mal Controlnet ausprobieren.. Die Hand-Haltung ist eben nicht gerade sehr natürlich :D und, wie Du richtig erkannt hast, mit höherem Denoising verlierst Du die Form (siehe Beispiele :D ). Model: deliberate_v11 war nur ein kurzer Test, aber Bronze Oberfläche scheint es zu beherrschen :)

photograph of a hand of a bronze statue , sharp focus
Negative prompt: bokeh, depth of field
Steps: 40, Sampler: DPM++ 2M Karras, CFG scale: 9, Seed: 4023923278, Size: 512x512, Model hash: d8691b4d16, Denoising strength: 0.6, Mask blur: 4
 

Anhänge

  • grid-0246.png
    grid-0246.png
    736,1 KB · Aufrufe: 97
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Der Kabelbinder und painomatic
Strategiewechsel:
  • CFG Scale auf 30
  • Denoising auf 0,45
  • weitere Eingrenzung und Feintuning insbesondere per negative prompts
00005-3254675955.png


Prompt:
hand sculpture, young, naturalistic, photo, patina, smooth, soft, high-res, 4k, high detail, bronze by giovanni da bologna, by giambologna
Negative prompt:
weird, skewed, twisted, weird fingers, disfigured, deformed, kitsch, ugly, oversaturated, grain, low-res, Deformed, blurry, bad anatomy, disfigured, poorly drawn face, mutation, mutated, extra limb, ugly, poorly drawn hands, missing limb, blurry, floating limbs, disconnected limbs, malformed hands, blur, out of focus, long neck, long body, ugly, disgusting, poorly drawn, childish, mutilated, mangled, surreal, bad anatomy, robot, robotic, futuristic, artifacts, compression, aged, old, veiny
Model: v2-1_512-ema-pruned, Sampler: Euler a; Seed: 3254675955

Mit dem höheren Denoising geben ich SD mehr Spielraum, ein schärferes Bild mit mehr Details zu generieren. Durch die vielen Negativprompts sorge ich dafür, dass er den Kurs beibehält und ungewünschte Merkmale weniger in Erwägung zieht. Gleichzeitig sorgt auch die hohe CFG Scale dafür, dass die Prompts stark gewichtet werden und das Programm nicht zuu kreativ wird.

Auf den Weg mit den Negativprompts bin ich noch mal durch dieses Video hier aufmerksam geworden:


Offenbar scheint SD sehr gut mit Negativen zu skalieren.
Mit den prompts gibt man die groben Parameter vor. Mit den Negativen entfernt man dann selektiv Elemente, die nicht oder weniger stark abgebildet werden sollen.

An Modellen habe ich jetzt auch mal die v1.4 und v1.5 runtergeladen. Die sind definitiv noch mal anders. Ob sie wirklich besser sind, kann ich allerdings noch nicht wirklich sagen.

Das Ergebnis gefällt mir soweit aber schon mal ganz gut. Ich glaube, ich verstehe so langsam, wie man sein Bild zielgerichtet gestalten kann. :)

Wenn ich die Denoising strength weiter erhöhe, dann darf er noch weiter vom unscharfen Original abweichen und fügt noch mer Details und Schärfe hinzu. Allerdings wird es dann auch zunehmend schwierig, die Komposition einzuhalten. Er ändert dann viel häufiger die Stellung der Finger bzw. der gesamten Hand und lässt alles ineinander verschmelzen.
Als Mittelweg könnte ich auch die Ergebnisse aus dem letzten Post mit den eher konservativen Werten neu in Img2Img einspeisen und dann Schrittweise den Detailgrad verbessern. Das ginge sicherlich auch. Denn man merkt auf jeden Fall, dass SD wirklich zu kämpfen hat, wenn der Input uneindeutig (zu unscharf oder kompositorisch zu diffus) ist. Mit dem unscharfen Quellbild kann auch der Upscaler nur wenig anfangen.

@painomatic
Waifu2x habe ich auch mal ausprobiert. Das scheint aber die gleichen Probleme wie der WebUI-Upscaler zu haben. Im Quellbild sind einfach zu wenig Informationen enthalten. Die muss ich einfach per Prompts rekonstruieren.

@MechanimaL
Welche Modelle verwendest du denn an Stelle der von Hugging Face?
 
Zuletzt bearbeitet:
bzgl. Models, schau mal auf https://civitai.com/, allerdings viele mit Anime und Nackedei (letztere sind oft aber auch gut für realistische Portrait Fotografie). Aber auch gute allgemeine für Fotorealismus, Allrounder usw.

neverendingDreamNED_bakedVae.safetensors
liberty_main.safetensors
realisticVisionV13_v13VAEIncluded.safetensors
deliberate_v11.safetensors

sind zb welche mit denen wir schon gute Ergebnisse erzielt haben :) (sind die dateinamen, model name steckt da am anfang drin)
 
Uiii, harter Tobak. Da muss ich ja aufpassen, dass dem Merkur keine Hupen wachsen. 😂
Aber das lässt sich mit einem Negativprompt ja schnell beheben.

Aber schon krass, wie aktiv diese Community zu sein scheint.
 
Der Kabelbinder schrieb:
Uiii, harter Tobak. Da muss ich ja aufpassen, dass dem Merkur keine Hupen wachsen. 😂
Wohl wahr 😅
Noch bzgl. der Auflösung, bei 768 hatte ich noch keine Probleme bzgl. RAM, aber so ab ~1200 fangen diese an.

/update: Jetzt ist mein privater Termin ausgefallen.. von daher hab ich jetzt Controlnet installiert (und oben Hinweise dazu unter A1111 ergänzt). Mache ich auch noch in die Anfangspost-Link-Liste.

Beispiele, wie ein paar der Modelle von Controlnet arbeiten finden sich hier.


Ein erster Versuch :) im Fokus ist es nicht komplett, aber die Form schon recht ordentlich abgebildet. Muss mich noch näher damit befassen..
photograph of a hand of a bronze statue , sharp focus, highly detailed
Negative prompt: bokeh, depth of field, blurry, out of focus
Steps: 35, Sampler: DPM++ 2M, CFG scale: 10, Seed: 2377744302, Size: 512x512, Model hash: d8691b4d16, Denoising strength: 0.75, Mask blur: 4, ControlNet Enabled: True, ControlNet Module: normal_map, ControlNet Model: control_normal-fp16 [63f96f7c], ControlNet Weight: 1, ControlNet Guidance Start: 0, ControlNet Guidance End: 1
 

Anhänge

  • 01534-2377744302-photograph of a hand of a bronze statue , sharp focus, highly detailed.png
    01534-2377744302-photograph of a hand of a bronze statue , sharp focus, highly detailed.png
    231,9 KB · Aufrufe: 103
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Der Kabelbinder
Sieht gut aus!
Das wäre dann Deliberate + ControlNet?

Hab gestern mal ein paar Models von der Seite ausprobiert. Er hat dann auch sofort versucht, eine weibliche Büste draus zu machen. 😂
Ließ sich aber mit Negativprompts schnell eingrenzen.
Die Ergebnisse sind schon etwas fotorealistischer. Muss da aber noch ein wenig an den Stellschrauben drehen, um einen schönen Bronze-Look mit Patina zu bekommen.

ControlNet werde ich mir mal anschauen. 👍

By the way: Was hälst du eigentlich von Euler a?
Hast bei dir ja immer DPM ausgewählt.

Edit:

Hab inzwischen mal ein wenig mit ControlNet rumgespielt. Irgendwie will das Tool bei meiner Installation mit DirectML (hab ja ne AMD-Karte) aber noch nicht so richtig funktionieren. Leider schaffen es nur Canny und Scribble, die Konturen des Quellbildes zu erkennen. Und das gar nicht mal so gut, weil das Bild nun mal recht verschwommen ist. Bei den anderen Modelle (Depth, HED, MLSD, etc.) bekomme ich entweder Fehlermeldungen oder die Erkennung des Bildes gibt nur Mist aus. Ist ja auch noch ein relativ früher Eintwicklungsstand. Anyway. Mit Canny oder Scribble müsste ich jetzt also das Ganze manuell nachzeichnen oder die Konturen in Photoshop händisch hervorheben.

Weil mein Automatic1111 mit DirectML unter AMD davon unabhängig immer noch ziemlich lahm läuft, habe ich jetzt einfach mal Shark von nod.ai installiert. Damit komme ich immerhin auf bis zu 4 it/s, anstatt nur um die 1,3 it/s mit DirectML. Das Web-UI von Shark hat noch nicht ansatzweise so viele Features, soll aber stetig wachsen und bald womöglich auch ControlNet bekommen.

Nach etwas Basteln habe ich nun Folgendes hinbekommen:

hand_sculpture__896577748_230305_015040.png
hand_sculpture__3173750568_230305_022208.png

"VARIANT": "stabilityai/stable-diffusion-2-1",
"SCHEDULER": "EulerAncestralDiscrete",
"PROMPT": "hand sculpture, bronze, detailed, giambolgona style",
"NEG_PROMPT": "blur, deformed, blurry, out of focus, fantasy, unnatural, devellish, cruel, uncanny",
"SEED": 472668575,
"CFG_SCALE": 20,
"DENOISING_STRENGTH": 0.45,
"STEPS": 45

Die Denoising Strength darf ich weiterhin nicht zu hoch setzen, sonst weicht er völlig von der Form und Stellung der Hand ab. Die CFG-Scale darf auch nicht zu niedrig sein, weil er sich dann zu stark an die Bildvorlage hält, die nun mal zu unscharf ist. Je höher die CFG-Scale, desto höher die Schärfe. Gleichzeitig wird aber auch der durch die Prompts vorgegebene Stil stärker hervorgehoben.

Bin mir dem Ergebnis bis hier hin aber erst mal ganz zufrieden. Das ist angesicht aller Parameter ein gangbarer Mittelweg. Von 20 Bildern sind jetzt immer grob zwei-drei Stück dabei, die in der obigen Güte/Qualität sind.

Ich kann im Übrigen nur die Relevanz der Negativprompts bei den Stable-Modellen in der Version 2.* hervorheben. Die derzeitigen Datensätze wurden wohl so trainiert, dass man das Bild insbesondere per Ausschlussverfahren steuert. Die Begriffe muss man dabei auch wirklich sehr sorgfältig wählen. Wenn man zu allgemein herangeht, dann schließt der Algorithmus zu viele Daten aus. Ich lasse mir jetzt immer eine Bilderserie generieren und versuchte dann möglichst trennscharfe Begriffe für das zu finden, was er unerwünschterweise hinzumischt. Zum Beispiel "devellish" und "cruel", wenn er so diabolische Elemente wie lange Fingernägel hinzumischt. Mit dieser Strategie habe ich unterm Strich auch die bessere Auflösung und Schärfe hinbekommen. Mit guten Prompts kann ich ihm nämlich etwas mehr Spielraum bei der CFG-Scale und der Denoising Strength (beide erhöhen) lassen.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: painomatic und MechanimaL
Cool! Da hast Du ja nicht nur ein ordentliches Ergebnis sondern auch einen großen Erfahrungsgewinn erzeugt :) Danke für das Teilen Deiner Erkenntnisse!

CFG 20 ist schon recht hoch, aber wenn das zu dem gewünschten Ergebnis führt, dann umso besser. Ab einem bestimmten Wert wird eine hohe CFG das Bild überkontrastieren oder ähnliches.

Zu Controlnet: Ich werde da auch weiter probieren. Funktioniert haben bei mir grundsätzlich alle Models, wobei OpenPose auf dem Bild mit der Hand nix erkannt hat. Beim Test mit einer Person allerdings direkt.

Das beste Ergebnis im Fall der Hand hatte ich mit dem "Normal"- Modell gehabt. Es wurden bei mir auch bei der ersten Verwendung eines Models jeweils noch Downloads getätigt, was ich im CMD Fenster verfolgen konnte, bevor der eigentliche Prozess begann. Da wurden weitere Models geladen, die jetzt in eigenen Ordnern im Haupt "Models"-Ordner abgelegt sind. Evtl müsstest Du die händisch runterladen?

Es gibt ja auch Multi-Controlnet, das kombiniert dann mehrere Varianten, das könnte auch noch interessant sein.

Was auch bei der Bearbeitung, von Deinem jetzigen Stand interessant sein könnte - neben einfachem Inpainting von Stellen, die noch nicht perfekt sind - ist "Pix2Pix". Damit kannst Du bspw. ins Prompt schreiben, was genau verändert werden soll. Der Rest verändert sich (je nachdem) nur gerinfügig, evtl bei dem Bild, das quasi keinen Hintergrund hat, sogar garnicht. Außerdem wäre noch eine Option, wenn das eine Model die Form gut hinbekommt, dann in IMG2IMG auf ein anderes zu wechseln, um die Oberfläche anzupassen, was dann wohl auch keiner hohen Denoising Raten bedarf.

Noch zur Frage Euler A: Spricht auch nicht unbedingt was dagegen, nur dass die mit "a" gekennzeichneten Models ja "ancestral" arbeiten, dh. je nachdem wieviele Steps man verwendet, bekommt man andere Bilder. Bei anderen Models kann man ggf. mit der Stepzahl noch spielen, ohne dass sich dadurch das Motiv ändert.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Der Kabelbinder und painomatic
Nächste Phase, die Kreative. ^^

hand_512px.png
hand_sculpture__896577748_230305_015040.png
00002-3183690852.png

1.) Original
2.) letztes Ergebnis
3.) letztes Ergebnis neu eingespeist:
hand, colored tattoo, photo, natural skin
Negative prompt: blur, blurry, out of focus, devillish, evil, disfgured, extra limb, 3d, fingernails, long nails, reflections, gold, nails
Steps: 30, Sampler: DPM++ 2M Karras, CFG scale: 18, Seed: 3183690852, Size: 512x512, Model hash: 9aba26abdf, Model: deliberate_v2, Denoising strength: 0.41, Mask blur: 4

Fragt mich nicht, was da mit dem Knöchel und den Haaren auf dem Unterarm passiert ist. Aber ist schon krass, wie man mit den richtigen Parametern aus so einer Vorlage so viel rausholen kann. :)

MechanimaL schrieb:
Ab einem bestimmten Wert wird eine hohe CFG das Bild überkontrastieren oder ähnliches.
Ja, das stimmt. Aber mit einer relativ niedrigen Denoising Strength ist das zum Teil kontrollierbar.

Ich finde die Beschreibungen zu diesen beiden Parametern aber auch ziemlich abstrakt. Wenn ich es nach meiner eigenen Erfahrung zusammenfassen müsste:

CFG-Scale regelt die Ausprägung des Stils und der Elemente, die mit den Prompts vorgegeben bzw. ausgeschlossen werden. Je höher, desto intensiver die Ausarbeitung der beschriebenen Formen und Stile.

Denoising Strength hingegen erlaubt oder verbietet die formale Abweichung vom Originalbild. Je höher der Wert, desto mehr dürfen Formen und Kompositionen vom Original abweichen.

Das eine regelt hauptsächlich den Stil, das andere die Bildelemente. In der Praxis hängen aber natürlich immer beide voneinander ab.

MechanimaL schrieb:
Zu Controlnet ...
Habe eigentlich alles nach Anleitung eingerichtet. Ich vermute aber, dass der Fork für Windows mit DirectML da noch nicht ganz mit klar kommt. Bin jetzt mal wieder auf openSUSE umgestiegen, wo auch die Performance noch mal besser ist. Vielleicht läuft es da besser.

Mit meiner 6900XT erreiche ich mit Automatic1111 unter SUSE-Tumbleweed über venv installiert mit dem aktuellsten Treiber von AMD übrigens rund 6.5 it/s. Das ist sogar mehr als im Benchmark von Tomshardware (Stand 01/23).
Unter Windows 11 sind es derzeit knapp 1,3 it/s mit DirectML und rund 4 it/s mit Shark. Letzteres habe ich jetzt aber erst mal verworfen, weil es bei jedem Neustart und jedem erneuten Auswählen die Models komplett recompilen muss. Das raubt unglaublich viel Zeit. Mit Automatic1111 hingegen kann er die Files direkt lesen. Also bleibe ich erst mal bei dem Setup. Dann kann ich auch mit allen neuen Plugins experimentierten. :)

MechanimaL schrieb:
Danke, wieder was zu tun. 😅

MechanimaL schrieb:
"ancestral" arbeiten, dh. je nachdem wieviele Steps man verwendet, bekommt man andere Bilder.
Wichtiger Hinweis, danke!
Das ist beim gezielten Arbeiten tatsächlich nervig, wenn mit den Iterationen auch immer die Bilder wechseln.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: MechanimaL
SD Toolset
Elemente von SD als "Kuchen" mit Erklärung.
 
  • Gefällt mir
Reaktionen: painomatic und Der Kabelbinder
  • Gefällt mir
Reaktionen: MechanimaL
Hier einmal ne kleine Übersicht, wie sich Midjourney über die einzelnen Modelle entwickelt hat.

Prompt:
Atomic age cosmonaut, soviet red, outer space, high detail, ultra realistic, 8k, octane render, cinematic

Cyborg geisha in translucent traditionell dress, cute, teasing, full body shot

a scene from the dark scifi version of Ghost in the shell movie reimagined by wes anderson, photorealistic, influenced by the dark crystal and twin peaks and pan's labyrinth, filmed with 25mm Panavision Camera, pastel colors, high detail, 4k, bioluminescent


MJ V1
V1.pnggeisha v1.pngm v1.png

MJ V2
V2.pnggeisha v2.pngm v2.png


MJ V3
V3.pnggeisha v3.pngm v3.png

MJ V4
V4.pnggeisha v4.pngm v4.png

MJ V5
V5.pnggeisha v5.pngm v5.png

MJ NIJI (kam mit der V4, speziell für Anime)
niji.pnggeisha niji.pngm niji.png

Ich mag tatsächlich auch sehr die MJ Versionen 2 & 3 - liebe das Abstrakte und Imperfekte. Aber es ist schon erstaunlich, wie schnell sich das ganze Entwickelt.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Rickmer, kaxi-85, MechanimaL und eine weitere Person
War nur eine Frage der Zeit, bis die vielen Möglichkeiten von SD und Co in ein anwenderfreundliches/ anwendungsoptimiertes Gesamtpaket einfließen. Sieht so aus, als könnte der Zeitpunkt gekommen sein:

https://firefly.adobe.com/ (Beta Test Anmeldung möglich)

Offizielles Kurzvideo:

Weitergehende Bewertung:

(Ich persönlich gehe aber schon davon aus, dass es weiterhin gute Gründe für eine lokale Opensource Variante (wie SD) geben wird ;-) ).

Auch bei Canva gab's ein größeres AI Update:
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Der Kabelbinder
Zurück
Oben