[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

So realistisch können derartige Bilder schon sein.
Ich denke mit aktuellen Programmen geht es noch besser. Dies liegt schon ein paar Wochen zurück.
 

Anhänge

  • Eisvogel relativ gut und mit Gimp Kopf verbessert.jpg
    Eisvogel relativ gut und mit Gimp Kopf verbessert.jpg
    86,3 KB · Aufrufe: 92
  • Gefällt mir
Reaktionen: MechanimaL
@Klaus_Vielleser welches Tool hast du genutzt?

Hier mal was aus Midjourney - Prompt:

Kingfisher, cinematic color, flying over water Wildlife, 1/ 2000, f/ 5. 6, 400, Sony FE 100-400mm f/ 4. 5 - 5. 6 GM OSS, UV Filter, Sony A9 II, Eye - level. Ultra realistic, 8k

1000030439.png
 
  • Gefällt mir
Reaktionen: MechanimaL und leboef
@painomatic Das Endergebnis ist zumindest auf meinen kleinen Handybildschirm ja echt gelungen. Aber ich weiß ja, dass deine Eigenleistung bei diesem Bild nur sehr gering ist. Dementsprechend ist dieses Bild für mich wertlos. Ich kenne mehrere Fotografen, die aktiv Wildlife betreiben. Es ist ein unglaublicher Aufwand, solche Bilder zu machen. Für ihre Werke habe ich große Wertschätzung. Für AI-Prompts leider nicht.

Ist ein bisschen so wie bei Uhren: auch die 10€ Uhren zeigen die korrekte Uhrzeit an. Aber wenn man die mit einer teuren Uhr vergleicht, in der echte Ingenieurskunst und gelerntes Handwerk drinsteckt, dann ist das etwas völlig anderes.

Ich bin bei der KI-Geschichte jedenfalls wieder raus. Am Anfang war ich auch total begeistert und habe einige Bilder generiert. Aber es bedeutet mir mehr, wenn ich ein richtiges Foto auf der Strasse mache, wirklich das Fotografieren erlebe und nicht zuhause ein Textprompt bediene.
 
  • Gefällt mir
Reaktionen: painomatic
@leboef Da bin ich natürlich ganz bei dir - ich fotografiere selbst auch und habe sogar früher selbst Film und Fotos entwickelt und verstehe das auch als Handwerk - sehe AI Bildkreationen im kreativen Umfeld auch etwas kritischer. Wollte aber auch nur mal schnell nen Beispiel Bild von Midjourney reinstellen - ich nutze Midjourney zur Zeit um mir Conceptarts bzw Inspirationen für 3D Models/Renderings zuerstellen oder auch Texturen.
 
  • Gefällt mir
Reaktionen: oicfar und leboef
leboef schrieb:
Ich bin bei der KI-Geschichte jedenfalls wieder raus. Am Anfang war ich auch total begeistert und habe einige Bilder generiert. Aber es bedeutet mir mehr, wenn ich ein richtiges Foto auf der Strasse mache, wirklich das Fotografieren erlebe und nicht zuhause ein Textprompt bediene.
Ich spiele erst jetzt mit Stable Diffusion ein wenig. Ich fotografiere gerne und wollte mal schauen, was da geht. Erst mal so zu sehen, was man damit anstellen kann. Jetzt noch ein wenig in Inpaint einarbeiten. Und mal schauen, ob das was wird. Habe auch schon mal Photoshop Beta mit der neuen KI ausprobiert. Ja, es ist nett und manche Ergebnisse sind da auch ganz nett. Ob und inwieweit ich es bei meinen Fotos einsetzen werde, wird sich noch zeigen.

Und ja, Fotografie ist was anderes. ;)
 
Aus Neugierde habe ich mich auch mal am kingfischer versucht... und aus Faulheit größtenteils den Prompt von @painomatic gestohlen :D

Daher hier ein Beispiel aus Stable Diffusion:

1688137658441.png


Prompt:

Kingfisher, cinematic color, flying over water Wildlife, 1/ 2000, f/ 5. 6, 400, Sony FE 100-400mm f/ 4. 5 - 5. 6 GM OSS, UV Filter, Sony A9 II, Eye - level. Ultra realistic, 8k, <lora:add_detail:0.6>, <lora:more_details:0.3>
Negative prompt: BadDream, UnrealisticDream, (text:1.3), (copyright:1.3), Watermark,
Steps: 25, Sampler: DPM++ 2M SDE Karras, CFG scale: 7, Seed: 3293730518, Size: 1536x1024, Model hash: e1c69e89ae, Model: photo_aZovyaPhotoreal_v1Ultra full, Denoising strength: 0.4, ControlNet 0: "preprocessor: tile_resample, model: control_v11f1e_sd15_tile [a371b31b], weight: 1.2, starting/ending: (0, 1), resize mode: Crop and Resize, pixel perfect: True, control mode: Balanced, preprocessor params: (512, 1, 200)", Lora hashes: "add_detail: 7c6bad76eb54, more_details: 3b8aa1d351ef", Version: v1.4.0
 
  • Gefällt mir
Reaktionen: MechanimaL und painomatic
Die Bilder von painomatic und Rickmer sind schon sehr realitätsnah. So etwas gelang mir nur annähernd erst am Ende meiner Versuche mit verschiedenen Generatoren vor ein paar Monaten.
Womit ich das hier eingestellte Bild "malen" ließ, weiß ich gar nimmer, da ich mindestens 3 KI Maschinen testete. Könnte auch Stable Diffusion gewesen sein - sogar auf dem heimischen Rechner.
 
Zuletzt bearbeitet:
Ich bin so ein Depp...

Ich habe mir immer mal wieder Wallpaper gemacht auf Basis von diesem Openpose Template:
backward_first.png

Das Problem: Das Gesicht in der Nahansicht rechts ist oftmals in einem Gemälde oder hinter einer Wand oder sonstwie komplett losgelöst vom Rest des Körpers, das hat oft viele text2img Versuche gebraucht bis ich was brauchbares hatte.

Statt dem ganzen Aufwand hätte ich die Zeit viel besser investiert wenn ich früher auf den Trichter gekommen wäre, das Template mal zu verbessern...
backwards_first_improved.png

So wird zuverlässig ein Oberkörper generiert.

Dieses Wallepaper habe ich vorhin in unter 10 Minuten erstellt, wenn ich sonst für ein brauchbares Ergebnis eher ein bis drei Stunden einplanen konnte...

00000-2209984304.png
 
  • Gefällt mir
Reaktionen: painomatic und MechanimaL
Rickmer schrieb:
Ich habe mir immer mal wieder Wallpaper gemacht auf Basis von diesem Openpose Template:
Das kenne ich gar nicht, ist es ein KI Bilderstellungsprogramm auf dem PC oder eine Onlinesache?
Aber die Ergebnisse gefallen!
 
Klaus_Vielleser schrieb:
Das kenne ich gar nicht, ist es ein KI Bilderstellungsprogramm auf dem PC oder eine Onlinesache?
Das ist ein Template für Controlnet, was eine Erweiterung für Stable Diffusion (ich nutze die Automatic1111 Variante) ist.

Controlnet gibt verschiedene Möglichkeiten, das entstehende Bild zu steuern - in diesem Fall habe ich Openpose genutzt, welches sich besonders dafür eignet, die generelle Körperhaltung vorzugeben, ohne die äußeren Konturen zu definieren.
Deshalb nutze ich für viele Sachen lieber eine Openpose Vorlage als z.B. andere Controlnets wie Depth (Tiefen-Mapping), welches signifikanten Einfluss auf das Aussehen der entstehenden Kleidung hätte.

Damit sind dann Kleider mit frei fließendem Stoff problemlos machbar:
00035-2758149778.png


(happy:1.1) (indian:1.2) woman wearing a colorful tie-dye dress, (sari:1.1), standing on the rocky edge of the grand canyon, rocky path, late evening, moon and stars, milky way, arches national park, style-paintmagic, <lora:phoenixdressV.2:0.6> <lyco:indian:0.6>, (Extremely Detailed Oil Painting:1.2), glow effects, godrays, Hand drawn, render, 8k, octane render, cinema 4d, blender, dark, atmospheric 4k ultra detailed, cinematic sensual, Sharp focus, humorous illustration, big depth of field, Masterpiece, colors, 3d octane render, 4k, concept art, trending on artstation, hyperrealistic, Vivid colors, extremely detailed CG unity 8k wallpaper, trending on ArtStation, trending on CGSociety, Intricate, High Detail, dramatic, <lora:add_detail:0.6>, <lora:more_details:0.3>
Negative prompt: hat, sunglasses, poster on wall, Watermark, Text, censored, deformed, bad anatomy, disfigured, poorly drawn face, mutated, extra limb, ugly, poorly drawn hands, missing limb, floating limbs, disconnected limbs, disconnected head, malformed hands, long neck, mutated hands and fingers, bad hands, missing fingers, cropped, worst quality, low quality, mutation, poorly drawn, huge calf, bad hands, fused hand, missing hand, disappearing arms, disappearing thigh, disappearing calf, disappearing legs, missing fingers, fused fingers, abnormal eye proportion, Abnormal hands, abnormal legs, abnormal feet, abnormal fingers
Steps: 30, Sampler: DPM++ 2M SDE Karras, CFG scale: 7, Seed: 2758149778, Size: 3440x1440, Model hash: 073447953e, Model: 2.5D_rundiffusionFX25D_v10, Denoising strength: 0.38, ADetailer model: face_yolov8n.pt, ADetailer confidence: 0.1, ADetailer mask max ratio: 0.03, ADetailer dilate/erode: 32, ADetailer mask blur: 4, ADetailer denoising strength: 0.35, ADetailer inpaint only masked: True, ADetailer inpaint padding: 32, ADetailer version: 23.6.4, Tiled Diffusion upscaler: Nearest, Tiled Diffusion scale factor: 2, Tiled Diffusion: {"Method": "Mixture of Diffusers", "Tile tile width": 128, "Tile tile height": 128, "Tile Overlap": 48, "Tile batch size": 8, "Upscaler": "Nearest", "Upscale factor": 2}, ControlNet 0: "preprocessor: none, model: control_v11p_sd15_openpose [cab727d4], weight: 1, starting/ending: (0, 1), resize mode: Crop and Resize, pixel perfect: True, control mode: Balanced, preprocessor params: (64, 64, 64)", Lora hashes: "phoenixdressV.2: 6d66aca3ed92, add_detail: 7c6bad76eb54, more_details: 3b8aa1d351ef, add_detail: 7c6bad76eb54, more_details: 3b8aa1d351ef", Version: v1.4.0
Used embeddings: style-paintmagic [6063]
 
  • Gefällt mir
Reaktionen: Maviapril2
Rickmer schrieb:
Das ist ein Template für Controlnet, was eine Erweiterung für Stable Diffusion (ich nutze die Automatic1111 Variante) ist.

Controlnet gibt verschiedene Möglichkeiten, das entstehende Bild zu steuern - in diesem Fall habe ich Openpose genutzt, welches sich besonders dafür eignet, die generelle Körperhaltung vorzugeben, ohne die äußeren Konturen zu definieren.
Deshalb nutze ich für viele Sachen lieber eine Openpose Vorlage als z.B. andere Controlnets wie Depth (Tiefen-Mapping), welches signifikanten Einfluss auf das Aussehen der entstehenden Kleidung hätte.
Absolut beeindruckend, was du damit so anstellst.
Ich kam über Stable Diffusion Standard nicht hinaus.
 
Klaus_Vielleser schrieb:
Das kenne ich gar nicht, ist es ein KI Bilderstellungsprogramm auf dem PC oder eine Onlinesache?
Aber die Ergebnisse gefallen!
Siehe Eingangsposting, da wird die Installation von A1111 erklärt (hab ich heute auch mal ein Update gemacht; Update der "weiterführenden Links" folgt noch).

@Klaus_Vielleser Du benötigst noch weiter entwickelte Models als das Base 1.5 Model, welche Du bspw. auf CivitAI kostenlos runterladen kannst. In den Prompt-Infos hier im Thread stehen die verwendeten Parameter und Models drin. Die kannst du per Copy und Paste in A1111 einfügen (ins Positiv-Prompt fenster kopieren und den blauen Pfeil oben rechts klicken und die Einstellungen werden übernommen ,nur das gewünschte Model musst Du noch selbst laden, nachdem Du's in den Model Ordner des UI kopiert hast). Ein wenig mit den Grundlagen beschäftigen ist natürlich schon nötig, aber von den verwendeten Mitteln her, ist die Qualität für jeden erreichbar - und reproduzierbar.

Hier noch ein paar Eisvögel :) Man erreicht eine gute fotografische Qualität mit SD, meiner Ansicht nach. Die Herausforderung ist vielmehr, wie üblich (bzw. motivbedingt noch mehr als üblich), dass man keine "unlogischen" Sachen hat (perspektivische/inhaltliche "Fehler" u.ä.).

Grade bei hiresfix mit latent 0.6 kam immer nur Murks raus, wobei das bei anderen Motiven häufig eine gute Detailierung bringt; von daher wurde es 0.4 Denoising mit 4xUltrasharp). Man könnte mit Inpainting weiter an Bildern arbeiten. Oder mit Controlnet /img2img Skizzen u.ä. sich eine bestimmte Komposition überlegen und sie versuchen möglichst realistisch umzusetzen. Auf solche Dinge habe ich aber jetzt mal bewusst verzichtet, weil's ja grade mehr um den Qualitätsvergleich vs MJ und den Stand bzgl. Abbildungsqualität/Fotorealismus geht. Mal von Möglichkeiten des Promptings ganz abgesehen, da hab ich jetzt im Grunde das MJ-Prompt aus dem Thread übernommen.

PS: das witzigste seit langem ist ROOP (Face Swap) für A1111. Da hab ich schon die geilsten Sachen mit angstellt und für viel "Amusement" bei Freunden und Familie gesorgt ^^

00062-4145393193.png

Kingfisher, cinematic color, flying over water, Wildlife photography , water splashes, 1/ 2000, f/ 5. 6, 400, Sony FE 100-400mm f/ 4. 5 - 5. 6 GM OSS, UV Filter, Sony A9 II, Eye - level. Ultra realistic, 8k,
Negative prompt: text, watermark, signature, cartoon, rendering 3d, doll, drawing, painting, child, monochrome b&w, cgi, doll, plastic, blurry, bad detail, worst quality, low resolution, oil painting, illustration, airbrushed, overexposed, oversaturated
Steps: 25, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 4145393193, Size: 640x512, Model hash: 3576ae9275, Model: endlessreality_v2, Denoising strength: 0.4, Hires upscale: 2, Hires upscaler: 4x-UltraSharp, Version: v1.4.0
00107-1449798489.png


Kingfisher, flying over water, Wildlife photography , water splashes, 1/ 2000, f/ 5. 6, 400, Sony FE 100-400mm f/ 4. 5 - 5. 6 GM OSS, UV Filter, Sony A9 II, Eye - level. Ultra realistic, 8k
Negative prompt: text, watermark, signature, cartoon, rendering 3d, doll, drawing, painting, child, monochrome b&w, cgi, doll, plastic, blurry, bad detail, worst quality, low resolution, oil painting, illustration, airbrushed, overexposed, oversaturated,
Steps: 30, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 1449798489, Size: 640x512, Model hash: 67de921b86, Model: wyvernmix_v9, Denoising strength: 0.4, Hires upscale: 2, Hires upscaler: 4x-UltraSharp, Version: v1.4.0

00165-1976113486.png

Kingfisher, flying over water, evening , golden hour, Wildlife photography , water splashes, 1/ 2000, f/ 5. 6, 400, Sony FE 100-400mm f/ 4. 5 - 5. 6 GM OSS, UV Filter, Sony A9 II, Eye - level. Ultra realistic, 8k
Negative prompt: (text:1.2), (watermark:1.2), signature, cartoon, rendering, 3d, doll, drawing, painting, child, monochrome b&w, cgi, doll, plastic, blurry, bad detail, worst quality, low resolution, oil painting, illustration, airbrushed, overexposed, oversaturated,
Steps: 30, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 1976113486, Size: 640x512, Model hash: 9483a64615, Model: absolutereality_v1, Denoising strength: 0.4, Clip skip: 2, Hires upscale: 2, Hires upscaler: 4x-UltraSharp, Version: v1.4.0
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Maviapril2
MechanimaL schrieb:
Du benötigst noch weiter entwickelte Models als das Base 1.5 Model, welche Du bspw. auf CivitAI kostenlos runterladen kannst. In den Prompt-Infos hier im Thread stehen die verwendeten Parameter und Models drin. Die kannst du per Copy und Paste in A1111 einfügen (ins Positiv-Prompt fenster kopieren und den blauen Pfeil oben rechts klicken und die Einstellungen werden übernommen ,nur das gewünschte Model musst Du noch selbst laden, nachdem Du's in den Model Ordner des UI kopiert hast). Ein wenig mit den Grundlagen beschäftigen ist natürlich schon nötig, aber von den verwendeten Mitteln her, ist die Qualität für jeden erreichbar - und reproduzierbar.

Hier noch ein paar Eisvögel :) Man erreicht eine gute fotografische Qualität mit SD, meiner Ansicht nach.
Das bedeutet für mich: Man installiert Stable Diffussion und dann noch A1111 als Vorlagenerweiterung sozusagen? Gut, ich werde mir die Mühe jetzt auf meinem Rechner nicht mehr machen, weil schlechte GPU Leistung bzw. es ist ein Notebook und dort verwendet SD nur die CPU. Damit braucht ein Bild ca. 5 Minuten für die Berechnung. Ich wollte mir einmal einen speziellen KI-Bilder Rechner bauen, aber hab die Idee wieder verworfen, weil ich doch lieber fotografieren würde.
Aber ich weiß, dass es andere interessieren würde, wie man vorgeht, darum fand ich deine Erklärung sehr hilfreich. Danke dafür.
 
  • Gefällt mir
Reaktionen: Maviapril2
Ratet mal, welche Controlnets ich letztendlich genutzt habe um aus diesem Bild:

eec0088b99bfe3d09aae9348ca4a53da.jpg

Dieses Bild zu machen:

00201-3921352639.png


Und dann nochmal raten, weil die erste Antwort war fast garantiert nicht richtig.

Nachdem ich mit den Lineart, Softedge, Canny, Depth und Openpose Controlnets nicht die Resultate bekommen hatte, die ich mir gewünscht hatte, habe ich die Seg (segmentation) und MLSD Controlnets verwendet.

Das MLSD Controlnet ist eigentlich nur dafür da, von Gebäuden die Umrisse zu übertragen... aber hat sich auch prima geeignet, um die wichtigsten Umrisse der Kanone mit zu nehmen.
Das Seg Controlnet hat erstaunlich gut funktioniert, die gewünschte pose im reinen text2img zu erreichen und hatte anders als oben genannte erste Versuche nicht zu starke Vorstellungen, von was sonst noch alles an Details mit dazu gehören. Damit konnte das verwendete Lora sich voll entfalten und aus Seras Victoria die Major Motoko Kusanagi zu machen. (Ich gehe einfach mal davon aus, dass den meisten von euch Hellsing und Ghost in the Shell ein Begriff sind.)

Im Upscale hatte ich ständig doppelt vorhandene Hände und auch die Stiefel hatten ein Echo von sich selbst. Daher der Wechsel von Seg zu Openpose + Depth, was viel besser funktioniert hat.


Der volle Prompt:

moto kusanagi, leotard, ghost in the shell, sitting on a drone, big gun, cannon, sniper, <lora:ghostintheshell_kusanagi_2045:0.8>, boots
Negative prompt: fastnegativev2, ghost
Steps: 30, Sampler: Euler a, CFG scale: 7, Seed: 3921352639, Size: 1664x1024, Model hash: d6937d103b, Model: 2.5D_revtoonyoumix_v10, Denoising strength: 0.55, ControlNet 0: "preprocessor: mlsd, model: control_v11p_sd15_mlsd [aca30ff0], weight: 1, starting/ending: (0, 1), resize mode: Crop and Resize, pixel perfect: True, control mode: Balanced, preprocessor params: (512, 0.1, 0.1)", ControlNet 1: "preprocessor: depth_midas, model: control_v11f1p_sd15_depth [cfd03158], weight: 0.7, starting/ending: (0, 1), resize mode: Crop and Resize, pixel perfect: True, control mode: Balanced, preprocessor params: (512, 64, 64)", ControlNet 2: "preprocessor: openpose_full, model: control_v11p_sd15_openpose [cab727d4], weight: 0.7, starting/ending: (0, 1), resize mode: Crop and Resize, pixel perfect: True, control mode: Balanced, preprocessor params: (512, 64, 64)", Lora hashes: "ghostintheshell_kusanagi_2045: 71553efa6f8d", Version: v1.4.0
 
  • Gefällt mir
Reaktionen: Maviapril2 und MechanimaL
Klaus_Vielleser schrieb:
Das bedeutet für mich: Man installiert Stable Diffussion und dann noch A1111 als Vorlagenerweiterung sozusagen? Gut, ich werde mir die Mühe jetzt auf meinem Rechner nicht mehr machen, weil schlechte GPU Leistung bzw. es ist ein Notebook und dort verwendet SD nur die CPU.
Das ist 1 Package: Mit der Installation von A1111 benutzt Du SD. Aber wie Du selbst bemerkt hast, lohnt es sich erst ab einer gewissen Grafikkarten-Leistung, das auf dem eigenen Rechner zu verwenden. Fotografieren ist ein wunderbares Hobby, das würde ich auch nicht hinten anstellen. Wenn in Zukunft das Geld übrig ist, kannst Du ja immer noch einen gebrauchten PC kaufen, der dafür ausreichend ist, wenn das Interesse vorhandne ist. Bis dahin kann man auch die Rechenleistung Online verwenden, das ist glaube ich auch nicht so teuer. (Bspw: 0,69$ für eine 4090/Stunde; 0,44$ für eine 3090). Muss dazu auch mal noch was in den Eingangspost schreiben, hab ich bisher nicht dran gedacht.
Ergänzung ()

Rickmer schrieb:
Ratet mal, welche Controlnets ich letztendlich genutzt habe um aus diesem Bild:
Openpose full, soft edge und reference wäre mein tipp ^^
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Rickmer
00535-342471910.png


Positive Promt:
guinea pig with sabre-toothes is howling,
night,
moonlight,
on a big rock,
forest,
wide angle,
sideview

Negative Promt:
painting,
oil painting,
watermark

Weitere Einstellungen:
Steps: 50,
Sampler: Euler a,
CFG scale: 13,
Seed: 342471910,
Size: 910x512,
Model hash: 27a4ac756c,
Model: SD15NewVAEpruned,
Version: v1.4.0

Ich bräuchte mal eure Hilfe.
Es fehlen weiterhin die Säbelzähne, das Heulen und die Tageszeit ist falsch.

Verschiedene Werte für CFG Scale hatten kein Erfolg. Habt ihr eine bessere Idee?
 
Da gibts verschiedene Möglichkeiten. Z.b auch via inpainting oder sketch die Zähne aufmalen, nachdem der Rest des Bildes passt) und dann nochmal durchlaufen lassen oder Verschmelzung zweier Tiere mit "AND" oder via [Tier1:Tier2:0.5] (Zahl am Ende bestimmt ab wann der Begriff gewechselt wird, da bei der Hälfte der Berechnung). Aber Du willst wahrscheinlich nur die Meerschweinchen mit den Zähnen ohne andere Eigenschaften ^^

Warum Du nicht direkt das richtige bekommst, weiß ich nicht genau, ich denke es liegt am Model.. Habe kurz mal das 1.5er Base Model geladen und es reagiert nicht sonderlich gut auf den Mond und die Nacht. Bei anderen Models ist das garkein Problem. Du erhältst direkt das Motiv und das Setting korrekt. Nur die Säbelzähne sind die Challenge :)

btw: saber tooth (tiger) oder so heißt es; allerdings könnte es sein, dass fangs (large fangs, huge fangs oder ähnlich) besser sind, da bei saber tooth direkt der tiger assoziiert wird und alles in die richtung geht (oder was auch kam: laser schwerter (light saber) ^^

edit: weitere Option aber nicht mehr rein SD: Photobashing mit deinem erstellten Bild (also die Zähne via PS oder ähnlich aufsetzen und das ganze nochmal durch img2img schicken zur "Verschmelzung").
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Shaav
MechanimaL schrieb:
Warum Du nicht direkt das richtige bekommst, weiß ich nicht genau, ich denke es liegt am Model..
Mond und Nacht liegt am Model. Säbelzähne beim Meerschweinchen wird kein Model freiwillig machen, das ist nicht teil des Dataset, mit dem es gefüttert wurde.

Ich habe mich mal dran versucht...

Schritt 1: Text2Img ein Meerschweinchen:
00018-4294182167.png
guinea pig with fangs is howling, roaring, night, moonlight, on a big rock, forest, wide angle, sideview
Negative prompt: painting, oil painting, watermark, fastnegativev2
Steps: 30, Sampler: Euler a, CFG scale: 7, Seed: 4294182167, Size: 768x768, Model hash: 25ba966c5d, Model: 2.5D_aZovyaRPGArtistTools_v3, Version: v1.4.0

Schritt 2: Upscale, damit ich ein paar mehr Pixel habe zum mit arbeiten:
00028-4294182168.png

Schritt 3: Inpaint, weil Meerschweinchen keinen Schwanz haben, hatte ich erst jetzt gesehen:
00041-4294182169.png

Ein wenig mit Inpaint experimentieren hat gezeigt, dass über Inpaint keine wirklich beeindruckenden Hauer entstehen. Daher das nächst bessere...

Schritt 4: In Photopea (oder Photoshop, oder Gimp, etc) Fägne skizzieren:
00041-4294182169_inpaint_fangs.png

Schritt 5: Mit Img2Img und Controlnet schauen, ob man ein halbwegs akzeptables Ergebnis bekommt:
00054-1849350700.png

guinea pig with fangs is howling, canines, long teeth, roaring, night, moonlight, on a big rock, forest, wide angle, sideview
Negative prompt: Negative prompt: painting, oil painting, watermark, fastnegativev2
Steps: 30, Sampler: Euler a, CFG scale: 8, Seed: 1849350700, Size: 1536x1536, Model hash: 25ba966c5d, Model: 2.5D_aZovyaRPGArtistTools_v3, Denoising strength: 0.4, ControlNet 0: "preprocessor: lineart_standard (from white bg & black line), model: control_v11p_sd15_lineart [43d4be0d], weight: 1, starting/ending: (0, 1), resize mode: Crop and Resize, pixel perfect: True, control mode: Balanced, preprocessor params: (512, 64, 64)", Version: v1.4.0

Könnte besser sein, könnte schlechter sein...

Mit etwas mehr Inpaint würde man den zweiten mini-Mond schnell wieder los werden und die gigantische Hinterpfote hätte ich bei Schritt 2 schon bekämpfen müssen... ist mir hier aber relativ egal.
 
Was haltet ihr von der Idee das Bild mit einem Säbelzahntiger generieren zu lassen, dieses dann als Vorlage für ControlNet zu nehmen und dann mit einem Meerscheinchen generieren zu lassen?
Oder denke ich da ganz falsch?
 
Zurück
Oben