[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

Nette Tests, danke. Tile Size also so hoch stellen wie die GPU hergibt.

MechanimaL schrieb:
zwei Durchgänge (2x + 2x SD Upscaling+controlnet) ergeben deutlich mehr Tiefe als direkt 4x
Wobei du bei dem Bild jetzt auch dieselben Probleme mit der Belichtung hast wie ich hatte...
Eventuell würde da das Stichwort 'low key' helfen? Ich hatte das mit in den Prompt aufgenommen, nachdem du das auch vorgeschlagen hattest.


Tiled VAE zusätzlich aktivieren macht übrigens einen riesigen Unterschied im VRAM Bedarf. 4K Auflösung, zwei Control Nets? Kein Problem.
 
Rickmer schrieb:
Wobei du bei dem Bild jetzt auch dieselben Probleme mit der Belichtung hast wie ich hatte...
Eventuell würde da das Stichwort 'low key' helfen? Ich hatte das mit in den Prompt aufgenommen, nachdem du das auch vorgeschlagen hattest.
Mh jo hab ich jetzt nicht so drauf geachtet. Wäre aber bestimmt noch möglich es zu begrenzen.

Spannend wäre auch noch, inwiefern sich CFG auf die "Mutationen" auswirkt.

Was ich nicht so ganz verstanden habe: Wann macht es Sinn im Controlnet beim Pre-Processor das Downsampling anzuschalten in Abhängigkeit oder in Zusammenspiel mit der Denoising-Rate vom img2img.

Der Youtuber vom letzten Video hatte gestern bspw. einen Upscale eines Bildes gemacht, wo er 3x Downsampling bei 0.2 Denoising wählte. Damit erhält man aber nicht die Details wie mit 0.4 Denoising ohne Downsampling. Mein und unser? :D Ziel wäre es doch, den Effekt des 2x +2x Upscale mit 0.4 Denoising ohne Mutation hinzubekommen :) Vll auch mit weiteren Mitteln (Controlnet/inpainting etc).
 
@MechanimaL Ja, 0.2 Denoise bei Upscale wäre nicht meine erste Wahl, da passiert so wenig, dass man sich auch das Control Net fast sparen könnte. Gestern bei einem Bild experimentiert:
  • Wenn ich noch größere Änderungen haben will: Denoise 0.5 bis 0.6, relativ hohes Downsampling, Stärke des Controlnet auf 0.3~0.6 setzen, eventuell noch mit z.B. Openpose oder HED kombinieren
  • Wenn ich möglichst 1zu1 hoch will: Denoise ~0.4, kein Downsampling, Controlnet Stärke 1, eventuell noch mit Canny oder Normal kombinieren
Wenn man signifikante Änderungen im Bild haben will (z.B. anderer Hintergrund) ist natürlich das Tile Controlnet die falsche Wahl.
 
  • Gefällt mir
Reaktionen: MechanimaL
Ok, danke für den Report :) Wenn ich in das eine Bild von mir, das zweimal mit Faktor 2 und denoising 0.4 upgescaled wurde in's Gesicht reinzooome hab ich das Gefühl, ich wär an nem Foto dran. Das hat etwas, was die anderen nicht haben. Wenn ich dann aber daran denke, wieviel Fehler in das Bild gekommen sind, entsteht automatisch die Frage: Wie praxistauglich ist das Vorgehen, grade in Bezug auf die Fehler; wenn sie nicht verhindert werden können, an welcher Stelle im Prozess und mit welchen Mitteln wird ihnen soweit möglich vorgebeugt, bzw werden sie entfernt. Denke das wird auch die Praxis zeigen, wenn ich es außerhalb des reinen Rumtestens einsetze.. Es bleibt spannend ^^
 
  • Gefällt mir
Reaktionen: Rickmer

--> Video zum Thema Controlnet/Upscale + wertvolle Kommentare dazu

edit: ok nicht soviel neues wie erhofft, hatte gedacht ~20 min zu dem thema ergäbe mehr info ^^
 
Zuletzt bearbeitet:
Um auch mal wieder ein par neue, erfrischende Beispiele einzuwerfen:

"Thanos" zusammen mit "Ronald Mc Donald" ist immer wieder eine skuril belustigende Kombination.
Hier mit Dream.ai/create (Filter Real V2)
Prompt? Keine Ahnung: "Thanos and Ronald McDonald eating burger at MCDonalds". Da brauchts nicht viel Phantasie oder komplizierte Prompts... :D
Sind ja beide unique genug. Denen möchte man nicht im Dunkeln begegnen...
(ich glaube wenn man "2 Massenmörder feiern Geburtstag" eingibt, kommen die selben Bilder)

final 2.jpg
final 3.jpg
final 4.jpg
final 5.jpg


Bzw. überhaupt alles mit Thanos in Kombination...

final 7.jpg
zet 2.jpg
zet 7.jpg

Auf nem Bike aufm Mars, mit seiner Katze und Dreadlocks, als Gollum.

zet 5.jpg
zet 6.jpg
zet 9.jpg

Batnos und Spiderthanos

zet 11.jpg
zet 13.jpg
zet 16.jpg

Das Bild ganz rechts mag ich besonders. Das hat sowas... fröhliches...

zet 24.jpg
zet 22.jpg
zet 19.jpg

"grarnnt theeft auttbu"
 
  • Gefällt mir
Reaktionen: MechanimaL und Rickmer
X79 schrieb:
Prompt? Keine Ahnung: "Thanos and Ronald McDonald eating burger at MCDonalds". Da brauchts nicht viel Phantasie oder komplizierte Prompts... :D
Hmm... lol.
1683567212364.png
 
  • Gefällt mir
Reaktionen: MechanimaL
Das neue Sparmenue ;) da kommt mir noch Regional Prompter in den Sinn, um die beiden noch besser inhaltlich voneinander zu trennen.
zunächst noch ohne Burger ^^
00024-4029617630.png

eating burger and fries at mc donalds restaurant BREAK
Thanos BREAK
Ronald McDonald BREAK
Negative prompt: text, extra limb, limb,ugly, tiling, poorly drawn hands, poorly drawn feet, poorly drawn face, out of frame, extra limbs, disfigured, deformed, body out of frame, bad anatomy, watermark, signature, cut off, low contrast, underexposed, overexposed, bad art, beginner, amateur, distorted face, blurry, draft, grainy,logo,watermark,write

Steps: 30, Sampler: DPM++ SDE Karras, CFG scale: 7, Seed: 4029617630, Size: 824x512, Model hash: 79939acf90, Model: verisimilitude_v2, RP Active: True, RP Divide mode: Horizontal, RP Calc Mode: Attention, RP Ratios: "1,1", RP Base Ratios: 0.2, RP Use Base: True, RP Use Common: False, RP Use Ncommon: False, RP Change AND: False, RP LoRA Neg Te Ratios: 0, RP LoRA Neg U Ratios: 0, RP threshold: 0.4

So jetzt (das vorherige ist von gestern Abend), hab ich mal noch eine dritte Region (den Tisch mit den Speisen) hinzugefügt. Klappt prima :)
00005-2955695884.png
 
Zuletzt bearbeitet:
davon hab ich heut auch schon gelesen, allerdings nur überflogen und in den kommentaren etwas in der art: man benötigt angepasste modells. weißt du etwas näheres dazu?
EDIT: Laut Reddit Post " New driver is out. I've updated and I can confirm: no performance improvement using standard checkpoints/models. I don't have any of the "Olive-optimized" models to test."
 
Zuletzt bearbeitet:
Kann man mit Stable Diffusion auch irgendwie eigene Bilder hochladen und aus diesen ähnliche Varianten erstellen oder mehrere "fusionieren"?

Ich weiß nur, dass das mit MidJourney geht.
 
Mit Controlnet gibt es diverse Möglichkeiten, ja
 
  • Gefällt mir
Reaktionen: ZetaZero
@ZetaZero Controlnet ist eine Erweiterung für Automatic1111.
Aus meiner Sicht sogar die wichtigste Erweiterung, die es für A1111 gibt.
 
  • Gefällt mir
Reaktionen: ZetaZero
Ich habe die Erweiterung jetzt installiert. Was müsste ich jetzt machen, damit als Beispiel dieser Panda aus anderen Perspektiven dargestellt wird? Auf dem generierten Bild sieht man zwar den Panda aus anderen Perspektiven, aber eben nicht im Stil des von mir hochgeladenen Fotos. Ich will auch keinen Hintergrund. Im Grunde sehen die Bilder genauso wahllos aus, als hätte ich gar kein eigenes Foto hochgeladen.

1686344601984.png

Ergänzung ()

Ich habe bereits ein YouTube-Video geschaut, wo die Einstellungen gezeigt werden, ich vorgenommen habe, wie auf dem Screenshot. Aber egal welches Motiv ich nehme, irgendwie funktioniert das bei mir nicht. Die generierten Bilder sehen nicht anders aus, als ohen ControlNet.
 
@ZetaZero hast du auch das entsprechende Modell für canny runtergeladen und im korrekten Ordner hinterlegt?

Das müsste die Anleitung auch verlinkt haben, aber die bekommst du hier:
https://github.com/lllyasviel/ControlNet-v1-1-nightly/tree/main/models

Damit sollten deine Resultate eher demhier ähneln:
1686348276568.png


Ich hatte mich hier für zwei Controlnets entschieden:
1) Scribble, weil das gut darin ist, aus Skizzen detailreiche Bilder zu erstellen und
2) Softedge weil damit die Form behalten wird, das aber nicht ganz so exakt ist wie Canny.

Die Auswahl des Checkpoint... keine Ahnung, der schien mir passend zu sein. Außerdem hatte ich mir das v3 Update von dem grade erst runter geladen, daher wollte ich den mal nutzen.
Ergänzung ()

Dann noch ein Upscale-Schritt, optional z.B. mit dem 'Tile' Controlnet um es dem vorher erzeugten möglichst ähnlich zu halten, und du kannst sowas erzeugt haben:

1686349150597.png
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: ZetaZero
ZetaZero schrieb:
Ich habe die Erweiterung jetzt installiert. Was müsste ich jetzt machen, damit als Beispiel dieser Panda aus anderen Perspektiven dargestellt wird? Auf dem generierten Bild sieht man zwar den Panda aus anderen Perspektiven, aber eben nicht im Stil des von mir hochgeladenen Fotos. Ich will auch keinen Hintergrund. Im Grunde sehen die Bilder genauso wahllos aus, als hätte ich gar kein eigenes Foto hochgeladen.
Zunächst: Dein Prompt sollte das zu generierende Bild beschreiben. Dein Prompt ("show the panda from other perspectives") ist aber eine Instruktion auf Basis des Ursprungsbildes. Diese Art der Bilder-Änderung per "Ändere das und das an dem Bild" nennt sich instruct pix2pix oder ähnlich (ip2p). Dafür gibt es eigene Models, die ausschließlich nach dieser Art des Promptings funktionieren (dann über img2img) und (unabhängig davon) eine Funktion in Controlnet, die das mit jedem Model erlauben soll.
Beispiel ip2p A:

1687098949442.png

In deinem Fall, bei einem abstrakten Symbol (und mit dem Ziel ähnliche Symbole in anderen Perspektiven zu erhalten), würde ich das aber nicht verwenden. Es ist eine intelligente Art, mit dem Model zu kommunizieren und kann viel Spaß machen, mit der Art von Bildmanipulation zu spielen; Perspektiven verändern ist aber (soweit ich weiß) eher nicht die Stärke, sondern bestehendes sinnhaft zu manipulieren:

Beispiel ip2p B (von hier):
1687099481003.png



Wenn Du den Stil deines Ausgangsbildes erhalten willst, dann kannst Du im Controlnet Style ("Reference") nehmen und solltest im Prompt genau beschreiben, wie der Panda abgebildet sein soll (bspw. noch den Zeichenstil benennen usw.). Das funktionierte direkt und da könnte man jetzt noch weiter dran feilen :)

Beispiel:
1687098330756.png


Nimmst Du hingegen Scribble, Canny oder ähnliches im Controlnet wird natürlich der Panda so abgebildet, wie er auch im Originalbild ist, dafür ist ja schließlich Controlnet da, um die Vorlage bspw. in der Form/den Outlines o.ä. zu erhalten. (Siehe vorheriger Post von Rickmer.)

PS: Wenn sich die Ergebnisse (bei gleichem Seed) zwischen controlnet aktiv vs inaktiv nicht unterscheiden, ist Controlnet nicht richtig installiert (fehlende Models o.ä.).
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Bohnenhans und Rickmer
Zurück
Oben