[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

Krik schrieb:
Mit SD habe ich kein auch nur annähernd gutes Bild hinbekommen
Kommt da ein Bild, das du erkennen kannst? Oder is es verzerrt etc.?
Welches SD meinst du den? Mit SD 1.5 würd ich nicht arbeiten. Zu alt, zu Schlecht. Ist eher was für den Speziellen Usecase. SD3.5 Lohnt sich aus meiner Sicht nicht. SDXL Lohnt sich. Aber auch nur dann, wenn dir die Stile der einzelnen Derivate gefallen.

Kann dieses Modell empfehlen, wenn es um Abstrakte Bilder geht. https://civitai.com/models/122606/d...utput-no-refiner-needed?modelVersionId=297740

Ansonsten ist oft in den Metadaten der Bilder der Wokflow eingebettet. Wenn dem so ist, einfach Bild in das Fenster von ComfyUI ziehn. Aber ComfyUI bietet ein SDXL Workflow an.

Krik schrieb:
Z Image hat auch Probleme mit dem Gras. Grashalme sind das jedenfalls nicht. ^^
SDXL ist auch nicht besser 🙃
Bäume sind auch schwer.
Ich denke, das iht den Grund, das die Daten entsprechend schlecht sind. Verwackelte Aufnamen etc. es braucht nur Wind aufkommen und schon ist alles im foto irgendwie verschwommen.
Da bin ich überrascht von Flux 2 Klein.
 
Meta.Morph schrieb:
Kommt da ein Bild, das du erkennen kannst? Oder is es verzerrt etc.?
Welches SD meinst du den?
Ich glaube, diese Variante vom SD XL Turbo 1.0 ist es.

Die Bilder, die es produziert sind immer verzerrter als die anderer Modelle und das Licht sieht immer falsch aus, zu starker Kontrast und zu viel Sättigung.
30_2026-02-18-082021.jpeg

Ich hab mir das Template für dessen Workflow angesehen. Das Modell muss man mit deutlich weniger Steps (<5) fahren, damit er nicht zu viel fantasiert. Mir ist aufgefallen, dass der SDTurboScheduler mehr als 10 Steps gar nicht zulässt.
Hier das gleiche mit dem neuen Workflow, ich habe nur den Upscaler noch nicht eingebaut.
ComfyUI_00002_.png

Die Spiegelungen im Glas sind bisher bei allen Modellen falsch. :freaky: Das war aber auch irgendwie zu erwarten. Die KI lernt ja nicht, wie die Spiegelung entsteht und ahmt das dann nach, sie lernt nur, dass da irgendwas zu sehen ist.

Nachtrag:
Bei den Beispielbildern auf Civitai steht dabei, dass sie die mit 50 Steps machen. Der Beispiel-Workflow lässt das gar nicht zu. ^^

Nachtrag 2:
Ok, ich habe mir den Workflow besorgt, der bei den Beispielbildern verwendet wird. Das ist deutlich komplizierter, da sie das Ergebnis von SD XL Base dann noch mal durch SD XL Refiner laufen lassen, also zwei KI-Modelle in Serie verwenden.

SD XL 1.0 Turbo x2 wird mit dem komplexeren Workflow nicht besser
ComfyUI_00003_.png

SD XL Base + Refiner geht bei mir nicht. Beim Refiner streikt meine Grafikkarte. :evillol:
Memory access fault by GPU node-1 (Agent handle: 0x29e3a820) on address 0x7f36e1d46000. Reason: Page not present or supervisor privilege.
 
Zuletzt bearbeitet:
Finde, Z Image hat die Käseplatte am Besten hinbekommen. 1080p. Falls die noch größer muss würde ich die nun durch SeedVR2 jagen. SD und SDXL... ich weiß nicht. Das Wenigste von denen kann man gut nutzen. Gestern auf der Arbeit das 3.5er mal wieder laufen lassen (aus Spaß), das Beste war:

SD3.5_00006_.png

Ich kann noch eine Flux (1) Schnell Käseplatte nachreichen, sieht auch super aus finde ich:
ComfyUI_00489_.png
 
Zuletzt bearbeitet:
Krik schrieb:
Wie gesagt, wenn man realistische Bilder erstellen will, gibt es einfach bessere Modelle. Flux2Klein, Qwen Image, Z-Image.

Für Abstraktes, Fantasy sind aber die unzähligen Varianten von SDXL auch fein.
Krik schrieb:
Die Bilder, die es produziert sind immer verzerrter als die anderer Modelle und das Licht sieht immer falsch aus, zu starker Kontrast und zu viel Sättigung.
Ich nutze die Originalen Modelle nicht find sie zu langweilig und von der Qualität gibt es bessere - vermutlich weil Spezialisiert? Aber in deinem Fall, könnte die Auflösung zu hoch sein. Hier kommt es dann zu diesen Verzerrungen oder Dopplungen von Elementen. Bei Körperteilen ist das dann besonders auffällig.

Krik schrieb:
Bei den Beispielbildern auf Civitai steht dabei, dass sie die mit 50 Steps machen. Der Beispiel-Workflow lässt das gar nicht zu. ^^
Stimmt, spannend. Es gibt auch kein einfachen Wokflow mehr.
Nimm den hier:
https://image.civitai.com/xG1nkqKTM...original=true,quality=90/00006-860251185.jpeg

Wie gesagt, einfach das Bild in die UI ziehen.
EDIT: Vielleicht musst du noch Clip Step auf -2 stellen. Wurde bei mir nicht korrekt übernommen, warum auch immer. Einfach Bilder ansehn und mit den Werten spielen.
 
Zuletzt bearbeitet:
Keuleman schrieb:
Hm, ich würd noch QWEN testen wollen aber hocke noch vor der i7-4770S/RTX2060 Maschine, glaube, das wird schwierig. Gras würde ich gerne da noch mal testen. Den "See" müsste ich theoretisch auch noch "größer prompten" aber ich habe es echt erst mal beim ersten Versuch belassen gehabt. Ging mir mehr um die generelle Optik. Finde ich für einmal kurz heran geprompted gar nicht verkehrt sonst.
Hab einen Bergsee mal basierend auf mehreren Modellen ausprobiert…Basis für den prompt war ein Foto, das ich selbst im Torres del Paine gemacht habe:

Chile & Argentinien - 081_Original.jpeg

Prompt per Gemini daraus generiert:
A breathtaking, high-resolution landscape photograph of a vibrant turquoise glacial lake in Patagonia. In the background, a range of majestic, jagged granite mountain peaks are partially covered in pristine white snow and glaciers under a bright blue sky. The sky is filled with spectacular, long, wispy white clouds that stretch and swirl across the frame in elegant, elongated patterns. The foreground features sloping, sun-drenched hillsides covered in low green shrubs and earthy vegetation. The water is a brilliant, opaque cyan with subtle ripples on the surface. The lighting is crisp and natural, highlighting the vivid contrast between the colorful water and the rugged, dark mountain textures."
SD1.5_Upscaled_00039_.png
SDXL_01051_.png
SD3.5Large_00062_.png
Chroma_01711_.png
Flux_00006_.png
Flux2_00787_ 2.png
Flux2-Klein4B_00428_.png
Chroma2_00010_.png
zImage_00982_.png
QwenNunchaku_00660_.png

Qwen wäre mein Favorit…wobei das generierte Bild fast genauso aussieht wie ein anderes, dass ich ein paar Kilometer weiter gemacht habe 😉

Chile & Argentinien - 089_Original.jpeg

Zum Abschluss noch zwei der großen kommerziellen:

NanoBanana.png

Sora_ChatGPT.webp
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Meta.Morph, Krik und MechanimaL
@Krik dieses base+refiner bei sdxl hat sich nie durchgesetzt, es gab ziemlich schnell finetunes (also custom-modelle) von SDXL, die das überflüssig gemacht haben. Heute sind zwar wieder Workflows "en vogue" mit Model-Mixes, ggf. sogar mehreren Samplern pro Model, aber die sind eher dazu da, um noch ein paar Prozent irgendwo rauszuholen. Für Dich vll einfacher, erstmal die unterschiedlichen Modelle, die bei Dir gut laufen, zu erkunden und dann, wenn Du eine gute Basis hast schauen, was es darum noch an Techniken zu entdecken gibt, um ganz bestimmte Ziele zu erreichen.

Wenn Du bspw. SDXL ausreizen willst, schau Dir mal die beliebtesten Modelle, die darauf basieren an, wie Zavychroma oder Juggernaut (gute allgemeine/nicht immer ist die neuste Version die beste) oder mehr spezialisierte- Filter und Suche bei civitai helfen dabei. Die Araminta Reihe für SDXL würd ich auch noch lobend erwähnen wollen (gibt natürlich noch viel mehr gute und bei SDXL auch zusätzlich dran denken, dass man gut Künstler-Stile prompten kann.) Auch bei SDXL sehr gut anwendbar: Hi-Res-Fix upscale, d.h. in 1024 das Bild generieren und ein latent upscale (oder mit upscalermodel), (bei latent denoise etwas höher zb 0.53, 1.4x) upscalen für höhere Auflösungen mit weniger Fehlern und mehr Details (direkt hoch generieren geht idr schief).

@MuhSagtDieKuh Schöner Vergleich, hier mal noch Flux9B (Turbo und Base).

Flux9B Base
1771454249661.png
Flux9B (Distilled)
1771454318364.png
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: MuhSagtDieKuh
MechanimaL schrieb:
Für Dich vll einfacher, erstmal die unterschiedlichen Modelle, die bei Dir gut laufen, zu erkunden und dann, wenn Du eine gute Basis hast schauen, was es darum noch an Techniken zu entdecken gibt, um ganz bestimmte Ziele zu erreichen.
Den Gedanken hatte ich heute auch, nachdem ich festgestellt habe, dass ich plötzlich schon 100 GB Modelle runtergeladen habe.

Das Problem ist, ist habe noch nicht das Modell entdeckt, das die für mich schönsten Bilder macht. Es geht mir da weniger um Realismus, dafür mehr um das Künstlerische. Z. B. aus deinem Araminta-Link gefällt mir dieses Bild. Andere Bilder sind das, das und das. Mein Geschmack geht also eher in Richtung Gemälde und Leinwand mit (semi-)realistischen Motiven.
Da muss ich einfach weiter gucken und probieren.

Nachtrag:
Bildschirmfoto_20260219_005007.png

Das ist bzw. war Pinokio. :skull_alt::evillol:
 
Zuletzt bearbeitet:
MechanimaL schrieb:
@MuhSagtDieKuh Schöner Vergleich, hier mal noch Flux9B (Turbo und Base).

Flux9B Base
Anhang anzeigen 1707410
Flux9B (Distilled)
Anhang anzeigen 1707411
Ich hab nochmal ein paar mehr hinzugefügt:
  • SD3.5 Large
  • zImage Turbo
  • Flux Dev (in Form des Projec0 real 3 Finetunes)
  • Flux2Klein 4B
  • Nano Banana
  • Sora/ChatGPT
Die lokalen Modelle sind übrigens, wo verfügbar, alles die stark komprimierten nvfp4 Versionen für RTX5000 / Blackwell. Da ist ein Flux2klein4B nur noch 2,5 GB groß und ein Qwen2512 12 GB...und sie sind verdammt schnell ohne wahrnehmbaren Qualitätsverlust.

Generelle Beobachtungen:

Viele der guten Modelle geben bei einem Prompt nach "Glacial lake, Patagonia" entweder die "Los Cuernos" Formation im Torres del Paine oder die Fitzroy Formation im Los Glaciares in Argentinien aus....was auch Sinn macht, da das zwei der ikonischsten Fotospots da unten sind und sie im Traningsmaterial öfter vorkommen dürften 😉

Momentan benutzte ich primär Qwen2512 oder Flux2Klein9B (Distilled) für die Bilderstellung.....Qwen wegen der hohern Basisqualität, Klein9B aufgrund der extrem hohen Geschwindigkeit....beide haben ein sehr gutes Prompt Verständnis.

Bei Klein9B stört etwas der glattgebügelte Look, den viele Distilled / Turbo Modelle mit CFG 1 und wenigen Steps haben. Dafür ist die Edit Funktionalität brutal gut und schnell...und der künstliche Look lässt sich mit einem Edit pass "Turn the image into a high-quality, professional photo" oder ähnliches wieder beseitigen...das funktioniert übrigens auch gut zum Upscaling des Bilds eines anderen Modells 🤪
 
MuhSagtDieKuh schrieb:
Ich hab nochmal ein paar mehr hinzugefügt:
Tolles Ding! :schluck:
So kann man richtig gut vergleichen.

Auf den ersten Blick ist Flux2Dev das Modell, dessen Ästhetik ich am ehesten suche. Ich lese mich mal ein, wie man das am besten bedient.
 
@MuhSagtDieKuh
Ich war über das hässliche SDXL Bild von dir massiv verwirrt. Hab mit deinem Prompt Bilder generiert, die schon besser waren:
bergsee1-generated-20260219-090223-0-A breathtaking high-resolution landscap.png

Aber der See nahm auf allen Bildern eine merkwürdige Form an. Und die Felsen wirken auf mich nicht wie Felsen.

Bin dann darauf gekommen, den Trigger: "in Patagonia" zu streichen. Und siehe da:
bergsee1-generated-20260219-090946-0-A breathtaking high-resolution landscap.png

Meiner Meinung nach schon wesentlich besser.

Kommt eben auch auf die SDXL Variante an. Und es zeigt den Massiven aber leider undurchsichtigen Einfluss des Prompts.
 
Krik schrieb:
Auf den ersten Blick ist Flux2Dev das Modell, dessen Ästhetik ich am ehesten suche. Ich lese mich mal ein, wie man das am besten bedient.
Bitte bedenken:
Das ist die jeweilige Default-Ästhetik des Modells, wenn in Prompt keine definiert ist...die meisten modernen Modelle sind da flexibel und können sehr viele verschiedene Stile produzieren.

Im Zweifel einfach mal ein Bild mit passender Ästhetik in ein LLM wie Gemini oder ChatGPT werfen und es bitten, den Stil zu beschreiben...und diese Beschreibung dann im Prompt verwenden 😊
Ergänzung ()

Meta.Morph schrieb:
@MuhSagtDieKuh
Ich war über das hässliche SDXL Bild von dir massiv verwirrt. Hab mit deinem Prompt Bilder generiert, die schon besser waren:
Anhang anzeigen 1707628
Das SDXL Bild ist wirklich das originale SDXL 1.0 Base....und das ist tatsächlich grottenschlecht. Ich hatte nur gerade kein anderes passendes SDXL Modell auf der Platte, was ein halbwegs passendes Bild produziert hat...bei den vorhandenen kam immer nur eine Landschaft bei Nacht mit Schnee raus, was so garnicht zu den anderen passt 😉

Geringe Änderungen des Prompt mit massiven Auswirkungen gibt es primär bei älteren Modellen wie SDXL, die das Tag-Basierte CLIP Modell als Text-Encoder benutzen....das kann nur grob ein Konzept verstehen, aber wenig Details.

Die modernen nutzen nicht ohne Grund LLMs wie T5XXL oder lokale Mistral/Qwen Varianten als Text-Encoder.
 
Zuletzt bearbeitet:
Ok, es wird doch kein Flux2Dev. Die Speicheranforderungen übersteigen mein System.
Flux1 it is!
 
@Krik Was hast du denn für ein System?

Ein Modell muss nicht zwingend in den VRAM passen, um es laufen zu lassen....ComfyUI hat hat ein sehr gutes Offloading in den System-RAM, sprich er swappt automatisch zwischen System-RAM und VRAM via PCIe. Dadurch wird die Generierung zwar etwas langsamer, es funktioniert aber....ein FP8 Flux2Dev mit seinen 32 GB läuft so auch auf einer GPU mit 16 GB VRAM.
 
Zurück
Oben