Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden. Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)
Die besten Ergebnisse erzielte ich bisher mit Qwen Image 2512 was die Grafik und Bildkomposition angeht.
Z-Image Turbo hingegen macht erstaunlicherweise die wenigsten Textfehler, lässt aber hier und da Ganze Sprechblasen/ Dialogteile weg.
Ich versuche es mal mit Ideogram. Dauert aber ne weile alles runterzuladen.
Mit Inpaint und Masken hab ich bisher kaum gearbeitet.
Newsflash
Es gibt schon wieder ein neues text2image Modell, Krea2. Es soll stark im Prompt-Verständnis und der Textdarstellung sein mit 13B Parametern. Es gibt eine Turbo und eine Raw Variante (base Modell, das kein weiteres Training erhalten hat). Zur Erstellung wird daher das Turbo Modell empfohlen. In comfy wird es nativ unterstützt. Workflows zb hier bei der FP8 Variante.
Kennt einer eigentlich schon ne möglichkeit mehrere Bilder/Seiten gleichzeitig generieren zu lassen. Bei ChatGPT hab ich was gelesen dass das Bezahlmodell angeblich auch Storyboards mit mehreren Seiten kann.
In ComfyUI gibt's ja auch ein Workflow das gleichzeitig 8 Perspektiven eines Bildes generieren kann.
Um also ein 10 Seitiges Comic mit durchgehender Kontinuität zu schaffen müsste man das alles in einem Workflow mit erledigen!?
@Keuleman
Man findet seine Favoriten WEnn ein neues kommt, dann muss ich das rein aus Neugierde schon testen ^^
Und bzgl. Text, ich hatte Dein Ideogram Bild als Prompt erstellen lassen. Dieses Wiederum habe ich dann zum Test von Text durch verschiedene Modelle laufen lassen. Den deutschen Text hat nur Ideogram hinbekommen. Englisch konnte Boogu und auch Qwen Image 2512 konnte noch ganz gut mithalten. (Überschrift klar, das konnten alle.) Das neue Krea2 hat auch ein respektables Ergebnis bzgl. Text: Auf deutsch mit 3 Fehlern und auf englisch mit einem.
Schöner Test, ha :-) Danke dafür. Mir gefällt das Logo richtig gut! Krea 2, sagst Du? Vor allem der Hintergrund ist viel besser als bei Ideogram geworden, finde ich.
Kennt einer eigentlich schon ne möglichkeit mehrere Bilder/Seiten gleichzeitig generieren zu lassen. Bei ChatGPT hab ich was gelesen dass das Bezahlmodell angeblich auch Storyboards mit mehreren Seiten kann.
In ComfyUI gibt's ja auch ein Workflow das gleichzeitig 8 Perspektiven eines Bildes generieren kann.
Um also ein 10 Seitiges Comic mit durchgehender Kontinuität zu schaffen müsste man das alles in einem Workflow mit erledigen!?
Nee, das muss nicht in einem Bild sein. Du möchtest irgendwie zu Konsistenz kommen, dafür gibts verschiedene Ansätze. Einer wäre mit LORAs der Charaktere zu arbeiten. Klar ,dann hast DU noch die Hintergründe. Es gibt Modelle, vornehmlich die Edit Modelle, die in der Lage sind von einem Ausgangsbild mehrere Perspektiven anzufertigen oder Charaktere aus Bildern zu verwenden (Reference Image). Und da wiederum Charaktere zu platzieren (die du per Referenz-Bild oder LORA gibst). Wenn der Hintergrund nie gleich sein muss, ist es noch etwas einfacher. Es geht rein theoretisch auf jedenfall mit ein paar Bildern zu sagen der x und die y stehen vor diesem Hintergrund (mit bestimmten Modellen und du hast jeweils ein Bild von x/y/ und ggf. Hintergrund), Flux 2/Klein, Qwen Image Edit kommen da z.B. in Frage, Krea2, das neue Top-Modell erhält aber auch noch einen Edit Mode, dann wird es das auch können.
Krea2 stößt auf viel Liebe. Und dabei muss eigtl Boogu noch richtig augetestet werden Für Ideogram4 gibts auch neue Entwicklungen/LORA Training usw.
Hier mal ein Video zur Verwendung von Krea2 in ComfyUI und noch eines, dass die LORAs die direkt mitgeliefert werden präsentiert. Man kann schon sagen, das Modell hat einen norm hohe ästhetische Qualität, Vielseitigkeit (Stile), Realismus und Prompt-Folgebereitschaft.
Eine EDIT-Variante wurde ebefenalls noch angekündigt. Aus dem einen Video geht hervor das Krea2 nur mit echten Bildern trainiert wurde.
YouTube
An dieser Stelle steht ein externer Inhalt von YouTube, der den Forumbeitrag ergänzt. Er kann mit einem Klick geladen und auch wieder ausgeblendet werden.
An dieser Stelle steht ein externer Inhalt von YouTube, der den Forumbeitrag ergänzt. Er kann mit einem Klick geladen und auch wieder ausgeblendet werden.
Da ich auf der Arbeit momentan nicht mehr meinen privaten Rechner aufbaue (sorry, Marketing Frau) :-D Habe ich mal wieder was mit Flux Schnell auf CPU gemacht. Passend zum Wetter!
Der Base Output sieht aus wie ein JPEG mit zu hoher Kompression
Der Turbo Output als ob über Base ein extreme Blur-Filter gelegt wurde
Krea 2 - Ziemlich geil out of the box....
NVFP4 variante ist klein, hat ne gute Qualität
Kann sowohl mit simplen als auch komplexen Prompts gut umgehen
Das ist das unzensierteste Basismodell, dass ich seit langem gesehen habe. Da war definitiv sehr viel NSFW Bildmaterial in den Trainingsdaten, der Node hier bringt alles zum Vorschein https://github.com/nova452/ComfyUI-ConditioningKrea2Rebalance 😉
Mit Krea 2 werde ich definitiv in der nächsten Zeit etwas mehr ausprobieren, neben meinen Standards Qwen Image 2512 für generierung und Flux 2 Klein 9B für Edits.
Für die Erstellung von Comic inkl. Text könnte schon Ideogram4 (insb. wegen Text+exakter Arrangement Möglichkeit) gut sein, aber ja, es ist etwas schwieriger zu handlen. Man kann dafür jetzt mit AI toolkit von Ostris auch sehr einfach LORAs kreiern. Für @samuelclemens mit Comics könnte also das oder Krea2 (insb. sobald Edit raus ist) oder mit LORA eine Option sein (Inpainting geht auch so schon gut). Dann aber vll mit nachträglicher Tex-/Sprechblasen-Einfügung, wie oben von einem User vorgeschlagen. Was ich bisher von Krea gesehen habe ist wirklich stark ich freue mich schon aufs Testen. Boogu ist jetzt leider wegen des Krea2 Releases etwas hinten runter gefallen, das sah auf den ersten Blick auch nicht schlecht aus, und hat bereits ein Edit Model.
Würde es sinn machen wenn man KI benutzt um von einen Foto verschiedene Blickwinkel zu generieren und diese dann zum Training der LoRa zu nutzen!?
Also wenn keine andern Bilder zur verfügung stehen oder nicht passend!
Das ist durchaus Teil manchen Vorgehens. Häufig halt mit bezahlten Modellen wie Nano Banana usw., zb. wie es der User hier macht, aber geht wsl prinzipiell auch mit rein lokalen Ansätzen. Habe ich recht sicher auch schon Videos zu gesehen. Stichwort für Dich wäre dann bspw: "Create LORA Dataset rom 1 image". "Train Lora with 1 image" oder ähnlich.Wenn Du nichts auf Anhieb findest, lass dir vll mit einer KI bei der Suche nach Referenzmaterial (Videos/workflows (bzw. kombi)).
Ideogram 4 für ComfyUI ist leider nicht für Kommerzielen Usage gedacht laut Anbieter. Ich mach derzeit viel mit Kling.AI , gerade die Avatar 2.0 Funktion ist echt klasse für AI Podcasts, und Kling bekommt da sogar sauberes Deutsch hin, ohne das ich mit ElevenLabs drüber gehen muss. Für Bilder habe ich mich jetzt aber für OpenArt.AI entschieden weil ich dort eben die meisten Modelle haben wie GPT Image 2.0 weil das echt viel kann neben Ideogram 4.
Ich gehe aber immer mehr in die Automatisierung durch mein Agenten OS. ComfyUI macht er echt schon gut mit Prompting und Seeding. Kling und OpenArt werde ich jetzt noch Anbinden. Fehlt dann nur noch Review + Auto Deploy auf meinen Insta Kanälen ^^