NAS

[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

samuelclemens schrieb:
Die besten Ergebnisse erzielte ich bisher mit Qwen Image 2512 was die Grafik und Bildkomposition angeht.
Z-Image Turbo hingegen macht erstaunlicherweise die wenigsten Textfehler, lässt aber hier und da Ganze Sprechblasen/ Dialogteile weg.

Ich versuche es mal mit Ideogram. Dauert aber ne weile alles runterzuladen.
Mit Inpaint und Masken hab ich bisher kaum gearbeitet.
Für Deinen Zweck scheint Ideogram4 ideal, mit KJ Prompt Generator.
 
  • Gefällt mir
Reaktionen: samuelclemens
Newsflash
Es gibt schon wieder ein neues text2image Modell, Krea2. Es soll stark im Prompt-Verständnis und der Textdarstellung sein mit 13B Parametern. Es gibt eine Turbo und eine Raw Variante (base Modell, das kein weiteres Training erhalten hat). Zur Erstellung wird daher das Turbo Modell empfohlen. In comfy wird es nativ unterstützt. Workflows zb hier bei der FP8 Variante.

1782205811097.png



Prompting Guide mit Beispielbildern

Download:

Krea 2 FP8 Varianten (12,9GB)
Krea 2 "voll" (26,6GB)
 
Cool aber... warum? :-D Ich bin undankbar, ich weiß. Aber wenn Z-Image und Co laufen... testet ihr immer ALLE neuen Modelle durch?
 
Kennt einer eigentlich schon ne möglichkeit mehrere Bilder/Seiten gleichzeitig generieren zu lassen. Bei ChatGPT hab ich was gelesen dass das Bezahlmodell angeblich auch Storyboards mit mehreren Seiten kann.
In ComfyUI gibt's ja auch ein Workflow das gleichzeitig 8 Perspektiven eines Bildes generieren kann.
Um also ein 10 Seitiges Comic mit durchgehender Kontinuität zu schaffen müsste man das alles in einem Workflow mit erledigen!?
 
@Keuleman
Man findet seine Favoriten :) WEnn ein neues kommt, dann muss ich das rein aus Neugierde schon testen ^^

Und bzgl. Text, ich hatte Dein Ideogram Bild als Prompt erstellen lassen. Dieses Wiederum habe ich dann zum Test von Text durch verschiedene Modelle laufen lassen. Den deutschen Text hat nur Ideogram hinbekommen. Englisch konnte Boogu und auch Qwen Image 2512 konnte noch ganz gut mithalten. (Überschrift klar, das konnten alle.) Das neue Krea2 hat auch ein respektables Ergebnis bzgl. Text: Auf deutsch mit 3 Fehlern und auf englisch mit einem.
 

Anhänge

  • 1782208656842.png
    1782208656842.png
    2 MB · Aufrufe: 16
Zuletzt bearbeitet:
Schöner Test, ha :-) Danke dafür. Mir gefällt das Logo richtig gut! Krea 2, sagst Du? Vor allem der Hintergrund ist viel besser als bei Ideogram geworden, finde ich.

EDIT: anbei ein Snippet aus "das Projekt".
 

Anhänge

  • 260616 Plain of Skullz Teaser.mp4
    2,2 MB
samuelclemens schrieb:
Kennt einer eigentlich schon ne möglichkeit mehrere Bilder/Seiten gleichzeitig generieren zu lassen. Bei ChatGPT hab ich was gelesen dass das Bezahlmodell angeblich auch Storyboards mit mehreren Seiten kann.
In ComfyUI gibt's ja auch ein Workflow das gleichzeitig 8 Perspektiven eines Bildes generieren kann.
Um also ein 10 Seitiges Comic mit durchgehender Kontinuität zu schaffen müsste man das alles in einem Workflow mit erledigen!?
Nee, das muss nicht in einem Bild sein. Du möchtest irgendwie zu Konsistenz kommen, dafür gibts verschiedene Ansätze. Einer wäre mit LORAs der Charaktere zu arbeiten. Klar ,dann hast DU noch die Hintergründe. Es gibt Modelle, vornehmlich die Edit Modelle, die in der Lage sind von einem Ausgangsbild mehrere Perspektiven anzufertigen oder Charaktere aus Bildern zu verwenden (Reference Image). Und da wiederum Charaktere zu platzieren (die du per Referenz-Bild oder LORA gibst). Wenn der Hintergrund nie gleich sein muss, ist es noch etwas einfacher. Es geht rein theoretisch auf jedenfall mit ein paar Bildern zu sagen der x und die y stehen vor diesem Hintergrund (mit bestimmten Modellen und du hast jeweils ein Bild von x/y/ und ggf. Hintergrund), Flux 2/Klein, Qwen Image Edit kommen da z.B. in Frage, Krea2, das neue Top-Modell erhält aber auch noch einen Edit Mode, dann wird es das auch können.


Krea2 stößt auf viel Liebe. Und dabei muss eigtl Boogu noch richtig augetestet werden :D Für Ideogram4 gibts auch neue Entwicklungen/LORA Training usw. :)

1782235187683.png
(Bild mit Krea von nem User des SwarmUI Discords)
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: chr1zZo
Hier mal ein Video zur Verwendung von Krea2 in ComfyUI und noch eines, dass die LORAs die direkt mitgeliefert werden präsentiert. Man kann schon sagen, das Modell hat einen norm hohe ästhetische Qualität, Vielseitigkeit (Stile), Realismus und Prompt-Folgebereitschaft.

Eine EDIT-Variante wurde ebefenalls noch angekündigt. Aus dem einen Video geht hervor das Krea2 nur mit echten Bildern trainiert wurde.


 
Zuletzt bearbeitet:
Da ich auf der Arbeit momentan nicht mehr meinen privaten Rechner aufbaue (sorry, Marketing Frau) :-D Habe ich mal wieder was mit Flux Schnell auf CPU gemacht. Passend zum Wetter!
 

Anhänge

  • Flux1SchnellCPU_00006_.png
    Flux1SchnellCPU_00006_.png
    389,3 KB · Aufrufe: 8
Keuleman schrieb:
Cool aber... warum? :-D Ich bin undankbar, ich weiß. Aber wenn Z-Image und Co laufen... testet ihr immer ALLE neuen Modelle durch?
Nur die, die interessant erscheinen 🤪

In der letzten Zeit habe ich folgende ausprobiert:
  • Microsoft Lens Turbo - Schnell, aber insgesamt eher naja....
  • zImage Turbo
    • Eigentlich ein ordentliches Modell, schnell...
    • Output Qualität ist nicht so dolle, immer etwas grainy mit wenig Details
    • Neigt bei JSON Prompts dazu, Text aus dem Prompt ins Bild zu integrieren....
    • Qwen Image 2512 ist insgesamt das deutlich bessere Modell....
  • Ideogram 4 - Geht so...
    • Text ist gut, der Rest eher weniger....
    • Die Bildqualität lässt stark zu wünschen übrig, irgendwie körnig mit komischer Beleuchtung
    • Der Safety-Filter ist grober Mist....
    • Braucht LLM prompts, simple gehen völlig daneben....
  • HiDream O1 - Völliger Schrott...
    • Der Base Output sieht aus wie ein JPEG mit zu hoher Kompression
    • Der Turbo Output als ob über Base ein extreme Blur-Filter gelegt wurde
  • Krea 2 - Ziemlich geil out of the box....
    • NVFP4 variante ist klein, hat ne gute Qualität
    • Kann sowohl mit simplen als auch komplexen Prompts gut umgehen
    • Das ist das unzensierteste Basismodell, dass ich seit langem gesehen habe. Da war definitiv sehr viel NSFW Bildmaterial in den Trainingsdaten, der Node hier bringt alles zum Vorschein https://github.com/nova452/ComfyUI-ConditioningKrea2Rebalance 😉
Mit Krea 2 werde ich definitiv in der nächsten Zeit etwas mehr ausprobieren, neben meinen Standards Qwen Image 2512 für generierung und Flux 2 Klein 9B für Edits.
 
  • Gefällt mir
Reaktionen: MechanimaL
Für die Erstellung von Comic inkl. Text könnte schon Ideogram4 (insb. wegen Text+exakter Arrangement Möglichkeit) gut sein, aber ja, es ist etwas schwieriger zu handlen. Man kann dafür jetzt mit AI toolkit von Ostris auch sehr einfach LORAs kreiern. Für @samuelclemens mit Comics könnte also das oder Krea2 (insb. sobald Edit raus ist) oder mit LORA eine Option sein (Inpainting geht auch so schon gut). Dann aber vll mit nachträglicher Tex-/Sprechblasen-Einfügung, wie oben von einem User vorgeschlagen. Was ich bisher von Krea gesehen habe ist wirklich stark ich freue mich schon aufs Testen. Boogu ist jetzt leider wegen des Krea2 Releases etwas hinten runter gefallen, das sah auf den ersten Blick auch nicht schlecht aus, und hat bereits ein Edit Model.
 
Krea2 scheint echt der neue heiße Shit zu sein :D

EDIT: Ich habe gesehen, vom AI Toolkit Ostris gibt es eine portable Installation? Verdammt, muss ich doch mal mein erstes Lora selber machen?
 
Zuletzt bearbeitet:
Keuleman schrieb:
EDIT: Ich habe gesehen, vom AI Toolkit Ostris gibt es eine portable Installation? Verdammt, muss ich doch mal mein erstes Lora selber machen?
Wird mal Zeit ;)
 
Würde es sinn machen wenn man KI benutzt um von einen Foto verschiedene Blickwinkel zu generieren und diese dann zum Training der LoRa zu nutzen!?
Also wenn keine andern Bilder zur verfügung stehen oder nicht passend!
 
Das ist durchaus Teil manchen Vorgehens. Häufig halt mit bezahlten Modellen wie Nano Banana usw., zb. wie es der User hier macht, aber geht wsl prinzipiell auch mit rein lokalen Ansätzen. Habe ich recht sicher auch schon Videos zu gesehen. Stichwort für Dich wäre dann bspw: "Create LORA Dataset rom 1 image". "Train Lora with 1 image" oder ähnlich.Wenn Du nichts auf Anhieb findest, lass dir vll mit einer KI bei der Suche nach Referenzmaterial (Videos/workflows (bzw. kombi)).
 
  • Gefällt mir
Reaktionen: samuelclemens
Ideogram 4 für ComfyUI ist leider nicht für Kommerzielen Usage gedacht laut Anbieter. Ich mach derzeit viel mit Kling.AI , gerade die Avatar 2.0 Funktion ist echt klasse für AI Podcasts, und Kling bekommt da sogar sauberes Deutsch hin, ohne das ich mit ElevenLabs drüber gehen muss. Für Bilder habe ich mich jetzt aber für OpenArt.AI entschieden weil ich dort eben die meisten Modelle haben wie GPT Image 2.0 weil das echt viel kann neben Ideogram 4.

Ich gehe aber immer mehr in die Automatisierung durch mein Agenten OS. ComfyUI macht er echt schon gut mit Prompting und Seeding. Kling und OpenArt werde ich jetzt noch Anbinden. Fehlt dann nur noch Review + Auto Deploy auf meinen Insta Kanälen ^^

1782331171722.png
 
Zuletzt bearbeitet:
Zurück
Oben