Rickmer schrieb:
Jetzt gibt's QWEN auch als Editing-Modell a la Kontext... nur, dass es (wie man hoffen und erwarten würde) das bessere Prompt-Verständnis von QWEN mitbringt. Yay.
Ja, dafür braucht es aber manchmal auch genauere Ansagen, zb. die Umwandlung eines Screenshots einer Comic TV (Kinder-) Serie zu einem Ausmalbild, ging mit einfachem Prompt mit Kontext direkt, QWEN benötigte eine noch genauere Ausführung. Andererseits hab ich jetzt einige Beispiele gesehen, wo letztlich komplexe Probleme rein mit Prompting gelöst werden konnten, dank des eigenen LLMs das QWEN verwendet.
Rickmer schrieb:
Kommt es eigentlich mir nur so vor, oder ist die 'custom AI model community' halb tot? Wenn man überlegt was es am Anfang für riesige User getriebene Entwicklungen gegeben hatte... mittlerweile sehe ich praktisch nichts der Art mehr.
Also was Finetunes der Models angeht, ist das wohl so, allerdings liegt das ja (soweit ich weiß) hauptsächlich daran, dass es mit den meisten neueren Models technisch nicht gut möglich ist und/oder zuviel Ressourcen benötigen würde. Bei 1.5 und SDXL waren es halt Quantensprünge an Qualität von den Base Models zu den Finetunes. Bei WAN, QWEN, FLux sind die Base models schon weitaus besser und da kommen dann eben LORAs und Optimierungen in anderen Bereichen dazu. Vieles an Energie fließt heute in Implementierung neuer Modelle und Tools, sowie Optimierung (letzteres umso nötiger um alles auf consumer grade Hardware zum Laufen zu kriegen) und neue LORAs gibt es ja für alle Modelle weiterhin.
Rickmer schrieb:
Bei CivitAI wird - wenn man nach Anzahl der Downloads sortiert - die Website noch immer komplett von SD1.5 dominiert. Aber... wann habt ihr zuletzt SD1.5 genutzt? Mir ist das einfach viel zu strohdumm. Wenn's auch nur leicht ungewöhnlich sein soll braucht man schon Loras und/oder controlnet und alles mit höherer Komplexität geht nur durch großzügigen Einsatz von Inpainting oder manuell selber editen um Fehler auszumerzen.
Wenn man auf letzter Monat stellt, ist da nichts mehr von 1.5 zu sehen in den oberen Reihen, die werden dominiert von IL(lustrious), Flux und SDXL.
Rickmer schrieb:
Dagegen können neue AI Modelle wie QWEN fast alles viel besser nur auf Basis von Text Input. Vorausgesetzt wenn man mindestens 16GB VRAM hat...
Mit gguf Modellen sollte es auch schon mit weniger VRAM gehen. Aber ja: "With great power, comes great VRAM Usage"
Rickmer schrieb:
Wobei mir bisher kein open weights* Bildgenerator bekannt ist, der weiß was eine Armbrust ist. (Ohne Lora zumindest... und ich habe genau ein Armbrust Lora gefunden bei kurzer Suche.)
*Was auch immer Microsoft aktuell nutzt für das kostenlose Copilot im Edge weiß, was eine Armbrust ist.
Wie wäre es, wenn Du mal versucht entweder so zu prompten, dass die Armbrust verstanden wird via Beschreibung oder - das geht ja auch - versuchst, das Bild einer Armbrust als Referenz für die Erzeugung oder beim Inpainting zu verwenden? Tatsächlich könnte es sein, dass verschiedene Begriffe probiert werden müssen, bzw. Beschreibungen, ggf. auch mal chinesisch probieren, das wird vom Sprachmodell am allerbesten verstanden afaik.
Wan2.2 weiß schon eher was ein "crossbow" ist.
Noch ein kleiner Nachtrag zum Thema. QWEN ist schon ein mächtiges Modell, aber natürlich bleiben Challenges bestehen, wenn ein Konzept oder eine Sache nicht bekannt ist. Ich bin mir aber sicher, dass es mit einem gewissen Aufwand möglich ist, auch das Bild mit den Mädchen auf dem Dach zu erstellen, gerade mit Hilfe von QWEN Edit. Vll könnte man den Charakter erstmal mit einem anderen Modell erstellen (wie zb. Illustrious inkl. Armbrust LORA) und ihn dann einfügen, bzw. ersetzen. Es gibt bestimmt mehrere Wege. Eine Armbrust anhand eines Inputs abzubilden ist das kleinere Problem, dass diese auch richtig gehalten wird ist schwieriger:
Im Fotorealismus wurde das Prompt bzgl. Dunkelheit auch mehr gewürdigt, hier, wo die (via Image Input gegebene Armbrust) mal richtig gehalten wurde, sieht man die Hälfte nicht (oder sie ist nicht da).
Es könnte sich generell auch lohnen, ein Konzept zunächst als Foto zu entwickeln, wenn da die Darstellung besser klappt und im letzten Schritt zum gewünschten Stil (Bspw. Anime) umzuwandeln.
Die optimale Anwendung von QWEN an sich und insb. der EDIT Version wird ja grade erst so richtig getestet, um nicht zu sagen erforscht ^^
Hier mal noch drei videos, eines mit Workflows, eines mit Anwendungsfällen und eines für 8GB VRAM: