[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

Tr8or · Sonntag um 08:45

Fooocus schafft es gar nicht. Kommt zwar irgendwie was nettes bei raus, aber hat kaum was mit dem Wunsch zu tun.
Werde @MechanimaL Tipp beherzigen, vielleicht schon heute, wenn Zeit reicht. Die vielen unterstützten Formate sind ja schon interessant.

Micha- · Sonntag um 16:17

Warum tut sich Gemini so schwer Gutscheine zu erstellen? Ich hatte das vor Weihnachten und nun auch wieder. Statt dem Gutschein an sich erhalte ich ein "Foto" auf dem ein Gutschein nett arrangiert wurde.

ChatGPT kapiert es sofort

erstelle die Grafik für einen Gutschein im C6-Format für meine 18jährige
Nichte für ein Geldgeschenk von 50€ als Beitrag für eine Fuji X-T30 III

Keuleman · Sonntag um 20:19

Text hat Flux 2 ganz gut drauf und die neue Version von QWEN Image. Manchmal braucht es noch 2, 3 Anläufe aber damit habe ich schon bisschen was umsetzen können!

Vigilant · Sonntag um 20:47

@Micha-
Hängt alles mehr oder weniger am Prompt. Bspw:

Oder:

weiter...

oder..

MechanimaL · Sonntag um 21:31

Btw: Für LTXV2 gibt es mittlerweile mehrere Text-Encoder zur Auswahl, mit denen man nochmals RAM/VRAM einsparen kann. Und gguf Varianten (thx @blubberbirne)

blubberbirne · Sonntag um 22:14

gibt auch schon ein paar gguf modelle die auch nochmal etwas mehr freien VRAM bringen.

MechanimaL · Sonntag um 22:39

Ich habe schon soviele wirklich gute Videos von ltx2 gesehen, sobald ich die Erkenntnisse habe, worauf es wirklich ankommt bzw. was einfach vll auch limits sind aufgrund von Hardware usw., schreibe ich evtl. nochmal was dazu, im Moment noch versuchen zu Verstehen und Testen ^^

Keuleman · Sonntag um 23:13

Ich werd's gelegentlich auch noch mal angehen. Ging schnell mit distilled Modellen.

MechanimaL · Montag um 00:11

Also ich hatte bei einem ersten Test den Eindruck, dass die full-Variante (hat trotzdem eine distilled Lora im 2. Sampler beim Upscaling) qualitativ besser ist und da sie für mich flott genug ist, bin ich erstmal dabei geblieben. Dann ist mir aufgefallen, dass in dem Workflow von Comfyui die distilled LORA auf Stärke 1.0 steht, wohingegen sie im WF von LTX selbst auf 0.6 steht. Das letztere ist auch glaube ich besser (von meinen ersten Tests jetzt). Mein Hauptproblem ist noch, dass sobald sich etwas schneller bewegt, die Qualität rapide sinkt, wohingegen sie bei langsameren Bewegungen und Nahaufnahmen sehr gut ist.

MuhSagtDieKuh · Montag um 10:23

MechanimaL schrieb:
Btw: Für LTXV2 gibt es mittlerweile mehrere Text-Encoder zur Auswahl, mit denen man nochmals RAM/VRAM einsparen kann. Und gguf Varianten (thx @blubberbirne)

Die Text Encoder sind eigentlich der unkritischste Teil des gesamten Generierungsprozesses...die werden einmal am Anfang geladen, encodieren den Prompt und werden danach wieder entladen...für den gesamten restlichen Prozess braucht es sie nicht.

Die können auch etwas größer sein, falls sie nicht in den VRAM passen arbeitet ComfyUI mit System-RAM Offloading....was die Geschwindkeit bei diesem kleinen Step nicht wirklich negativ beeinflusst.

Tr8or · Montag um 11:35

So mal bisschen rumspielen die Tage.
Angefangen mit SwarmUI und RuinedFooocus.

Bei Fooocus verliert der Browser den Kontakt zur Console, bzw hängt beim erstellen nach 0.2 Sekunden. Console funktioniert einwandfrei, arbeitet auch weiter. Kennt jemand das Problem? Clean Firefox schon getestet, selbes Problem.

zidius · Montag um 14:02

Danke fürs prompt testen.

MechanimaL schrieb:
Mit Qwen Image 2512 (ohne LORA; etwas hit and miss natürlich, aber es geht prinzipiell, wie man sieht)

Wobei hier auch noch Luft nach oben ist. Die Reifenspuren sind etwas sehr breit

Und die Position der Fußabdrücke ist gefühlt etwas zu weit hinten. Das Fahrzeug stand nicht in einer Parklücke.
... alles meckern auf hohem Niveau.
Ich bin schon über das was möglich ist sehr beeindruckt.
Ist für die KI echt nicht einfach, wenn man über Personen / Autos spricht, die gar nicht mehr im Bild sind, aber realistisch miteinander interagiert haben müssen.
In denke mal in 1 Jahr wird das Ergebnis dann perfekt sein

Keuleman · Montag um 14:35

Ich muss bei LTX2 echt mal gucken, das Ganze mehr zur Nutzung des System RAM zu bewegen. Ich bin ja in der glücklichen Lage, da genug zu haben. Mir auch egal, wenn es dann 20 Minuten dauert, hauptsache, es kommt was stabil raus. Ich gebe noch nicht auf :-D

MechanimaL · Montag um 21:23

zidius schrieb:
Danke fürs prompt testen.

Wobei hier auch noch Luft nach oben ist. Die Reifenspuren sind etwas sehr breit
Und die Position der Fußabdrücke ist gefühlt etwas zu weit hinten. Das Fahrzeug stand nicht in einer Parklücke.
... alles meckern auf hohem Niveau.

Ok, fairerweise waren die beiden Sachen nicht explizit geprompted, könnte also auch noch möglich sein ^^

MuhSagtDieKuh schrieb:
Die Text Encoder sind eigentlich der unkritischste Teil des gesamten Generierungsprozesses...die werden einmal am Anfang geladen, encodieren den Prompt und werden danach wieder entladen...für den gesamten restlichen Prozess braucht es sie nicht. Die können auch etwas größer sein, falls sie nicht in den VRAM passen arbeitet ComfyUI mit System-RAM Offloading....was die Geschwindkeit bei diesem kleinen Step nicht wirklich negativ beeinflusst.

Absolut korrekt. Allerdings ist der standard TE ~23GB groß. Da kann also bei einem kleinen System schon ein Start-Hindernis entstehen. Vom Speicherplatz mal abgesehen

Tr8or schrieb:
So mal bisschen rumspielen die Tage.
Angefangen mit SwarmUI und RuinedFooocus.

Bei Fooocus verliert der Browser den Kontakt zur Console, bzw hängt beim erstellen nach 0.2 Sekunden. Console funktioniert einwandfrei, arbeitet auch weiter. Kennt jemand das Problem? Clean Firefox schon getestet, selbes Problem.

Mal Brave Browser oder einen anderen, chromebasierten probieren. Würde aber selbst jetzt rein vom Modell Support her gesehen (siehe Eingangspost) eher zu einem anderen UI (wie SwarmUI) greifen, wenn Du grad eh was neues aufsetzst

Keuleman · Montag um 22:18

RTX 4070 und 64 GiG RAM... was ein Gefummel. Aber nun reproduzierbar und gut :-)

Ergänzung (Montag um 23:11)

720*480 geht auch no problem. Interessiert aber vermutlich die wenigsten hier, ich habe den Eindruck, viele sind hier im Forum wie der Mann im Video :-D

Dennis_BW · Dienstag um 04:41

@Keuleman wie lange hat die Erstellung eines der Videos gedauert bei deiner Hardware?

Das Ergebnis finde ich schon wirklich gut.

Keuleman · Dienstag um 08:47

@Dennis_BW Bei einem Video mal zufällig gesehen, 90 Sekunden. Bin aber kein Benchmark: Die Hardware läuft bei mir im Schonmodus (CPU und GPU ordentlich runter geschrabut, was TDP etc angeht, RAM auch ordentlich runter gedreht. Nach einem Abend wie gestern Hotspot GPU max. 65 Grad).

Tr8or · Dienstag um 08:49

MechanimaL schrieb:
eher zu einem anderen UI (wie SwarmUI) greifen

Ja, die ist installiert.
Erstmal sehr unübersichtlich, muss ich mich reinpfuschen.

MechanimaL · Dienstag um 18:34

Ich muss mal ein Video zu Swarm machen, da gibts einfach zu wenig..

Noch zum Thema LTX2: Insb. beim i2v kommt es bei vielen schnell zu OOM. Vor 10 Stunden hat comfyui ein Update gemacht, dass ein wenig Besserung bringt -also wie immer schön updaten

Insb. wurde ein Wert leicht angehoben (siehe hier).

Gestern bin ich schon über diesen Post gestolpert, der den selben Wert händisch anpasst (noch deutlicher). Die User Rückmeldung, die ich dazu gesehen habe, ist sehr gut. (War noch vor dem comfyui Update). Selbst habe ich es noch nicht probiert, aber wollte es Euch trotzdem mitteilen. Weitere Optimierungen sind unterwegs, also: Immer schön updaten

(btw auch Nvidia Treiber, hat auch nochmal einen kleinen Speed-Boost gebracht, der neuste Studio-Treiber)

Noch ein gpt für ltx2 prompts macht mal einen guten ersten Eindruck. Übrigens Thema Prompt @Keuleman die Sprache (deutsch) ist echt nicht schlecht von LTX, wenn sie scheitert kann man Wörter so eingeben, wie sie gesprochen werden sollen, als z.B. "Kah Ih" o.ä. ^^ oder "Sprits-Tour" statt Spritztour.

Keuleman · Dienstag um 19:59

20 Sekunden, 720x480, fett, ngl. Wieder der RTX 4070 Rechner.

@MechanimaL

346 Sekunden mit Gedönz laden.

[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

Commander

Captain

Ensign

Admiral Pro

Lt. Commander

Lt. Commander

Lt. Commander

Ensign

Lt. Commander

Cadet 2nd Year

Commander

Lieutenant

Ensign

Lt. Commander

Ensign

Anhänge

Cadet 4th Year Pro

Ensign

Commander

Lt. Commander

Ensign

Anhänge