[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

Fooocus schafft es gar nicht. Kommt zwar irgendwie was nettes bei raus, aber hat kaum was mit dem Wunsch zu tun.
Werde @MechanimaL Tipp beherzigen, vielleicht schon heute, wenn Zeit reicht. Die vielen unterstützten Formate sind ja schon interessant.

focus.jpg
 
Warum tut sich Gemini so schwer Gutscheine zu erstellen? Ich hatte das vor Weihnachten und nun auch wieder. Statt dem Gutschein an sich erhalte ich ein "Foto" auf dem ein Gutschein nett arrangiert wurde.

ChatGPT kapiert es sofort

erstelle die Grafik für einen Gutschein im C6-Format für meine 18jährige
Nichte für ein Geldgeschenk von 50€ als Beitrag für eine Fuji X-T30 III

1768144611957.png

1768144646126.png
 
  • Gefällt mir
Reaktionen: Keuleman
Text hat Flux 2 ganz gut drauf und die neue Version von QWEN Image. Manchmal braucht es noch 2, 3 Anläufe aber damit habe ich schon bisschen was umsetzen können!
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Dennis_BW
gibt auch schon ein paar gguf modelle die auch nochmal etwas mehr freien VRAM bringen.
 
Ich habe schon soviele wirklich gute Videos von ltx2 gesehen, sobald ich die Erkenntnisse habe, worauf es wirklich ankommt bzw. was einfach vll auch limits sind aufgrund von Hardware usw., schreibe ich evtl. nochmal was dazu, im Moment noch versuchen zu Verstehen und Testen ^^
 
Also ich hatte bei einem ersten Test den Eindruck, dass die full-Variante (hat trotzdem eine distilled Lora im 2. Sampler beim Upscaling) qualitativ besser ist und da sie für mich flott genug ist, bin ich erstmal dabei geblieben. Dann ist mir aufgefallen, dass in dem Workflow von Comfyui die distilled LORA auf Stärke 1.0 steht, wohingegen sie im WF von LTX selbst auf 0.6 steht. Das letztere ist auch glaube ich besser (von meinen ersten Tests jetzt). Mein Hauptproblem ist noch, dass sobald sich etwas schneller bewegt, die Qualität rapide sinkt, wohingegen sie bei langsameren Bewegungen und Nahaufnahmen sehr gut ist.
 
MechanimaL schrieb:
Btw: Für LTXV2 gibt es mittlerweile mehrere Text-Encoder zur Auswahl, mit denen man nochmals RAM/VRAM einsparen kann. Und gguf Varianten (thx @blubberbirne)
Die Text Encoder sind eigentlich der unkritischste Teil des gesamten Generierungsprozesses...die werden einmal am Anfang geladen, encodieren den Prompt und werden danach wieder entladen...für den gesamten restlichen Prozess braucht es sie nicht.

Die können auch etwas größer sein, falls sie nicht in den VRAM passen arbeitet ComfyUI mit System-RAM Offloading....was die Geschwindkeit bei diesem kleinen Step nicht wirklich negativ beeinflusst.
 
So mal bisschen rumspielen die Tage.
Angefangen mit SwarmUI und RuinedFooocus.

Bei Fooocus verliert der Browser den Kontakt zur Console, bzw hängt beim erstellen nach 0.2 Sekunden. Console funktioniert einwandfrei, arbeitet auch weiter. Kennt jemand das Problem? Clean Firefox schon getestet, selbes Problem.
 
Danke fürs prompt testen.
MechanimaL schrieb:
Mit Qwen Image 2512 (ohne LORA; etwas hit and miss natürlich, aber es geht prinzipiell, wie man sieht)
Wobei hier auch noch Luft nach oben ist. Die Reifenspuren sind etwas sehr breit :D
Und die Position der Fußabdrücke ist gefühlt etwas zu weit hinten. Das Fahrzeug stand nicht in einer Parklücke.
... alles meckern auf hohem Niveau.
Ich bin schon über das was möglich ist sehr beeindruckt.
Ist für die KI echt nicht einfach, wenn man über Personen / Autos spricht, die gar nicht mehr im Bild sind, aber realistisch miteinander interagiert haben müssen.
In denke mal in 1 Jahr wird das Ergebnis dann perfekt sein ;)
 
Ich muss bei LTX2 echt mal gucken, das Ganze mehr zur Nutzung des System RAM zu bewegen. Ich bin ja in der glücklichen Lage, da genug zu haben. Mir auch egal, wenn es dann 20 Minuten dauert, hauptsache, es kommt was stabil raus. Ich gebe noch nicht auf :-D
 
zidius schrieb:
Danke fürs prompt testen.

Wobei hier auch noch Luft nach oben ist. Die Reifenspuren sind etwas sehr breit :D
Und die Position der Fußabdrücke ist gefühlt etwas zu weit hinten. Das Fahrzeug stand nicht in einer Parklücke.
... alles meckern auf hohem Niveau.
Ok, fairerweise waren die beiden Sachen nicht explizit geprompted, könnte also auch noch möglich sein ^^

MuhSagtDieKuh schrieb:
Die Text Encoder sind eigentlich der unkritischste Teil des gesamten Generierungsprozesses...die werden einmal am Anfang geladen, encodieren den Prompt und werden danach wieder entladen...für den gesamten restlichen Prozess braucht es sie nicht. Die können auch etwas größer sein, falls sie nicht in den VRAM passen arbeitet ComfyUI mit System-RAM Offloading....was die Geschwindkeit bei diesem kleinen Step nicht wirklich negativ beeinflusst.
Absolut korrekt. Allerdings ist der standard TE ~23GB groß. Da kann also bei einem kleinen System schon ein Start-Hindernis entstehen. Vom Speicherplatz mal abgesehen :)
Tr8or schrieb:
So mal bisschen rumspielen die Tage.
Angefangen mit SwarmUI und RuinedFooocus.

Bei Fooocus verliert der Browser den Kontakt zur Console, bzw hängt beim erstellen nach 0.2 Sekunden. Console funktioniert einwandfrei, arbeitet auch weiter. Kennt jemand das Problem? Clean Firefox schon getestet, selbes Problem.
Mal Brave Browser oder einen anderen, chromebasierten probieren. Würde aber selbst jetzt rein vom Modell Support her gesehen (siehe Eingangspost) eher zu einem anderen UI (wie SwarmUI) greifen, wenn Du grad eh was neues aufsetzst :)
 
RTX 4070 und 64 GiG RAM... was ein Gefummel. Aber nun reproduzierbar und gut :-)
Ergänzung ()

720*480 geht auch no problem. Interessiert aber vermutlich die wenigsten hier, ich habe den Eindruck, viele sind hier im Forum wie der Mann im Video :-D
 

Anhänge

  • LTX-2_00012_.mp4
    429,5 KB
  • LTX-2_00023_.mp4
    1,1 MB
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Tr8or und MechanimaL
@Keuleman wie lange hat die Erstellung eines der Videos gedauert bei deiner Hardware?

Das Ergebnis finde ich schon wirklich gut.
 
@Dennis_BW Bei einem Video mal zufällig gesehen, 90 Sekunden. Bin aber kein Benchmark: Die Hardware läuft bei mir im Schonmodus (CPU und GPU ordentlich runter geschrabut, was TDP etc angeht, RAM auch ordentlich runter gedreht. Nach einem Abend wie gestern Hotspot GPU max. 65 Grad).
 
MechanimaL schrieb:
eher zu einem anderen UI (wie SwarmUI) greifen
Ja, die ist installiert.
Erstmal sehr unübersichtlich, muss ich mich reinpfuschen.
 
Ich muss mal ein Video zu Swarm machen, da gibts einfach zu wenig..

Noch zum Thema LTX2: Insb. beim i2v kommt es bei vielen schnell zu OOM. Vor 10 Stunden hat comfyui ein Update gemacht, dass ein wenig Besserung bringt -also wie immer schön updaten :) Insb. wurde ein Wert leicht angehoben (siehe hier).

Gestern bin ich schon über diesen Post gestolpert, der den selben Wert händisch anpasst (noch deutlicher). Die User Rückmeldung, die ich dazu gesehen habe, ist sehr gut. (War noch vor dem comfyui Update). Selbst habe ich es noch nicht probiert, aber wollte es Euch trotzdem mitteilen. Weitere Optimierungen sind unterwegs, also: Immer schön updaten ;) (btw auch Nvidia Treiber, hat auch nochmal einen kleinen Speed-Boost gebracht, der neuste Studio-Treiber)

Noch ein gpt für ltx2 prompts macht mal einen guten ersten Eindruck. Übrigens Thema Prompt @Keuleman die Sprache (deutsch) ist echt nicht schlecht von LTX, wenn sie scheitert kann man Wörter so eingeben, wie sie gesprochen werden sollen, als z.B. "Kah Ih" o.ä. ^^ oder "Sprits-Tour" statt Spritztour.
 
Zuletzt bearbeitet:
20 Sekunden, 720x480, fett, ngl. Wieder der RTX 4070 Rechner.

@MechanimaL

346 Sekunden mit Gedönz laden.
 

Anhänge

  • LTX-2_00026_.mp4
    1,2 MB
  • Gefällt mir
Reaktionen: Tr8or und MechanimaL
Zurück
Oben