[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

Novasun · 23. Februar 2026

Krik schrieb:
ComfyUI in Pinokio unter CachyOS (Linux)

Jepp und das macht gute Bilder. Und es ist schnell genug, dass ich direkt mit einem größeren Anfangsbild anfangen kann. Ich bräuchte jetzt "nur" noch einen 2x Upscaler, aber das scheint es nicht direkt zu geben.

Bei Amuse gibt es eine ganze Reihe von modellen die sich nur ums Upscalen kümmern:

Z.B. RealESRGAN 2x (gibt auch 4x)

Krik · 23. Februar 2026

Swin2SR 2x habe ich auf CivitAI gefunden. Ich werde den bei Gelegenheit mal testen.
Vielen Dank für den Screenshot. Vielleicht finde ich die anderen Upscaler auch auf der Seite. Oder ich gucke mal, ob ich sie von Hugginface runterladen kann.

Keuleman · 23. Februar 2026

LTX2 kann eben super geil einzelne Leute. Aber wenn es mehrere werden wird es schwierig, Minions kann es nahezu gar nicht (wird oft dann ein Fiebertraum :-D). Wollte für die Tochter was machen aber dann warte ich noch ein bisschen. Lag jedenfalls weder am RAM noch an der Grafikkarte. Ist einfach das Modell an sich. Hatte überlegt, dass vielleicht ein dickeres Sprachmodell davorgeschaltet bisschen was bringen würde aber nein, liegt am LTX selbst. - Macht nix, hört sich undankbarer an als ich bin. Ich habe schon echt geniale und lustige und berührende Dinge mit LTX 2 gemacht.

Und Grafikkarte und RAM... LTX2 ist bei 21 Sekunden einfach Schluss, das ist einfach eine Begrenzung des Modells. Auch eigentlich... echt "wild"! Das ist schon ne Menge.

Thema Upscaling: habe laufende Workflows zu SeedVR2, Supersharp, Hat. Falls Interesse besteht lade ich die gern mal hier rein.

Vigilant · 23. Februar 2026

Interessante Entwicklung. Ist zwar immer noch als KI-Inhalt zu erkennen, insbesondere die Gesichtsanimation ist stellenweise ruckhaft und etwas zu ausgeprägt, aber zukünftige Modelle werden das vermutlich irgendwann nicht mehr haben.

Keuleman · 23. Februar 2026

Ist halt das allererste lokal laufende Modell mit Video und Ton. Dafür mehr als beeindruckend. Und wenn man ein Video Richtung Provinztheater macht... großartig :-D

Novasun · 24. Februar 2026

Krik schrieb:
Swin2SR 2x habe ich auf CivitAI gefunden. Ich werde den bei Gelegenheit mal testen.
Vielen Dank für den Screenshot. Vielleicht finde ich die anderen Upscaler auch auf der Seite. Oder ich gucke mal, ob ich sie von Hugginface runterladen kann.

So weit ich weiß, sind das ja alles offene Modelle. Die müssten bei Github und Co egentlich zu finden zu sein.
Wenn du eines nicht finden solltest melde dich. Im Modelmanger in Amuse ist eigentlich immer der Link zur Seite des Modells dabei.

MechanimaL · 25. Februar 2026

FluxKlein9B hat manchmal Probleme mit Anatomie. Anstatt dann mit Inpainting zu arbeiten oder auf einen anderen Seed zu wechseln, bietet sich der Einsatz dieser LORA an. Funktioniert in den meisten Fällen und fixt die Fehler. (LORA wirkt generell bereits ab 0.5, in dem Beispiel hat es 1.5 gebraucht um neben des 3. Arms, der bereits bei 0.5 verschwunden ist, auch noch einen Finger dazu zu geben.)

Keuleman · 25. Februar 2026

Würde meine Issues mit Flux 2 Klein lösen. Allerdings bin ich da gerade auf das große Modell gegangen, das find ich im Gegensatz zum kleinen gerade richtig gut.

blubberbirne · 25. Februar 2026

Keuleman schrieb:
TX2 ist bei 21 Sekunden einfach Schluss, das ist einfach eine Begrenzung des Modells. Auch eigentlich... echt "wild"! Das ist schon ne Menge.

Das ist eine Begrenzung von deinen System. Ich kann mit LTX2 in 720p 30 Sekunden Videos generieren.

MechanimaL · 25. Februar 2026

Ist auch die Frage, wie lange ein Clip sein muss ein muss, der an einem Stück (bzw. mit einem Samplerdurchgang generiert) ist, man kann sie ja verlängern bzw. Cuts einfügen. VRGameDevGirl hat single shot workflows für ganze Musik-Videos.

https://github.com/vrgamegirl19/comfyui-vrgamedevgirl/tree/main/Workflows

Youtube Video zum Workflow(mit Bildern aus Nano Banana - ausführliche WF Vorstellung)
Prinzipiell gleicher Workflow auf Z -Image Basis (kürzeres Video)

Keuleman · 26. Februar 2026

@blubberbirne Dachte wirklich, dass es am Modell liegt: RTX 4070 12 GB / 64 GB RAM und RTX 4070 Ti Super 16 GB / 128 GB RAM: bei beiden nach ziemlich exakt 21 Sekunden OOM. Mag aber auch an irgendwelchen Settings liegen, wobei ich mit 21 Sekunden schon mehr als zufrieden bin tatsächlich.

blubberbirne · 26. Februar 2026

Ich schicke Dir heute Abend mal meinen Workflow (wenn ich es nicht vergesse)

Keuleman · 26. Februar 2026

Sehr gern!

Läuft sauber durch, knallt dann im VAE DEcoder aber weg. Ist allerdings bei mir auch beta, ein tiled VAE Encoder. Hier

und die

Ja, naja. 12 oder 16 GB VRAM, beides vermutlich nicht das Optimum. Allerdings in LTX 2 immer satt über 50 GB RAM frei.

blubberbirne · 26. Februar 2026

Bitte schön.

MechanimaL · 26. Februar 2026

Keuleman schrieb:
Sehr gern!

Läuft sauber durch, knallt dann im VAE DEcoder aber weg. Ist allerdings bei mir auch beta, ein tiled VAE Encoder. Hier
und die

Anhang anzeigen 1709624

Ja, naja. 12 oder 16 GB VRAM, beides vermutlich nicht das Optimum. Allerdings in LTX 2 immer satt über 50 GB RAM frei.

temporal_size 4096 könnte die Ursache sein, setze mal den Wert runter auf 64 und wenn es geht, kannst du ihn nochmal steigern (128 usw.), geht dann schneller.
Beim Versuch ein extra langes Video zu generieren könnte auch die Tile Size noch herabgesetzt werden auf 384 oder noch niedriger.

Auf jedenfall hast Du da bei der Node noch Spielraum

Keuleman · 26. Februar 2026

Danke! @blubberbirne !
Das läuft, 30 Sekunden kein Problem. Der VAE Decoder hat auch was drauf, anders als der in meinem bisherigen Flow. Könnte sogar über RAM da auslagern... das eröffnet ganz neue Möglichkeiten. Das erste Video erspare ich Euch dennoch 🚱
Vom VRAM Füllstand her... ich teste definitiv sogar mal ne RTX 4070 (Ti), also ne GraKa mit 12 GB. Könnte klappen.

@MechanimaL : schon mal rum getestet... immer stürz. Denke, mit dem Node wird das nichts. Siehe oben, mit dem Node aus blubberbirnes Workflow klappt das ganz wunderbar.

EDIT: Ach so... bevor ich lange rum fummle... hast Du/Ihr aus der gleichen Workflowschmiede noch einen Text2Video Flow?

Edit 2: anbei mal das 2. Video. Der Sound ist grässlich, die Arme "all over the place"... naja, habe FP8 Modelle genommen, wo es nur geht :-D Ich entschuldige mich vorab.

blubberbirne · 26. Februar 2026

Text zu Video muss ich mal schauen. Irgendwo bestimmt

MechanimaL · 26. Februar 2026

https://huggingface.co/RuneXX/LTX-2-Workflows/tree/main da sind ein paar aktuelle

Keuleman · 26. Februar 2026

Hab mal den "besseren" VAE Decoder in meinen bestehenden Workflow gepackt. Morgen oder die Tage mal testen, der macht bestimmt auch längere Laufzeiten stabiler.

EDIT: ah, warum nicht. Ich hab's direkt getestet. 30 Sekunden no problem. Mich würde nicht wundern, wenn noch mehr ginge. Es war nicht mein System, es ist der VAE Decoder gewesen, der in meinem ollen Workflow gesteckt hat. Anbei ein bisschen was zur Guten Nacht, meine Herren.

Dennis_BW · 27. Februar 2026

Sehr poetisch 😁

[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

Captain

Fleet Admiral Pro

Lt. Junior Grade

Anhänge

Admiral Pro

Lt. Junior Grade

Anhänge

Captain

Lt. Commander

Anhänge

Lt. Junior Grade

Lt. Commander

Lt. Commander

Lt. Junior Grade

Lt. Commander

Lt. Junior Grade

Lt. Commander

Anhänge

Lt. Commander

Lt. Junior Grade

Anhänge

Lt. Commander

Lt. Commander

Lt. Junior Grade

Anhänge

Cadet 4th Year Pro