[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

@qualle Finger und Augen sind immer noch mein Endgegner, erst Recht wenn man Videos macht. Bei Statisch gehts nach paar Seeds.
 
  • Gefällt mir
Reaktionen: qualle
Flux 1 hat sich besser an Prompts gehalten, deshalb habe ich das immer auf der Arbeit genommen. Daheim dann mit GPU die "funktionierenden" Prompts in ein dickes Modell gepackt.

Edit: Hände und Augen imo pur Probleme älterer Modelle. SD und so. Alles spätere kann das richtig gut.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: qualle und chr1zZo
chr1zZo schrieb:
@qualle Finger und Augen sind immer noch mein Endgegner, erst Recht wenn man Videos macht. Bei Statisch gehts nach paar Seeds.
Vielleicht hilft es wenn man zuerst statische Bilder als Anfang und Endframe anfertigt als Referenz für das Video. 🤔
Es gibt in ComfyUI auch Workflows die mehrere Zwischenframes als referenz ermöglichen.
Evtl sogar abgeänderte echte Fotos als Referenz nehmen. Je mehr vorgegeben wird umso weniger Chancen für die KI zu halluzinieren.
Man sagt doch, ein Bild sagt mehr als tausend Worte. Kein promttext kann so detailliert sein wie ein Referenzbild.
Hab sogar schon mit dem umgekehrten weg experimentiert und mittels ollama hochdetailierte "Bildbeschreibungen" von Bildern erstellen lassen die man dann manuell leicht abändert und als Prompt für den Bildgenerator verwendet. Das spart einem enorm viel an prompting.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: chr1zZo und qualle
Guten Morgen. @samuelclemens genau so habe ich es derzeit aufgebaut und taste mich ran. Hoffe bald ein vollständiges und erfolgreiches Video hier hochzuladen.

Hab mal meinen Seed Hunter Workflow (Overview, nicht Detail) reingeladen :)
 

Anhänge

  • krx_still_00084_.png
    krx_still_00084_.png
    941,1 KB · Aufrufe: 22
  • Screenshot 2026-06-09 090543.png
    Screenshot 2026-06-09 090543.png
    689,2 KB · Aufrufe: 18
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: samuelclemens
Casius.A schrieb:
Habe 2-3 Tage mit "Kling AI" (Omni) gearbeitet und bin eigentlich recht zufrieden mit den Ergebnissen. Die sind so realistisch, dass man garnicht erkennen kann, ob das real und nur KI-generiert ist (bis auf wenige Ausnahmen "Glitches")

Nun wollte ich wissen, ob ich das ganze auch selbst offline - also stationär hinbekommen kann, weil die gängigen AI-Tools schon richtig ins Geld gehen
Am meisten (lokal) verwendet wird wohl aktuell LTX2.3, damit kannst Du schon so einiges erreichen. Tools: comfyui oder wangp. Es gibt auch viele zusätzliche Mittel und Methoden, um deutlich mehr rauszuholen, als die reine Anwendung des Basismodels hergibt. Ist halt etwas zeitaufwendiger sich in alles reinzufuchsen im Vergleich zu ner Website wie Kling und ein gewisses Maß, insb. an VRAM/RAM, sollte vorhanden sein, um Qualität bzw. einigermaßen schnell Ergebnisse zu erhalten. Mit was bist Du unterwegs?

Casius.A schrieb:
Desweiteren würde mich interessieren, ob man irgendwo unrestricted/uncensored Modelle kostenlos laden kann. Die unrestricted/uncensored Modelle, die ich gefunden habe, sind webbasiert und kosten richtig viel Geld
Einfach .red statt .com eingeben bei civitai ;)
 
Zuletzt bearbeitet:
@chr1zZo
Was Realismus angeht finde ich weniger Hochglanz und Perfektion ist immer besser.
Hab mal dein Worflow mit nem alternativen uncensored Model von Civitai paarmal durchlaufen lassen...
Aber Achtung bei diesen unzensierten Models was man da reinschreibt. Vor allem wenn man nicht so gut Englisch kann.
 

Anhänge

  • Zwischenablage01.jpg
    Zwischenablage01.jpg
    70,2 KB · Aufrufe: 16
  • Gefällt mir
Reaktionen: chr1zZo
@samuelclemens Gut, den Glanz kann man ja durch entsprechenden Prompt anpassen. Englisch ist kein Problem, aber ich lasse eh alles Claude Automatisiert / Headless laufen, da ich mit dem Lokalen Server von ComfyUI mein Claude verbunden habe. Ich habe Claude ansich massiv getrimmt für das Projekt via Openwolf mit einem DeepResearch das ganze Netz und somit baut er schon recht passend, sowie die Prompts ^^ Das Netz hat viel zu bieten, man muss das Rad ja nicht immer neu erfinden.
 
  • Gefällt mir
Reaktionen: samuelclemens
Hier mal ein Cyberpunk Test von mir.
Am Ende kommt sonst mein Firmenlogo, hab ich hier jetzt mal weg gelassen weil ich nicht weis ob das hier erwünscht/erlaubt ist.

1781041212172.png
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: qualle
chr1zZo schrieb:
Englisch ist kein Problem, aber ich lasse eh alles Claude Automatisiert / Headless laufen, da ich mit dem Lokalen Server von ComfyUI mein Claude verbunden habe.
Irgendwann muss ich auch mal von atomic stable-diffusion-webui hin zu dem (indirekten) Nachfolger ComfyUI wechseln, aber ich betreibe das Ganze nur hobbymäßig, und ComfyUI ist wohl noch einmal eine Ecke komplizierter...

Letzter atomic commit ist auch schon zwei Jahre her, weshalb auch immer.

Hier noch eine Kaffeetasse, um im Thema zu bleiben:

ai_generated_image.jpg

Leider auch sehr Hochglanz, dadurch etwas weniger "echt wirkend"...

Aber ich bekomme es partout nicht auf die Kette, dass er den silbernen Löffel ignorieren soll. Den "halluziniert" er immer dazu. Entweder, mein Prompt, die Samples oder CFG sind falsch, das konnte ich noch nicht herausfinden.

Englisch... man kann ja auch eine andere Text-KI fragen, sie soll einen schönen Prompt schreiben. ;) Auf Anhieb wüsste ich z. B. nicht, ob es den "Aschenbecher" im Englischen gibt. So, es ist schon spät, gn8. 🧤
 
qualle schrieb:
Englisch... man kann ja auch eine andere Text-KI fragen, sie soll einen schönen Prompt schreiben. ;) Auf Anhieb wüsste ich z. B. nicht, ob es den "Aschenbecher" im Englischen gibt. So, es ist schon spät, gn8. 🧤
Das Problem ist halt das die KI Modelle unter der Haube anscheinend alle nur Englisch können. Quasi als "Muttersprache". Die übersetzten nur alles wenn man eine andere Sprache benutzt und da kommt es wie bei Menschen immer wieder mal zu Missverständnissen zb wegen kultureller Unterschiede.
 
  • Gefällt mir
Reaktionen: qualle
Uww! Ich mache hier grad Werbung für's Möbelhaus, jetzt steht ja Fußball WM an. Nicht mein Thema eigentlich aber dankbar für KI VIdeos. Für's Möbelhaus kann ich wohl hier nix posten aber meine dumme Spielerei geht, hängt anbei :-P
 

Anhänge

  • Dinofarm_00.mp4
    6,9 MB
  • Gefällt mir
Reaktionen: chr1zZo und qualle
samuelclemens schrieb:
Das Problem ist halt das die KI Modelle unter der Haube anscheinend alle nur Englisch können. Quasi als "Muttersprache".
Ja, genau so ist es... Eine Aufzählung möglichst vieler, einfacher, am besten passender Begriffe ist ideal (aber alles auf Englisch, klar). Wobei es ja noch einmal Unterschiede zwischen AE und BE gibt... für die Amis ist BE eine Art Dialekt. Je besser die AI dich verstehen kann, desto genauer wird sie zeichnen.

So, heute wird gechillt:

ai_generated_image (1).jpg

(sieht leider so aus, als wäre eine Pfote zu viel da 😵‍💫)
 
  • Gefällt mir
Reaktionen: chr1zZo
@Keuleman Uwe Saurus? Schöner Lipsync <3
 
War kein Zauber... Text to Video. Da weiß das Modell ja direkt, wo der Dino langlaufen muss... äh, wie die Lippen wackeln müssen.
 
  • Gefällt mir
Reaktionen: chr1zZo
Google hat mir ein paar interessante Parameter verraten, um mit meinen verfügbaren Mitteln Bilder qualitativ zu verbessern (realistischer) oder zu vergrößern (up-scale). Hätte nicht gedacht, so einfach an solche Infos zu gelangen:

image.png
 
  • Gefällt mir
Reaktionen: chr1zZo
@Keuleman Könntest du in deinem Sauriervideo noch was lustiges einbauen wie zb das im Hintergrund der Dino nen Kameramann jagt oder frisst? 🏃‍♂️....🦕
Oder besser den Toningenieur am Set und es deshalb dann Tonprobleme am ende im Video gibt, fresssgeräusche oder so!🤣
Der Dino könnte auch den falsch geparkten Transporter des Kamerateams platt walzen! 🤔

Am besten ne ganze Serie von Werbeclips in denen dem Reporterteam jedes mal ein "Missgeschick" durch den Dino passiert! 🦕
Was ja die Botschaft transportiert das man manche Jobs lieber Fachkräften mit Jahrelanger Erfahrung überlässt.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: chr1zZo
An die ComfyUI User: 1. Updated ihr eure Libs/Repos innerhalb von ComfyUI via Console (pip list --outdated) und dann entsprechend pip install --upgrade <name> und 2. Habt ihr ab und zu mit VRAM Overflows zu Kämpfen, wenn ja, Workarounds? ^^
 
Auch ne ComfyUI Frage.
Hab bemerkt das bei mir nach ner weile der Energiesparmodus anspringt nach ner weile während ComfyUI zb kräftig an nem Video buckelt. Gibt es nen weg das zu verhindern?
Ich verwende ComfyUI Portable und Win 10 scheint nicht zu erkennen das das eine Software aktiv ist!
Normalerweise hat Win 10 kein Problem damit zb wenn ich Videos encodiere oder sowas.
Ich würde gern die Energiespareinstellungen so belassen bei ner halben Stunde in den Ruhezustand zu gehen.
Sonst müsste ich das jedes mal umstellen wenn ich was längeres von ComfyUI in abwesenheit berechnen lassen möchte.
 
@samuelclemens das ja crazy. Hast du mal in der .bat datei so ein command probiert?

--highvramKeep models in GPU memory instead of unloading to CPU after use.
--lowvramNo effect when dynamic VRAM is enabled. Otherwise, runs text encoders on CPU.
 
@chr1zZo Werds mal versuchen bei Gelegenheit.
 
Zurück
Oben