[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

zidius schrieb:
@samuelclemens musst du mal bei google suchen. Da gibt es mehrere Möglichkeiten.... hab das aber selber noch nie gemacht, weil nie gebraucht. Eigentlich werden sehr schnell kombinierte Dateien bei huggingface hochgeladen.
Was ist denn z.B. mit denen hier?: https://huggingface.co/Comfy-Org/ltx-2/tree/main/split_files/text_encoders
Ich hab das mal jetzt mit Ollama umgesetzt. Kann man ja neben der GUI auch sehr bequem über powershell bedienen. Auf der Ollama Website gibt es auch fertige unzensierte Modelle die man bequem per Shell runterladen und installieren kann. Die Seite bietet sogar das fertige commando an per copy & paste.
https://ollama.com/iaprofesseur/SuperGemma4-26b-uncensored-Q4
Die Ergebnisse sind jedoch ernüchternd beim kreativen Schreiben. Die Größe des Modells scheint aber eine große Rolle bei der Qualität zu spielen.
Werd aber dein Link auch mal ausprobieren.
 
Du meinst mit dem neuen Bildmodell, was da jetzt im Hintergrund bei denen rödelt? Muss ich mal testen für mein neues Projekt. Mal eine Bildbearbeitung anfragen.
 
Ich finde https://labs.google/fx/de/tools/flow ja richtig stark. Gerade weil es wohl auch in der kostenlosen Variante kein Limit für Bild-Generierung und -Bearbeitung gibt.

Das geht schon in eine deutlich bessere Richtung, als einfach seine Anfrage bei Gemini oder ChatGPT reinzuhauen.
Bei Flow kannst du das Format einstellen, zwischen NanoBanana 2 und Pro wählen und dich Schritt für Schritt deinem Wunschbild nähern + auf 2k upscalen.
(+ i2v und und und^^)
 
  • Gefällt mir
Reaktionen: MuhSagtDieKuh
@samuelclemens
samuelclemens schrieb:
Ich hab das mal jetzt mit Ollama umgesetzt. Kann man ja neben der GUI auch sehr bequem über powershell bedienen. Auf der Ollama Website gibt es auch fertige unzensierte Modelle die man bequem per Shell runterladen und installieren kann. Die Seite bietet sogar das fertige commando an per copy & paste.
https://ollama.com/iaprofesseur/SuperGemma4-26b-uncensored-Q4
Die Ergebnisse sind jedoch ernüchternd beim kreativen Schreiben. Die Größe des Modells scheint aber eine große Rolle bei der Qualität zu spielen.
Werd aber dein Link auch mal ausprobieren.
Das finde ich bei lm studio aber auch sehr bequem, du kannst direkt nach dem modell das du möchtest in HF per Namen(steil) suchen und eine für deine VRAM Größe passende Option runterladen. Das einzige was man evtl noch von Hand machen muss ist den Vision-Anteil des Modells laden/umbennenen, damit es erkannt wird- sofern man das benutzen möchte.

Fürs Schreiben wird wahrscheinlich wichtig sein, die Kontextgröße nicht zu niedrig einzustellen (benötigt auch VRAM), LM Studio hat sowohl ne Anzeige, wie voll das schon ist und bei der Einstellung der Kontextgröße auch eine Hochrechnung, wieviel VRAM benötigt wird.

Zum Modell, hast Du mal Qwen 3.6 probiert?
 
Zuletzt bearbeitet:
Puh. Ich bin mit dem neuen Chattie Bildergenerieren nicht so zufrieden. Meine lokalen Ergebnisse sind tatsächlich besser. Aber schön für alle, die schnell und unkompliziert was visualisiert haben möchten!
 
MechanimaL schrieb:
Zum Modell, hast Du mal Qwen 3.6 probiert?
Ne, noch nicht. Da mich Qwen 3.0 ja eher enttäuschte hab ich mich eher auf Gemma fokussiert. Aber ich versuch es mal mit qwen3.6:35b und Qwen3.6-35B-A3B-Uncensored.

Edit Nachtrag: Hab sie jetzt beide ausprobiert. Zensiert und Unzensiert.
Erst einmal zufriedenstellend unter vorbehalt. Wenn es darum geht frei zu "Fabulieren" ohne einschränkungen, ganz brauchbar. Geht es aber zb darum bekanntes einzubinden wie es zb in Fanfictions der Fall ist geht es meist in die Hose.
Aber mit Anleitung, also viele eigenen Ideen ganz brauchbar beim Ausarbeiten. Ganz besonders beim Strukturieren und aufbauen einer längeren Geschichte.
Jedoch benötigt man hierfür sowas wie ein Projektmanager das einzelne Chats zu einem Gesammtprojekt zusammenfügen oder einsehen kann. Ein ganzes Buch kann meiner Ansicht nach heute noch kein offline KI Tool stemmen/managen. Und ich meine damit nicht das es ein ganzes Buch alleine schreiben soll.



LM Studio benötigt iwie immer sehr viel länger für die antworten. Mag an den Einstellungen liegen. Was mir nicht schmeckt ist das der "Thinking" Prozess immer direkt auf englisch ist und man kaum mitkommt.
Kann man das bei LM Studio und/oder Ollama iwie per Shell oder Logs nachverfolgen und umstellen auf deutsch?

Interessant finde ich auch das die Modelle/Hardware anscheinend beim Texten mehr buckeln als bei Bilder und Videos!? 🤔

Im nächsten Schritt würde ich mich dafür interessieren wie ich den Modellen neues beibringe mittels Dokumenten, Internetarchiven oder Ebooks.
ChatGPT & Co scheinen ja sehr umfassend informiert zu sein, aber die offline Modelle sind milde ausgedrückt etwas weniger belesen! 🙄
Interessant wäre auch wie man die offline Modelle gezielt nach online Infos suchen lassen kann ohne dass sie zu sehr aus dem Nähkästchen Plaudern.
 
Zuletzt bearbeitet:
Das Modell mit den mixture of experts (moe) (mit A3B am Ende) ist in der Regel deutlich schneller, für diese Textaufgabe könnte aber das dense Modell besser sein (qwen3.6-27b). Es gibt Tools mit RAG und ähnlichem, das kannst du rechts als Plugin aktivieren um texte zu integrieren, aber kannst auch als input geben im Chat, muss man wahrsch. ausprobieren, was besser klappt (habe da jetzt auch nicht viel praktische Erfahrung).

Da wir hier im BIld (und ggf. noch Bewegt-Bild ;) ) -Sammelthread sind, müsstest Du am besten einen eigenen Thread dazu aufmachen oder mal schauen, ob es einen gibt, dem Du Dich mit dem Thema anschließen kannst.
 
  • Gefällt mir
Reaktionen: samuelclemens
Ist noch work in progress, hier ein snippet, das ich verworfen habe (will mehr auf "lonely", keine "crowd", düster, Gothic):

Die Frau war, ebenso wie meine "Schlagertante", eines der ersten guten Ergebnisse bei Bildgenerierung damals. Habe ich vielleicht schon mal hier gepostet aber das hier war dann das erste Image to Video, damals noch ohne Ton und WAN 2.2 (typisch 5 Sekunden-snippets zusammengeschnitten, war damals "boah" für mich):

Dann kurze Zeit später kam ja LTX und das hier war mein erster "Gehversuch", da noch mit nur Audio generiert durch LTX (da war noch nix mit Audio to Video am Start aber dennoch "wow" damals):

Kaum zu glauben, alles grad mal das letzte halbe Jahr passiert. Naja, jedenfalls dachte ich mir, die Gute hat nen Video verdient und das ist grad noch work in progress ;-D
 
So, fertig:
 
  • Gefällt mir
Reaktionen: Strahltriebwerk und chr1zZo
 
  • Gefällt mir
Reaktionen: Keuleman
Zuletzt bearbeitet:
Ich tüddel im Moment im Influencer-Marketing-Bereich rum, habe ein Musikvideo für die Firma gemacht (natürlich zur Eigenwerbung ;-D) und eine Influencerin drumrum gebaut, die die Leute ins Tonstudio einlädt etc... anbei was ganz Einfaches für Euch! Damit hier im KI Forumsbereich nicht nur die schweren Themen sind :-D

EDIT: Bin im Bereich Voice Cloning grad in ChatterBox hängen geblieben. Nicht das "dynamischste" Modell aber oh well. Es läuft!
 

Anhänge

  • 260507 Wunderschönes Wochenende_01.mp4
    402,2 KB
Zuletzt bearbeitet:
 
Ui, tote Hose hier:

 
Zurück
Oben