[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

Ouf. Deswegen bin ich bei ComfyUI und da Portabel. Wenn sich was zerknallt - Modelle und Workflows gesichert, Rest eben neu druff und einmal update.bat, Modelle rein, Workflows zurück, fertig. Musste ich bislang aber auch nur 1x machen.
 
Welche Grafik hast Du denn?
 
Zuletzt bearbeitet:
gerade pytorch und xpu machen die großen probleme bei EasyDiffusion

es scheint neue versionen zu geben, die nicht mit dem user interface zusammenspielen wollen
 
Wenn Easydiffusion in einer eigenen Umgebung läuft, musst du über die dortige python.exe mit entsprechenden Befehlen arbeiten (sonst installierst du im System statt in der Umgebung). (python.exe -m pip ... ). Würde mir da mal mit Grok/ChatGPT etwas Hilfe holen, anhand der Fehlermeldungen, die Du hast. Noch ne Anlaufstation: Discord von Easydiffusion

Was unterstützt Easydiffusion denn an Modellen, ich hatte den Link mal angeklickt irgendwann, das hab ich im Browser gesehen, aber es hatte es aus irgendnem Grund, vll mangelnder Model-support/aktualität nicht in die Liste der GUIs im Startthread geschafft.

Kaputt machen kannst Du mit obigem Link nichts, spielt sich alles in einer eigenen Python-Umgebung ab.
 
Zuletzt bearbeitet:
Keuleman schrieb:
Ouf. Deswegen bin ich bei ComfyUI und da Portabel
Gerade das ist an solchen Tools - die nicht als Exe daherkommen - so schön. Man kann alles Isolieren und hat keinen Stress. Ich nutze Python UV. Funktioniert super einfach.

Noch ein Spielzeug: https://github.com/kijai/ComfyUI-Florence2

Für jeden, der sich noch etwas schwer tut, Bilder zu beschreiben. Ich finds ja schon sehr heftig, wenn KI Bilder besser beschreiben kann als Menschen (ich). Hoffentlich bleibt das fühlen aber dem Menschen vorbehalten...
1769971633417.png
A young woman sitting on a rocky shore near a river, wearing a checkered shirt and denim shorts. she has light brown hair styled in loose waves and is looking directly at the camera with a neutral expression. the woman is sitting in the middle of the image, with her left hand resting on her head and her right hand touching her hair. she is wearing white sneakers with white laces and a pair of white socks. the background features a lush green forest with trees and a river flowing in the distance, creating a peaceful and serene atmosphere. the lighting is soft and natural, highlighting the natural beauty of the scene.
 
Zuletzt bearbeitet:
Weiter oben ja schon mal ein Bild durch... glaube QWEN... gejagt, um ein Prompt draus zu generieren. Übel ähnlich aussehend, mit dem Prompt wieder ein Bild gemacht... echt krass, wie nah dran. @Meta.Morph
 
Vigilant schrieb:
Was habt ihr eigentlich alle mit dem Generieren von KI-Mädels? 😂
Weil ich Männer nicht ganz so fühle... aber hast ja recht 😉 . Darüber hinaus wollte ich Danbooru Tags. Aber die beschreiben ehren Menschen.

Aber abstrakt kann Florence2 auch beschreiben.
1769973040761.png

A whimsical digital illustration from a side angle about a colorful snail sitting on a branch in a magical forest at night, surrounded by bokeh lights. the snail is positioned in the center of the image, perched on a tree branch with lush green foliage surrounding it. its shell is intricately detailed with a rainbow of colors, including blues, greens, yellows, and oranges, creating a vibrant and dreamy atmosphere. the background features a starry night sky with soft, glowing circles scattered throughout, adding to the magical ambiance of the scene. the tree branch is covered in moss and lichen, adding texture and depth to the image. in the foreground, there are various plants and foliage, providing a natural setting for the snail.
Ergänzung ()

Keuleman schrieb:
glaube QWEN... gejagt, um ein Prompt draus zu generieren
Achso, ja. qwen vision?
Das Modell ist doch auch wieder X GB groß? Florence2 ist da weniger Speicherhungrig...

Kannst du die Prompt wenigstens direkt verwenden? Wenn ich Gemini um einen Prompt bittet, werden direkt wieder die bekannten Schlagwörter gedroppt und ich muss erst noch genau definieren, welches Format ich haben will und das wir 2026 haben.

Der output von Florence2 ist Danbooru Konform und es liefert einfach nur eine Beschreibung ohne Bullshitbingo.
 
Zuletzt bearbeitet:
So ein kleines Model mit Vision ist schon praktisch, das kann in comfyui verwendet werden und auch entladen und geladen ohne lange Wartezeiten. Man sieht mittlerweile viele Workflows mit diversen LLMs drin zum Prompt verbessern /Bild Input etc. In LM studio benutze ich eine Variante von Qwen 3 VL 32B.

Das kann mir auch alles mögliche bzgl. Prompts geben, wenn ich es entsprechend instruiere, aber ich werde mir auch noch was kleineres direkt in comfy oder swarmui als Prompt-Enhancer/Image-Ausleser bauen, find ich letztlich cooler als irgendwelche online Dienste zu verwenden.

Was beim Prompting finde ich noch wichtig ist, dass man ein System Prompt verwenden kann, damit man je nach verwendetem Bildmodell ein angepasstes Prompt bekommt. Bisher hatte ich mir da bei chatgpt ein paar "gpts" angelegt, das sollte sozusagen als presets verfügbar sein.
 
Ewig her... glaub Bild, Ollama und da ein QWEN 3 Modell gebeten, mir das Prompt dazu zu machen.

Ah, hier, Post #782
"Oder in eine LLM das Bild rein packen und (hier isses QWEN3-vl:30b) bitten, das Bild in ein Prompt zu verwandeln. Habe ich mal gemacht:"
 
Aus Spaß die Prompts oben durch Flux 1 Schnell gejagt:

ComfyUI_00364_.png
ComfyUI_00363_.png
Läuft halt auf CPU, sieht dafür toll aus. Hätte ich die Prompts nicht gekannt - wäre Material für eins der großen Modelle und dann halt daheim gewesen.
 
Gehört wohl nicht hier rein (Audio, nicht Bild) aber Ace Step v1.5 ist gestern noch raus gekommen. Habe was gezaubert und es ist konsistent! 3 Minuten. Text selber ausgedacht, rein damit... wow. Es groovt!
 
Hallo, ja da gibt aktuell insb. zwei interessante Programme: Das von Dir erwähnte Ace Step 1.5 und Heartmula (von dem bald sogar noch ein größeres Modell erscheint, auf das ich schon gespannt warte).
 
  • Gefällt mir
Reaktionen: Tr8or
Meine Nemesis: aus den erzeugten Liedern ein Video machen. Nemesis #2: aus generierten Stimmen ein Video generieren, wo eine Person mit Mundbewegung spricht :-D
 
https://www.youtube.com/@DorothyJeanThompson/videos

Hier die neusten Videos. Sie hat ihren Workflow auch öffentlich (im Banodoco Discord), Username: VRGameDevGirl (oder ähnlich). Vll auch noch woanders, kann ich auf Wunsch später mal schauen :) Eine sehr nette und hilfsbereite Person, hatte sich auch in der Vergangenheit schon mit Loras für Video Modelle einen Namen gemacht :)
 
  • Gefällt mir
Reaktionen: Meta.Morph
Discord hab ich ja leider nicht... vielleicht schreibe ich sie mal bei YouTube an. Aber irre, was ich da gesehen habe, brutal. Und nach wie vor glaube ich eh nicht, dass meine Hardware dafür reicht. Aber... aber wenn ich mit Bildern zu Video arbeite kann ich da was zusammen fummeln mit nem Videoschnitt.
 
vielleicht hilft dir auch das: https://github.com/vrgamegirl19/comfyui-vrgamedevgirl/tree/main (hier sind ihre WFs)

Ergänzung ()

von skyreels gibts auch was neues u.a. reference2video (r2v)
https://huggingface.co/Skywork/SkyReels-V3-R2V-14B
video:

Edit: Habe gelesen, dass man die älteren (Wan 2.1) "Pusa" Workflows verwenden kann.
Modell: https://huggingface.co/Kijai/WanVideo_comfy_fp8_scaled/tree/main/SkyReelsV3
Workflows: Für i2v und für r2v einen von Wan 2.1 Phantom (was auch nicht schlecht war) oder den hier angehängten, den mir Lord Kijai grade auf Discord gegeben hat ^^
 

Anhänge

Zuletzt bearbeitet:
Zurück
Oben