[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

Gestern Abend lange einen Workflow und mein Comfy gedebuggt aber nun läuft er:

ComfyUI_temp_ylcyq_00001_.png
 
Cool ,dass Du es ausprobiert hast! Hatte die Tage schonmal ein Video gesehen, aber noch nicht selbst getestet. Die grundlegenden Fähigkeiten von Qwen bzw. Qwen image edit, werden (unterstützt durch spezielle LORAs) immer mehr genutzt und - man hat das Gefühl - erschlossen :)

hier mal noch ein Video zu dem Perspektivwechsel, das verweist auch noch auf weitere Funktionen und Loras, lohnt sich mal einen Blick reinzuwerfen.


lora qwen multiple angles
lora qwen inscene
lora next-scene

Der User dx8125 (multiple angles lora) hat auch etliche andere interessante LORAs für relight und product placement Verbesserungen, siehe hier:

Mit dem Perspektivwechsel kommt auch Bewegung in konsistente Umgebungen in Videos bzw. generell mit First-Frame-Last Frame/I2v Prozessen, wie z.B. hier bereits versucht wird.
 
Gute Videos, besten Dank! Ich möchte tatsächlich als nächstes was probieren, habe ein Lora gefunden "mehrere Leute auf Sofa"... ich finde das momentan nicht wieder bei Huggingface. Erst mal suchen und dann teste ich da als nächstes weiter. Es klappt aber schon ganz gut "packe die Leute von den beiden Bildern auf das Sofa von Bild 1".

Wiedergefunden: Multiple Characters

ComfyUI_00326_.png
 
Zuletzt bearbeitet:
Comfyuimit ist ja voll genial
mit meiner rtx 4070 12GB gehts gerade noch,
ist da ein Radeon AI PRO R9700 besser ? (5090 32GB ist mir zu teuer)
 

Anhänge

  • ein bär in der badewanne.mp4
    629 KB
  • Gefällt mir
Reaktionen: Keuleman
Wäre sie vermutlich aber leider ist mit AMD Karten noch nicht so richtig Comfy lauffähig. Habe sogar über eine "Profi"-RTX nachgedacht (mit 24 oder mehr GB) aber mich dann entschieden, dass es für daheim einfach gerade mal reichen muss. Hätte noch die RTX 4070 Ti Super. Wenn ich es ganz wild treiben will werde ich wohl über Runpod nachdenken aber bislang fahre ich mit Auslagern in RAM noch gut genug für meine Hobbybildchen.
 
Nano Banana Pro / Google Gemini Image 3 - Der neue Goldstandard unter den proprietären/cloud-basierten Modellen.

 
Grad mal das neue Hunyuan Video Modell getestet... allerdings nur auf der Arbeit und da nur eine RTX 4070 12 GB. Daher distilled 8er 480p. Beim ersten Video noch leider die CFG etc nicht so sauber eingestellt gehabt.
Aber ich denke, mit RAM Offload und so läuft es gut. Unten das erste Video, habe noch das Testprompt genommen.

Edit: 2. Video ohne Probleme. 512x512er Auflösung. Sieht schick aus! Der nächste Test wird mal ein längeres Video, WAN fand ich bisher schon super aber die 4-5 Sekunden Barriere möchte ich gern noch brechen.

Edit 2: 3. Video, auch ohne Probleme. 10 Sekunden, keine Halluzinationen. Sehr schön! 30 Minuten hat er gebraucht allerdings.
 

Anhänge

  • hunyuan_video_1.5_00001_.mp4
    1,2 MB
  • hunyuan_video_1.5_00002_.mp4
    1.022,2 KB
  • hunyuan_video_1.5_00003_.mp4
    1,3 MB
Zuletzt bearbeitet:
Ok, danke für den Tipp :-) Teste ich morgen mal. Habe mir einen PC auf die Arbeit mitgenommen, auf dem ich momentan bisschen A3 Aufhänger mache. Und halt ein bisschen rumteste ;-D
 
btw: Ich habe noch gelesen, dass die verlinkte LightX-LORA nicht zur Verwendung mit dem Distilled Model ist, sondern dem Base Modell.

Was auch noch einen deutlichen Speed Boost ohne Qualitätsverluste bringt ist SageAttention, du benötigst dafür Triton, was etwas kompliziert zu installieren ist von Hand, aber es gibt eine Anwendung die von selbst schaut, was für Versionen in deiner Umgebung verwendet werden und enstprechend das passende installiert: https://github.com/Justify87/Install-SageAttention-Windows-Comfyui - wird dann mit KJs "Patch Sage Attention" an s Model gehängt im Workflow.
 
Ui, ok. Der besseren Flexibilität wegen habe ich Comfy als Portable auf einer externen SSD installiert (so kann ich zwischen verschiedenen Rechner switchen). Möchte mir nicht nur für bisschen schnelleres Video generieren die Installationen zerschiessen (ohne geguckt zu haben, ob Sage Attention auch portabel einfach geht).
 
bei der portablen installation läuft comfyui in deinem python embeded environment, also einer eigenen python umgebung, unabhängig davon, was auf deinem system installiert ist und dort wird auch die installation von triton/sage attention angelegt, das ist genau dafür gemacht. es gibt auch die option eines -DryRun :)

so sehr überzeugt hat mich das hy1.5 beim ersten test noch nicht, aber ich schaus mir mal noch näher an, falls du prompt optimierung dafür machen möchtest, es gibt vom hersteller ein system prompt für llms zu erstellung.

You are a world-class video-generation prompt engineer. Your name is “Hunyuan Video Rewriter 1.5.” Your core mission is to expand simple user sentences into detailed, structured, objective, and thorough video-generation prompts. The final prompts must follow strict logical order, moving from general to specific, using precise professional vocabulary to guide an AI model to generate physically coherent, beautifully composed, high-quality video.

1. Core General Principles

When constructing any prompt, you must follow these basic rules:

I. Universal Sentence Structure & Grammar Rules (applies to all video types)

These form the foundation for describing any video, regardless of style. Descriptions are always organized in an objective, detailed, and easily parsed manner.

A. Overall Description Structure
The description follows a logical, layered flow from general to specific.

Subject & Scene Introduction:
Almost always starts by introducing the main subject and the immediate setting.
Examples omitted for brevity.

Subject Detail Description:
Then specific details about appearance, clothing, and notable features.

Chronological Action Sequence:
Actions are described in the order they occur, using transitions like “Initially,” “Then,” “Next,” “As,” “Finally.”
This section must be detailed, because it guides the video model.

Environment & Background Details:
After the main actions, describe the surroundings, background, and secondary elements.

Technical/Style Summary:
Ends with technical aspects like camera movement, shot type, mood, lighting.

B. Core Grammar Rules

Tense:
Use present tense. Makes the description feel immediate.

Sentence Structure:
Mostly declarative.
Structure typically: Subject + Verb + Details.
Heavy use of prepositional phrases and participial phrases.

Vocabulary & Tone:
Rich adjectives, precise action verbs, tone always objective and factual.

II. Rules for Different Video Types

A. Live-action / Realistic Videos
Emphasize human details, real-world interactions, cinematic terminology, natural or cinematic lighting.

B. Animation / CGI
Emphasize stylization, exaggerated motion, clear style definition.

III. Camera Control Guidelines

A large list of defined camera-motion keyword mappings (pan, tilt, push-in, pull-back, drone view, rotation, fisheye, macro, etc.).
You must use the corresponding phrases exactly when those camera movements are implied.

IV. Standard Generation Process

Before generating the final prompt, follow these steps:

Language Rules:
Final prompt output must be in English.
Rendered text in the video stays in the original language (English uses "", Chinese uses “”).
Pokémon names must use English names.

Analyze Core Elements & Risks:
Summarize video story in 1 sentence at the top.
Identify subjects, actions, motion, environment, narrative arc.
If user gives a precise number of entities, you MUST follow it.
If vague, limit to 3 or fewer.
Watch for high-risk concepts (complex physics, abstract sequences, typography).
Convert non-visual cues to visual equivalents.

Determine Cinematography & Composition:
If the user specifies shot types or camera terms, follow them strictly.
Otherwise choose suitable camera work.
Apply professional composition, consider staging and motion paths.

Choose Art Style:
If specified, obey. If not, infer. Default: cinematic realism.

Determine Camera Motion:
If specified, map to correct camera-motion keywords.
If not specified: eye-level, light subtle motion from a small list.

Fill Details & Review:
Video is always 5 seconds.
All actions must logically fit in 5 seconds.
Describe materials, textures, gestures, expressions, secondary elements.
Ensure physical logic, continuity, no deformities or anatomical errors.
Be careful with sparks, lightning, sweat—high error rate.
Clarify screen/lens orientation when needed.

Final Validation:
Check all user content is fully represented.
Check no major new objects/events were added.
Check physics/time logic.
Check Pokémon names.
If anything fails → regenerate from scratch.

Retry if Validation Fails.

V. Style-Specific Creation Guidelines

For realistic/cinematic style:
Act as a master cinematographer.
Use professional lighting (Rembrandt, golden hour, soft/hard light, backlight, contrast, color temperature).
Describe highlights, shadows, reflections, silhouettes, textures, depth, atmospheric details.
Use lens terminology (wide-angle, telephoto compression, shallow depth-of-field).
Use composition principles but don’t name them explicitly—apply them implicitly.
If multiple entities and the user didn’t specify the number, keep ≤3 and describe them clearly.
 
Zuletzt bearbeitet:
Oh, ok :-) habe die Daten eh gesichert, gucke ich mir dann doch mal an. Zur Not kann ich ja immer noch zurück spielen.
 
Flux2 inkl. "dev" (freies Modell) ist rausgekommen! Es wird bereits von ComfyUI unterstützt.

Um es lokal zu nutzen benötigt man die fp8 Version (24GB+ VRAM) oder kleinere Varianten (gguf). Es ist ein 32B Parameter Modell (vgl. Flux 1 Dev war 12B, Qwen 20B) entsprechend ist die fp16 Variante lockere 64GB groß ^^ Das text-encoder Modell ist eines von Mistral und auch hier schlägt die fp8 Variante bereits mit ~16GB zu Buche. Allerdings gibt es für alle dieser Modelle natürlich auch kleinere Optionen (bzw. diese sind grade in Arbeit). Auch der bereits bestehende Comfy-UI Support (Workflow Template, Prozesse) wird weiter verbessert, während ich das schreibe :)

Hier die Details für ComfyUI.
GGUF-Modelle (kleinstes 11GB)
 
  • Gefällt mir
Reaktionen: zidius und Rickmer
MechanimaL schrieb:
Gut, bei einem Q2 Quant ist dann aber auch fraglich, ob es wirklich gegenüber einem höheren Quant eines kleineren Modell zu bevorzugen ist.

Ich denke, die Q4 oder Q5 Quants werden hier am beliebtesten sein auch für Leute mit 24+ GB VRAM. Dann ist mehr Raum für anderer Sachen die VRAM nutzen und insbesondere bei Q5 ist der Unterschied zu FP8 oder höher sehr gering.
 
Bin nicht so üppig ausgestattet, FP8 wird es sein müssen für mein bisschen "rumspielen". Aber danke @MechanimaL für die Info! Freue mich, ich mag gerne Sachen mit Flux machen und freue mich schon auf die ersten Tests "altes Prompt neues Modell".

Flux2_00001_.png
Flux2_00004_.png
14 QWEN jibMix V4.png
 
Zuletzt bearbeitet:
Es gibt schon wieder ein neues open source Bild-Modell

Z-Image! Und man kann schonmal sagen (verhältnismäßig) Klein aber Oho! :)

https://comfyanonymous.github.io/ComfyUI_examples/z_image/

hier ein paar Beispielbilder
1 2 3

Es ist das (distilled) Turbo-Modell. Das Base Modell (noch besser, aber evtl. etwas größer) sollte auch bald erscheinen, ein Edit Model ist ebenso geplant. Außerdem müsste jeden Moment noch eine neue Version von Qwen Edit (2511) rauskommen. AI never sleeps... ^^
 
MechanimaL schrieb:
Es ist das (distilled) Turbo-Modell.
Mit 6B Parameter ist das wirklich sehr klein. Bis einem einfällt, dass SDXL nur 2.6B Parameter im Unet hat und das noch immer sehr beliebt ist.

Ich habe erstmal nur spontan gesehen, dass comfy das Flux VAE nutzt. Weißt du zufällig, woher das kommt?

Im offiziellen Repo das VAE ist halb so groß - scheint aber nur daran zu liegen, dass es als BF16 statt F32 vorliegt:
https://huggingface.co/Tongyi-MAI/Z-Image-Turbo

Ersteller ist wohl Alibaba?
Haben die bei Black Forest Labs die Hausaufgaben abgeguckt, oder wie kommt es zu der Verwendung des identischen VAE?
 
Hmmm, wenn es auf 32 GB RAM und CPU only läuft könnte das die Alternative zu Flux Schnell werden auf Arbeit.
 
Zurück
Oben