[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

Ich schaue mir mal ComfyUI an, bin ja eh auf Linux daheim. Danke für den Tipp.
 
Auf Linux sollte es mit AMD noch stabiler laufen. Leider kann ich es nicht testen, aber vll kann @Dennis_BW bei Bedarf noch Tipps zur Installation oder Start geben.

https://github.com/Comfy-Org/ComfyUI?tab=readme-ov-file#manual-install-windows-linux

Da es schon ROCm 7.2 gibt sollte eine Zeile wahrscheinlich angepasst werden:
pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/rocm7.2

Wenn deine Karte 20GB hat (hat sie?) dann kannst eigtl direkt mit den vollen bf16 Modellen von Z-Image Turbo, Flux Klein (beide recht schnell) probieren. Flux klein kann auch bilder direkt auf Anweisung (Prompt) bearbeiten, während Z-Image Turbo ein reines Bilderstellungsmodell ist. In den Templates der Workflow (oben links auf das C klicken) sind normalerweise direkte Download Links der entsprechenden Modelle und auch die Orte, wo sie hingehören dokumentiert.
 
Bin gerade dabei, etwas mehr Kontrolle über die Bildgenerierung zu bekommen. Wie gesagt, ich liebe Krita AI Diffusion.

Das ist mein erster Versuch:
frieren.png

frieren-generated-20260210-074746-0-fern sousou no frieren frieren elf.png

Auch hier hatte illustrious wieder Probleme mit den Händen. Aber da bin ich mit Flux2 drüber gegangen.Aber sonst ist das zu 60% das, was ich wollte und das ist, finde ich, echt viel! ich bin mir sicher, das ich das noch bis 80% oder vielleicht 90% erhöhen kann.
Und lacht nicht, wegen meinen "Zeichenskills", das war mein erster Versuch mit der Maus, das nächste mal mit Stift bzw. das letzte mal, das ich "richtig" gemalt hab, ist bestimmt 25 Jahre her :).
 
  • Gefällt mir
Reaktionen: Keuleman
Ich lache nicht. Finde den Output schon richtig gut! Problem bei selbst gemacht: man sieht alles und ist sich selbst der größte Kritiker.

Ich finde es sehr geil!
 
Keuleman schrieb:
Ich finde es sehr geil!
Hab das nur gepostet, um zu zeigen, wie geil Krita und dieses Plugin ist :)
Keuleman schrieb:
man sieht alles und ist sich selbst der größte Kritiker.
Das ist ein Problem
Ich würde genre von Leuten erfahren, die zeichnen können, ob und wie sie solche Tools nutzten. Generative KI hat immer ein unvorhersehbare Komponente. Ziel ist es, den Raum an Möglichkeiten zu verkleinern.
Meine Input Zeichnung hat, wenn überhaupt, Kindergartennouveau. Ich habs mal mit einer Zeichnung versucht, die detaillierter war (vielleicht Grundschule). Das Ergebnis war gar nicht mal so geil...

Keine Ahnung, wie gut man am Ende Zeichnen können muss, um an die 99% zu kommen, aber ab einem bestimmten Punkt, kann mans dann auch selber machen.

Die Aufgabe ist wohl eher, diesen Raum anzunehmen und damit zu spielen. Und die Gemeinsten Fehler wie Licht/Schatten, Hände etc. ausbügeln.

Und das Bild, ich habs bewusst so gelassen und hochgeladen, hat diese Fehler. Es war mein erster Test, noch dazu "quick and dirty". Frierens Umhang macht so keinen Sinn.
Tr8or schrieb:
Ich vermute kaum einer würde einen großen Unterschied merken.
Auch interessant in diesem Zusammenhang. Alle sprechen von AI Slop. Sind wir nur geschulter darin, Fehler zu erkennen? Verglich doch mal ein Richtig gutes Album - von Draft Punk vielleicht, dagegen ist alles, was Suno oder ACE Produziert Müll. Also ernsthaft Dreck. Ich kann kaum glauben, das min das nicht hören können soll? Auf der anderen Seite, wie gesagt. In einem Heise Podcast hat mal ein Host ein Test mit einem Video gemacht und dann ein Random Sprachsample darüber gelegt. Es wurde für echt gehalten, so zumindest die Aussage.

Dann kann ich das Bild da oben durchaus als "Kunst" verkaufen.
Vielleicht verdient man auch den Bären, den man sich aufschwatzen lässt :D
 
Tscha. Was ist Kunst? Da setzt es an. An den Basics, sozusagen. Zwei der KI Lieder berühren mich ziemlich, höre ich gerne. Also Kunst? Oder Müll? Picasso. Mag ich, mein Nachbar nicht. Also Kunst? Oder Müll? Definitionssache. Oder Geldsache, Picasso teuer gleich Kunst? Auch nicht, denke ich. Schwierig!
 
Keuleman schrieb:
Zwei der KI Lieder berühren mich ziemlich

Die Lyrics schreibt man meist noch selbst oder zumindest definiert man, was man haben will und korrigiert vielleicht, so hab ich das zumindest gemacht. Aber doch, die generierte Musik ist Handwerklich Schrott. Das ist wie bei den Händen und Gliedmaßen.
Aber ich weiß das schon auch zu schätzen. Bei Suno oder ACE braucht es eben kein Tonstudio mehr oder Instrument oder die eigene Melodie. Da reicht die Idee und ein paar Seeds um etwas hörbares zu schaffen.

Naja, du hast schon recht. Kunst liegt im Auge des Betrachters. Wobei man auch diese Sicht schärfen kann. Ich kam bspw. recht spät dazu, auch abstrakte Kunst zu schätzen einfach weil ich angefangen hab, das Werk zu Interpretieren.
Und bei Musik ist mir eben der Klang wichtig, lange rede, kurzer Sinn, ich mag das was Suno und ACE da kredenzen nicht. Aber das gilt inzwischen leider auch für all die anderen Titel, die diesen "Loudness War" mitgemacht haben oder immer noch mitmachen.

Dafür verstehe ich nicht so viel von Licht- und Schattenwurf oder davon, wie sich Stoffe verhalten (Faltenwurf). Vielleicht kan ich deswegen KI Bilder anders sehen.

Ein anderer, der davon ahnung hat, wird vermutlich auch zu diesem harten Urteil kommen, "was für ein Müll".
 
Zuletzt bearbeitet von einem Moderator:
Ok, einerseits ist die Entwicklung der KI Generationen nicht in allen Bereichen gleich weit. Was Fotos und ggf. auch Grafik angeht, sind wir denke ich schon weiter, als bei Video und Musik. Video holt schnell auf, bei Musik gab es zwar schon lokale Ansätze, aber sie waren immer deutlich schlechter als Udio/Suno usw. Mit Ace Step und ggf auch Heart Mula hat sich das jetzt geändert und die Entwicklung wird sich wahrscheinlich nun auch beschleunigen. Ace Step wird aber genausowenig den Sound einer Studio Produktion hinbekommen, wie ein Video Modell einen Hollywood Blockbuster produziert. Die Entwicklung geht in allen Bereichen in diese Richtung und wird auch nah, bis vll irgendwann ganz, dort ankommen, was die oberflächliche Qualität angeht. Wir sind Zeugen des Weges und können dabei unseren Spaß haben :) Schönreden braucht man sich natürlich auch nichts, das stimmt. Für Audiophile Ansprüche gibt es derzeit noch nichts in dem Bereich. Aber wenn man kein Problem mit Lofi hat, bzw. über die Schwächen Hinweghören kann, kommen teilweise schon überraschende Sachen raus, die sogar musikalisch interessant sein können, Unterhaltungswert haben oder die Hintergrundmusik für eigene Projekte bilden können und das wohlgemerkt in Sekunden, ohne Kosten und mit eigenen Rechten daran, ggf. kommerzieller Nutzung usw. :)

Ich finde jetzt auch nicht, das Ace Step generell beschissen klingt, z.B. die Stimmen klingen z.T. sogar besser, als was ich von Suno so kenne. Verzerrte Gitarren kann es leider noch nicht, vielleicht lernt es das ja auch mal irgendwann. Im Moment verwende ich das base-sft Modell mit 50-100 steps mit dem 4B LM, habe aber noch nicht allzuviel verglichen insgesamt, schien mir besser als das Turbo Modell.

Shift (std.=3) etwas erhöhen hilft evtl. dass weniger Verstimmung und Fehler vorkommen, auch den Key des Songs setzen trägt dazu bei.

Hier ist noch ein chat-gpt zur Hilfe bei der Prompt Erstellung, wenn jemand schnell testen möchte. Es erstellt die Beschreibung, Captions und Lyrics (bei Instrumtal Tracks einen Ablauf bei den Lyrics- sehr praktisch).
 
Eines hab ich bearbeitet:

silhouette-generated-20260210-230934-0-1girl solo silhouette from side look.png

silhouette.png

Sieht man den Unterschied? Vielleicht müh ich mich auch umsonst ab 😁
MechanimaL schrieb:
e Step wird aber genausowenig den Sound einer Studio Produktion hinbekommen, wie ein Video Modell einen Hollywood Blockbuster produziert.
Schon das neueste Video von AI Search gesehen?

Ich bin beeindruckt. Das nächste Star Wars kommt aus einer AI raus gepurzelt. 🙃

Aber Star Wars ist auch schon lange keine Kunst mehr.

Ich weiß nicht, ich bin noch immer der Ansicht, das wir vieles, was wir als Kunst betrachten, einfach keine Kunst ist sondern Handwerk, oft generisch. Das kann dann ruhig die KI übernehmen. Kunst kann aber nur vom Menschen erschaffen werden...

Fast and Furious 20 kann eine KI machen.
An Truman Show wäre eine KI verzweifelt.
 
Zuletzt bearbeitet von einem Moderator:
Da geht es ja wieder um die Definition: Fast and Furious... genial, Samstag Abend, ein Bier, Kumpel, alles gut. Keine Kunst! Aber ich bin unterhalten. Ich will ja gar nicht immer den nächsten Kunsthammer oder das intellektuell anspruchsvolle Lyrikkino.

Bin ausserdem niemand, der irgendwelche sozialen Netzwerke mit meinen Werken flute. Im Gegenteil, ich nutze das, um alte Fotos zu reparieren (Familie).

Ein paar der Lieder fand ich jetzt richtig gut. Deswegen höre ich aber auch nicht weniger "echte" Künstler :-)

Übrigens auch top nervig, das ist so ein Phänomen unserer Zeit: Sprüche wie "das KI Modell toppt alle anderen" oder halt oben "crushes everything". Ich kann's nicht mehr hören :-D
 
  • Gefällt mir
Reaktionen: Meta.Morph
Keuleman schrieb:
Ich muss sagen, dass mir Flux2 Klein nicht besonders gefällt.
Warum nutzt du base und nicht destilled?
 

Anhänge

  • Screenshot 2026-02-12 091656.png
    Screenshot 2026-02-12 091656.png
    73,2 KB · Aufrufe: 30
Weil es auf der Hardware problemlos läuft. Könnte sogar das "große" Modell laufen lassen aber wollte halt mal gucken, was Flux 2 Klein so kann.
 
Keuleman schrieb:
ich nutze das, um alte Fotos zu reparieren (Familie).
Welches Modell nutzt du dafür? Im Bezug darauf, ist mir bislang nur Qwen Edit und Flux 2 positive aufgefallen. Verglichst du hier genauer, ob die Personen identisch sind? Ich könnt mir wenig Verstellen, das in diesem Kontext schlimmer wäre, als nachträglich Erinnerungen zu fälschen, weil sich die Personen (minimal) verändert haben.

Keuleman schrieb:
Ich muss sagen, dass mir Flux2 Klein nicht besonders gefällt.
Wie gesagt, ist mir Flux2Klein poitiv aufgefallen. Einfach weil es das aussehen Personen auf neue Bilder gut übertragen kann.

Keuleman schrieb:
Weil es auf der Hardware problemlos läuft.
Ich nutze die destilled Version. Hauptsächlich weil es schlicht schneller ist, um den Faktor vier. Bei so etwas wie Familienfotos reparieren, wäre mir das egal. Aber, wie gesagt, halte ich Flux 2, so wie ich es verwende, noch für das Beste Modell, wenn man Charaktere Erhalten will.

Keuleman schrieb:
Bin ausserdem niemand, der irgendwelche sozialen Netzwerke mit meinen Werken flute.
Ich frage mich schon, wo das Zeug landet. Auf CivitAI kann man Bilder sehen, die ernsthaft künstlerischer Art sind (exklusive R, X und XXX). Einiges würde ich mir an die Wand hängen. Das muss doch irgendeinen künstlerischen und ja, auch Monetären Wert haben? Und vieles (also das, was man sich an die Wand hängt) ist ja weit weg von diesem Slop. Da haben sich Menschen mühe gegeben, Modelle, LoRAs, Bilder ausgewählt und Prompts geschrieben.

Damit muss man doch etwas anfangen können. Das ist zumindest die Frage, die mich gerade beschäftigt...
 
Zuletzt bearbeitet von einem Moderator:
Nimm einfach mehr Schritte beim base. ; ) (wobei du beim seed echt Pech hattest) Finde die Ergebnisse (pic 2 gleicher seed + prompt) beim normalen 9b aber auch ok, sprich der Zeitaufwand beim base ist es mMn nicht wert.
PS: z-image mag deinen prompt auch : P
 

Anhänge

  • ComfyUI_07026_3.jpg
    ComfyUI_07026_3.jpg
    1 MB · Aufrufe: 55
  • ComfyUI_00061_.png
    ComfyUI_00061_.png
    3,1 MB · Aufrufe: 50
  • ComfyUI_00076_.png
    ComfyUI_00076_.png
    2,4 MB · Aufrufe: 68
Zuletzt bearbeitet: (PS)
Ich habe für mich QWEN Image Edit 2509 als optimal festgestellt. Das neue 2511 (oder12?) ist auch gut, macht aber zu viel "dazu". Alte Fotos, mein Workflow: erster Step: "Entferne Kratzer und Unsauberkeiten". Schritt 2: "Färbe das Foto ein". Bis dahin wird an der "Geometrie" ja nix geschraubt. Ob man das dann mag oder nicht muss man selber entscheiden, ich belasse es da dann meist bei. Ob die Farben damals tatsächlich die waren werde ich, genau wie die KI, nicht mehr herausfinden. Beispiel: Altes Foto von Opa... war sein Anzug schwarz oder Anthrazit? Er ist 15 Jahre lang tot und hätte sich eh nicht erinnert, was er 1937 an hatte :-D
Bei dem Foto übrigens meine Oma im Hintergrund "gefunden"... nur durch das Einfärben ist die mir aufgefallen, vorher bei schwarz-weiß "untergegangen". War... krass, das zu sehen. Sogar mit ihrem Kind, das leider schon im Kindesalter gestorben war.

Flux 2 Schnell Distilled, jo, kann ich mir auch noch mal angucken. Aber momentan bei den Bildern sehr wenig unterwegs, bis auf für die Firma ein Bild aufhübschen für die Desktops diesen Monat tatsächlich fast nichts gemacht :-D

Grad viel am Musik rumtesten, mache mir ein Album mit "meiner" Musik.

Bei mir kein finanzieller Gedanke, hatte ja überlegt, einen Kurs anzubieten (kostenlos, ComfyUI Einstieg für Anfänger). Keine Rückmeldung bisher bzw. hart versetzt worden bei einem Bildungsträger und dafür ne Stunde Arbeitszeit verloren... ich denke mal, das Projekt werde ich bald ein-rar-en und mich neuen Dingen zuwenden :-D
 
Keuleman schrieb:
hatte ja überlegt, einen Kurs anzubieten (kostenlos, ComfyUI Einstieg für Anfänger).
Ich hege immer wieder den Gedanken, Kurse anzubieten, die für Aufklärungsarbeit leisen sollen. Alle sind schockiert über diese Bikini-Bilder auf X.

Das zeigt aber, das die Menschen komplett ahnungslos sind. Im Hintergrund, auf privaten Rechnern bereitet sich gerade eine Katastrophe vor. Da werden die perfekten Deepfakes gemacht und Tabus können dort gebrochen werden. Realität und Fiktion sind dort nicht mehr zu Unterscheiden.
 
DeepFake Nackideien mache ich gar nicht, bei mir alles bekleidet und moralisch einwandfrei. Wenn es keine KI gäbe würden die Leute, die Deepfakes machen, eben weiterhin zu Bild-Bikini-Models.. öhm... Ihr wisst ja. Aber draussen ticken die Leute alle eh gerade merkwürdig. Keine Info, dass Kollegin krank, Termin verschieben... hier kommen Leute morgens rein und sagen nicht mal mehr guten Morgen... alles irgendwie "schief".

Liegt meiner Meinung nach nicht an KI.
 
Keuleman schrieb:
DeepFake Nackideien
Hab eine ähnliche Meinung. Das sind Bikinibildchen. Sehr wahrscheinlich noch nicht einmal wahnsinnig anatomisch Korrekt. Porn ist ja genug zu finden im Internet...

Dennoch war die Reaktion ziemlich harsch, zuweilen echt Kopflos und erfolgte auch auf politischer Ebene. Im Verglich zu dem, was Privat Möglich ist, ist das, was auf X passiert, absolut Kindergarten.

Mal von Bikinibildchen und Nackedeien weg. Die heutigen Modelle sind ja so gut, das sie ein Bestehendes echtes Bild so manipulieren können, das men es nicht mehr unterscheiden kann.

Ich hab ein Bild mit einer Fußgängerzone genommen und da eine Scene hinein Editieren lassen, die da so nie statt gefunden hat. Das Originalbild war recht schlecht gemacht, die Kamera war leicht verwackelt. Die eingebaute Szene hatte diesen Fehler aber auch. Es unterschied sich nicht von Rest.

Bilder als Beweis sind eigentlich tot. Ton auch. Video wird folgen.
 
Habe für ein Album ein Bild benötigt. Hier mal ein Ergebnis, um wieder auf den Thread zurück zu kommen ;-D

ComfyUI_00424_.png
Flux 1 Schnell halt wieder.
 
  • Gefällt mir
Reaktionen: Meta.Morph
Hier mal etwas Cat-Content passend zur Jahreszeit:
abstract-generated-20260214-112613-0-cat glowing snowflake high contrast l.png

Das hab ich auch wieder mit einem SDXL Model generiert und mit Flux Refined.

Bin gerade dabei, mich wieder mehr mit SDXL Modellen zu beschäftigen - gerade weil man da so viele Möglichkeiten hat, die mehr in richtung abstraktheit gehen.

Illustrious und Pony sind zwar tolle Derivate und gerade Illustrious lässt sich super ansprechen aber hier geht es mehr darum, Menschen(und ja, meist Frauen) und Anime zu generieren. Wird auch langweilig.

Aber ich mag einfach nicht dieses Bullshitbingo von SDXL. Illustrious hat es reduziert, weil es eine reduzierte -Sprache verwendet und man kann sich sehr schön herleiten, zu welchem Ergebnis die Tags führen. Aber bei SDXL schreibt man sich echt ein Wolf: 4k, 8k, uhd, absurd, masterpeace, highly detailed, award-winning, cinematic still shot, kodachrome, uhd, canon eos.

Das Nervt wahnsinnig und mir wiederstrebt das, soetwas einzugeben. Es ist auch völlig intranparent! Was soll zum beispiel kodachrome und canon eos bewirken? Vermütlich sollen damit aufnametechnichen getiggert werden. Aber mir würde das nie einfallen...

Die Bilder sind schön, besonders wenn sie mit Flux nochmal Refined werden aber das Pormting ist absolut murks.
 
Zurück
Oben