MechanimaL
Lt. Commander
- Registriert
- Nov. 2005
- Beiträge
- 1.134
Die Möglichkeiten der Bild-Erschaffung mittels künstlicher Intelligenz haben in der jüngsten Zeit einen enormen Schub erfahren. Zugleich wurde der Zugang für die Allgemeinheit erleichtert, indem mehrere Anbieter entstanden sind, die "txt2img" Dienste kommerziell betreiben (z.B. "Midjourney") oder die nötige Software kostenfrei und quelloffen zur Verfügung stellen ("Stable Diffusion").
"Txt2Img" bedeutet, dass Bilder durch die Eingabe eines "Prompts" in Form einer Beschreibung, was auf dem Bild zu sehen sein soll, erschaffen werden. Hierfür wurden AI-Systeme mit Millionen von Bildern und deren Beschreibungen trainiert. Somit stehen uns prinzipiell zuvor nicht da gewesene Möglichkeiten der künstlerischen Entfaltung bzw. Erschaffung von Bildern, ganz ohne selbst die handwerklichen Fertigkeiten dafür zu besitzen, zur Verfügung.
Im CB-Forum sind zu dem Thema bereits einzelne Threads aufgeploppt. Um dem bestehenden Interesse gerecht zu werden, die aktiven Nutzer zusammenzubringen und Neue auf dieses Thema aufmerksam zu machen, soll nun dieser Sammelthread dienen. Im Folgenden findet Ihr außerdem Hinweise auf Online- Dienste, Testseiten und lokale Nutzungsmöglichkeiten, samt Installationshilfe. Am Ende dieses Posts stehen Links zu Youtube Channels (u.a. mit Tutorials zu bestimmten GUIs), sowie zu Wikis, Guides, Prompting Tipps, Communities- hauptsächlich zu Stable-Diffusion.
Beispiel:
Stable Diffusion 1.5
Es gibt eine sehr aktive "GUI"-Entwickler-Szene, die verschiedene (häufig Browser-basierte) "UIs" dafür hervorgebracht hat, die z.T. mehrere Updates täglich unterlaufen. Im folgenden eine Übersicht:
Ob Euch die Perfomance mit eurer jeweiligen Hardware zufriedenstellt, probiert ihr am besten selbst aus. Diese ist auch stark davon abhängig, mit welchen KI-Modellen ihr arbeitet. Bereits ab 4GB VRAM könnt ihr kleinere Modelle, wie z.B. SD1.5 (Basisauflösung 512x512) nutzen. Die Bilder können im Prozess der Erstellung oder im Nachgang noch hochskaliert werden und bereits mit Community Modellen von SD1.5 können ansehliche Bilder erstellt werden. (Ergebnisse von SDXL und FLUX, die mehr VRAM benötigen, findet ihr in der obigen Tabelle.)
Hier findet ihr Benchmarks der Bildgenerierung mit verschiedenen Karten. Hier listet comfyUI Empfehlungen zum Kauf von Grafikkarten auf.
Folgt den Installationsanweisungen auf der Github-Seite und installiert das Tool am besten auf einer SSD mit mindestens 30GB freiem Platz (besser 100+), sonst müsst ihr ständig Models, die zwischen ~6-22GB groß sind hin und herschieben oder von langsameren Platten laden.
Stellt fragen gerne in diesem Thread oder besucht den Discord von SwarmUI.
Andere Communities
Wichtige Anlaufstellen für Bild- und Videogenerierung sind z.B.:
Ich hoffe dieser Thread wächst und gedeiht, mit zahlreichen Bildern, an denen wir uns gemeinsam erfreuen können und die neue User dafür begeistern, sich auch mit diesem spannenden Thema zu beschäftigen. Bei Änderungs- oder Ergänzungswünschen, schreibt mich einfach per PN an.
"Txt2Img" bedeutet, dass Bilder durch die Eingabe eines "Prompts" in Form einer Beschreibung, was auf dem Bild zu sehen sein soll, erschaffen werden. Hierfür wurden AI-Systeme mit Millionen von Bildern und deren Beschreibungen trainiert. Somit stehen uns prinzipiell zuvor nicht da gewesene Möglichkeiten der künstlerischen Entfaltung bzw. Erschaffung von Bildern, ganz ohne selbst die handwerklichen Fertigkeiten dafür zu besitzen, zur Verfügung.
Im CB-Forum sind zu dem Thema bereits einzelne Threads aufgeploppt. Um dem bestehenden Interesse gerecht zu werden, die aktiven Nutzer zusammenzubringen und Neue auf dieses Thema aufmerksam zu machen, soll nun dieser Sammelthread dienen. Im Folgenden findet Ihr außerdem Hinweise auf Online- Dienste, Testseiten und lokale Nutzungsmöglichkeiten, samt Installationshilfe. Am Ende dieses Posts stehen Links zu Youtube Channels (u.a. mit Tutorials zu bestimmten GUIs), sowie zu Wikis, Guides, Prompting Tipps, Communities- hauptsächlich zu Stable-Diffusion.
Wünschenswerter Inhalt von Beiträgen
- Fragen zu entsprechenden Plattformen / Software und deren Nutzung
- Das Teilen von selbst erstellten Bildern, bzw. Feedback zu diesen
- Tipps und Tricks zur Bilderstellung, sowie das Teilen von Informationsquellen
- Neue Entwicklungen in dem Bereich mitteilen und kommentieren
- Genereller Austausch zum Thema Bild-KI
Posting-Regeln für Bilder
- Bei Bildern bitte immer (mindestens) angeben, womit und mit welchem Prompt es erstellt wurde, wie im folgenden Beispiel dargestellt. Bei mit Hilfe von "img2img" oder anders weiter bearbeiteten Bildern, gerne den Entstehungsprozess mitteilen oder mit Bildern darstellen - das kann sehr hilfreich sein.
- Für den Inhalt der Bilder gelten die Allgemeinen Forenregeln
Beispiel:
Stable Diffusion 1.5
award winning underwater photo of a cute sea urchin eagle, 4k
Closed-source/Online-Modelle (volle Nutzung idR. kostenpflichtig)
In der folgenden Übersicht findet ihr die beliebtesten closed source Modelle. Wer einmal txt2img online testen möchte, kann dies auf den folgenden Webseiten tun, häufig kostenlos für eine gewisse Zahl an Versuchen bzw. mit eingeschränkten Funktionen (evtl. einmalige Anmeldung erforderlich). Die "Multi-Modell"-Seiten haben immer die neusten und besten Modelle zur Auswahl (sofern möglich), lohnen sich also zum Vergleichen oder um mehrere Modelle ihren Stärken nach einzusetzen und dafür nicht mehrere Abonnements zu brauchen. Eine weitere Übersicht über die aktuell besten Modelle bietet dieses Leaderboard.| Multi-Modell | ChatGPT (OpenAI) | Nano Banana Pro (Google) | FLUX 1&2 pro&max (BFL) | Seedream (Bytedance) | Midjourney | Ideogram | Recraft |
|---|---|---|---|---|---|---|---|
| Openart.ai | Chat GPT | Gemini | BFL | Seedream | Midjourney | Ideogram | Recraft |
| Fal.ai | Gallerie (Sora) | Gallerie (Higgsfield) | Generieren und Gallerie | Gallerie | Gallerie | Gallerie | |
| Tensor.art | |||||||
| Flux1.ai | |||||||
| Seaart.ai |
Open-source/Offline lauffähige Modelle
Es gibt bereits zahlreiche Modelle, die ihr lokal einsetzen und frei privat nutzen könnt. (Weitere Nutzung ist abhängig von der Lizensierung). Dazu müssen diese heruntergeladen werden und in einer entsprechenden Umgebung geladen werden (weiter unten dafür eine Auflistung verschiedener Programme). Die Anforderungen pro Modell variieren, es gibt jedoch immer auch verschiedene Varianten der Modelle (Quantisierungen), die z.B. weniger VRAM benötigen, dafür aber etwas schlechter in der Qualität sind. Am besten bzgl. Anforderung und Leistung ist aktuell (01/2026) Z-Image Turbo. Die Modelle finden sich beim Hersteller (zumeist auf Huggingface gehosted) und als solche, bzw. auch in angepassten (finetuned) Formen, auf der AI-Model-Plattform "CivitAI". Diese wird nachfolgend auch als Gallerie verwendet. Hinweis: Es gibt einen SFW (.green) und NSFW Bereich (.com), wovon hier nur der SFW Bereich verlinkt ist.| Z-Image | Flux2 dev | Flux1 dev | Qwen Image | Hidream | SDXL | SD1.5 |
|---|---|---|---|---|---|---|
| Z-Image Github | Flux2 Github | Flux1 Github | Qwen Image | Hidream I1 Dev | SDXL Base Huggingface | SD 1.5 Modelle (CivitAI) |
| Gallerie | Gallerie | Gallerie | Gallerie | Gallerie | Gallerie | Gallerie |
GUIs für eine kostenlose, lokale Anwendung von Bildgeneratoren
Im Gegensatz zu anderen Produkten, lassen sich "Stable Diffusion", "Flux", "Z-Image" (u.a.) offline auf dem eigenen Rechner installieren und komplett ohne Anmeldung oder Einschränkung, sowie mit ständig wachsendem Funktionsumfang nutzen. Dazu zählt u.a. img2img, was es erlaubt, im Zusammenspiel mit der AI das Bild weiter zu verfeinern, bestimmte Bereiche zu erhalten und andere zu verändern (inpainting). Desweiteren gibt es spezielle "Edit" Varianten (z.B. Qwen Edit) oder Funktionen bei Modellen (z.B. Flux2), mit denen per Prompt Änderungen an Bildern vorgenommen werden oder bspw. auf Basis von Input-Bildern mit Menschen, Gegenständen und Hintergründen neue Bilder erschaffen werden können.Es gibt eine sehr aktive "GUI"-Entwickler-Szene, die verschiedene (häufig Browser-basierte) "UIs" dafür hervorgebracht hat, die z.T. mehrere Updates täglich unterlaufen. Im folgenden eine Übersicht:
| Name | Basis | 1 click installer | OS | Models | Projekt Page |
|---|---|---|---|---|---|
| Swarm UI | Ein Interface auf Basis von ComfyUI, verbindet somit das umfangreichste Tool für lokale Bild- und Videogeneration mit den einfachen Bedienmöglichkeiten anderer GUIs. Multi-GPU Support. | ja | Windows, Linux, Mac | SD 1.5, SDXL, Illustrious, Pony, FLUX1+2, Chroma, Hidream QWEN, Z-Image uvm. | LINK |
| ComfyUI | Node basiertes Backend mit vielseitigem Code Support für versch. Models (u.a. FLUX). Häufig Erstimplementierung neuer Tools und Models, sowie hohe Anpassbarkeit. | ja | Windows, Linux, Mac | SD 1.5, SDXL, Illustrious, Pony, FLUX1+2, Chroma, Hidream QWEN, Z-Image uvm. | LINK |
| SD Next | Fork von A1111 mit Support für Diffusers und somit mehr Models. Gute Dokumentation, aber manuelle Installation. | nein | Windows (Nvidia), Linux, Mac | SD 1.5, SDXL, Illustrious, Pony, FLUX1+2, Chroma, Hidream QWEN, Z-Image uvm | LINK |
| Invoke AI | Node basiertes GUI auf Diffusers Basis mit Fokus auf In-/Outpainting und Komposition. | ja | Windows (Nvidia), Linux, MAC | SD1+2, SDXL, FLUX, Z-Image und weitere | LINK |
| Forge NEO | Weiterentwickeltes A1111 mit besserem Ressourcenmanagement und Unterstützung von mehr Models (u.a. FLUX). | ja | Windows, Linux, Mac | SD 1.5, SDXL, Illustrious, Pony, FLUX1+2, Chroma, QWEN, Z-Image und weitere | LINK |
| ruined Fooocus | Einsteigerfreundliches UI, orientiert an Midjourney. | ja | Windows, Linux, Mac | SD 1.5, SDXL, Illustrious, Pony, FLUX1+2, Hidream und weitere | LINK |
Grafikkarten/System Voraussetzungen für lokale Anwendung
Am besten fahrt ihr als Besitzer von NVIDIA Karten (ab der 2xxxer Serie) mit möglichst viel VRAM. Auch mit AMD können, sofern ROCm unterstützt wird, gute Ergebnisse erzielt werden. Unter Windows ist ROCm hauptsächlich RDNA3 + RDNA4 High-End Karten aufwärts verfügbar, wohingegen unter Linux auch ältere Modelle unterstützt werden. Ansonsten benötigt man ZLUDA oder DirectML, was die Installation ggf. komplizierter macht.Ob Euch die Perfomance mit eurer jeweiligen Hardware zufriedenstellt, probiert ihr am besten selbst aus. Diese ist auch stark davon abhängig, mit welchen KI-Modellen ihr arbeitet. Bereits ab 4GB VRAM könnt ihr kleinere Modelle, wie z.B. SD1.5 (Basisauflösung 512x512) nutzen. Die Bilder können im Prozess der Erstellung oder im Nachgang noch hochskaliert werden und bereits mit Community Modellen von SD1.5 können ansehliche Bilder erstellt werden. (Ergebnisse von SDXL und FLUX, die mehr VRAM benötigen, findet ihr in der obigen Tabelle.)
Hier findet ihr Benchmarks der Bildgenerierung mit verschiedenen Karten. Hier listet comfyUI Empfehlungen zum Kauf von Grafikkarten auf.
Aktuelle GUI Empfehlung (01/2026)
SwarmUI damit seid ihr bestens ausgerüstet, sowohl "klassische" Models zu nutzen, in einem bequem bedienbaren Interface, habt aber auch, dank des ComfyUI Backends, die Möglichkeit, neue Modelle und Tools (idR) direkt zum Release auszuprobieren. Es läuft auf Windows, Linux und Mac (M1/M2 vorausgesetzt).Folgt den Installationsanweisungen auf der Github-Seite und installiert das Tool am besten auf einer SSD mit mindestens 30GB freiem Platz (besser 100+), sonst müsst ihr ständig Models, die zwischen ~6-22GB groß sind hin und herschieben oder von langsameren Platten laden.
Stellt fragen gerne in diesem Thread oder besucht den Discord von SwarmUI.
Andere Communities
Wichtige Anlaufstellen für Bild- und Videogenerierung sind z.B.:
Ich hoffe dieser Thread wächst und gedeiht, mit zahlreichen Bildern, an denen wir uns gemeinsam erfreuen können und die neue User dafür begeistern, sich auch mit diesem spannenden Thema zu beschäftigen. Bei Änderungs- oder Ergänzungswünschen, schreibt mich einfach per PN an.
Zuletzt bearbeitet:







