Visuelle Erweiterung: ChatGPT kann Bilder mit Dall-E 3 generieren

20.10.2023 11:15 Uhr

OpenAI arbeitet weiter an den visuellen Funktionen von ChatGPT. In die kostenpflichtigen Enterprise- und Plus-Versionen wird nun der Bildgenerator Dall-E 3 integriert. Nutzer können damit innerhalb des Chat-Verlaufs auch Bilder generieren.

Die Eingabe erfolgt wie bei Bildgeneratoren gewohnt. Man gibt den entsprechenden Prompt-Befehl ein und erhält vier Vorschläge. Als Beispiele für Anwendungszwecke nennt OpenAI das Bebildern eines Vortrags, das Entwerfen eines Logos und das Gestalten von Web-Design.

DALL·E 3 is now available to all ChatGPT Plus & Enterprise users, letting you create unique images through conversation.

Describe your vision, let ChatGPT generate multiple variants, and then request edits — all in real-time. https://t.co/kV3O1VGFCq pic.twitter.com/egLHgnBFpV
— OpenAI (@OpenAI) October 19, 2023

Multimodal ergänzt wurde ChatGPT zuletzt schon um Sprach- und Bildfunktionen. So kann der Chatbot Bilder interpretieren und Audio-Eingaben verarbeiten und per Sprachausgabe antworten – möglich sind also „richtige“ Gespräche.

Die neue Bildgenerierung soll von jetzt an verfügbar sein, im Laufe des Herbstes soll es auch über die API abrufbar sein. In der ChatGPT-Version, die die Redaktion nutzt, ist die neue Funktion noch nicht angekommen.

Dall-E 3 als technische Grundlage

Generiert werden die Bilder mit Dall-E 3, OpenAIs neuester Version des Bildgenerators. Dieser habe laut OpenAI vor allem bei Details wie Texten, Hände und Gesichtern Fortschritte gemacht. Es sind also die Bereiche, bei denen die modernen KI-Bildgeneratoren generell die größten Probleme haben. Hände mit sechs Fingern oder verformte Gesichter zählen zum Alltag bei den Tools. Dasselbe gilt für Schriftzüge innerhalb der generierten Inhalten, auf Plakaten oder ähnlichem steht gerne mal Kauderwelsch.

OpenAI erklärt, diese Bereiche im Training der Modelle direkt adressiert zu haben. Dazu wurde ein verbessertes Bildbeschriftungsprogramm verwendet, um präzisere Beschreibungen für die Bilder zu erstellen, mit denen das Modell trainiert wurde. Auf diese Weise kann es die Eingaben der Nutzer adäquater umsetzen.

Mit dem Update soll Dall-E 3 mit Konkurrenten wie Midjourney oder Adobes Firefly-Lösung mithalten. In Microsofts Bing wurde Dall-E 3 schon Anfang Oktober integriert. Ebenso soll Paint bald Bilder mit OpenAIs Modell generieren können.

Mehr Sicherheit durch Wasserzeichen

Auch bei den Sicherheitsstandards legt OpenAI nach. So verfügt Dall-E 3 über ein Wasserzeichen-System, mit denen sich Bilder identifizieren lassen, die über das KI-Tool generiert worden sind. OpenAI spricht von einer hohen Erkennungsrate. Selbst wenn KI-Bild in ein Format wie JPG umgewandelt und komprimiert wird, soll die Trefferquote noch bei über 95 Prozent liegen.

Mit einem mehrstufigen Sicherheitssystem will man zudem verhindern, dass potenziell schädliche Bilder generiert werden. Dazu zählen gewalttätige, nicht-jugendfreie und hasserfüllte Inhalte.

Sperre für Bilder im Stil lebender Künstler

Auch beim Urheberrecht legt OpenAI nach. So existiert eine Sperre, wenn Nutzer Bilder im Stil eines lebenden Künstlers erstellen wollen. Künstler haben zudem die Möglichkeit, ihre Bilder aus dem Trainingsdatensatz entfernen zu lassen. Ob das ausreicht, bleibt abzuwarten. Insbesondere in den USA laufen mehrere Klagen von Künstlern und Autoren, denen sich zuletzt auch Game-of-Thrones-Autor George R.R. Martin angeschlossen hat. Die Klagen richten sich gegen die Datensätze, die schon in der Vergangenheit zum Training der Modelle verwendet worden sind.

CB-Funk Podcast #67: Intels K-CPUs altern wirklich und Leser benchen Manor Lords mit Fabian und Jan-Frederik