Sprach- und Bildfunktionen: Nutzer können bald mit ChatGPT sprechen

Andreas Frischholz
44 Kommentare
Sprach- und Bildfunktionen: Nutzer können bald mit ChatGPT sprechen
Bild: OpenAI

OpenAI kündigt neue Sprach- und Bildfunktionen für ChatGPT an. So soll der Chatbot bald in der Lage sein, auch auf Spracheingaben mit Sprache zu antworten, um eine Art Gespräch zu ermöglichen. Zudem kann ChatGPT bald Bildeingaben verarbeiten.

Die Sprachfunktion „Voice“ basiert auf einem neuen Text-zu-Sprache-Modell. Um gesprochene Worte in Text umzuwandeln, kommt OpenAIs Whisper-System zum Einsatz. Bei diesem handelt es sich um eine Transkriptionssoftware, die bereits seit längerem als Open-Source-Version verfügbar ist.

Sobald die neue Sprachfunktion in ChatGPT verfügbar ist, können Nutzer über die Kopfhörer-Taste auf dem ChatGPT-Startbildschirm eine von fünf Stimmen auswählen. Um diese Stimmen zu erstellen, wurde mit Schauspielern kooperiert.

Mit der Sprachfunktion legt OpenAI im derzeitigen Wettlauf der KI-Assistenten nach. Erst letzte Woche hat Amazon angekündigt, die Antworten von Alexa durch ein neues Large Language Model (LLM) zu verbessern. Microsoft startet den Copilot diesen Herbst.

OpenAIs neues Text-zu-Sprache-Modell steht auch für andere Dienste zur Verfügung. Spotify will es etwa nutzen, um Podcasts automatisch zu übersetzen – und das mit der Stimme des jeweiligen Podcasters. Erste Episoden von Dax Shepard, Monica Padman, Lex Fridman, Bill Simmons und Steven Bartlett sollen bald verfügbar sein.

ChatGPT kann Bildeingaben erfassen

Ebenfalls neu bei ChatGPT ist, dass es bald Bildeingaben verarbeiten kann. Nutzer können also etwa ein oder mehrere Bilder hochladen, um den Inhalt auswerten zu lassen. Potenzielle Anwendungsgebiete laut OpenAI: Fotografiert man etwa das Innere des Kühlschranks, kann ChatGPT anhand der Lebensmittel bestimmte Mahlzeiten vorschlagen. Auch das Auswerten von Diagrammen oder anderen Grafiken soll möglich sein. Mit einem Zeichen-Tool lassen sich zudem bestimmte Bereiche eines Bildes markieren, um die Eingaben zu präzisieren.

Technische Grundlage für die Bilderanalyse ist GPT-4, das als multimodales Modell auch Bildeingaben verarbeiten kann. Wie üblich betont OpenAI, dass Sicherheit eine entscheidende Rolle spiele. Das gelte auch für die Privatsphäre. Auf technischer Ebene wurden daher Beschränkungen eingebaut, wenn ChatGPT Personen analysieren und direkte Aussagen über diese treffen soll.

Sprach- und Bildfunktionen kommen in den nächsten zwei Wochen

Für Nutzer der kostenpflichtigen Plus- und Firmen-Varianten sind die Funktionen laut OpenAI innerhalb der nächsten beiden Wochen verfügbar. Andere Nutzergruppen wie die der normalen ChatGPT-Variante sollen aber auch bald einen Zugriff erhalten.

Die Sprachfunktion „Voice“ wird nur für die iOS- und Android-Varianten von ChatGPT verfügbar sein, Nutzer müssen diese in den Einstellungen aktivieren. Die Bilderfunktion kommt auf allen Plattformen – also auch in der Desktop-Variante.