News
Apps

OpenAI: Sora generiert Videos in bis zu Full-HD-Auflösung

16.2.2024 11:20 Uhr

Nicolas La Rocco

Bild: OpenAI

OpenAI kann mit Sora jetzt auch hochauflösende Videos auf Basis der Texteingabe eines Anwenders erzeugen. Das KI-Modell folgt auf andere Modelle wie das aktuelle GPT-4 und DALL·E 3, die Text und Bilder generieren können. Sora befindet sich zunächst noch in einer Erprobungsphase und soll von Experten auf Schwächen geprüft werden.

Full-HD-Videos bis zu einer Minute

Sora kann Videos mit einer Länge von bis zu einer Minute in bis zu Full-HD-Auflösung in verschiedenen Seitenverhältnissen erzeugen. Zugriff auf Sora erhalten zunächst die sogenannten „red teamers“, also Experten, die auf Fehlinformationen, hasserfüllte Inhalte oder Voreingenommenheit spezialisiert sind. Zudem können ausgewählte Künstler, Designer und Filmemacher auf Sora zugreifen und Feedback abgeben.

Sora kann Text, Bilder und Videos verarbeiten

Auf der Website für Sora zeigt OpenAI eindrucksvoll, was das neue KI-Modell zu leisten imstande ist. Sora kann vielfältige Szenerien unterschiedlichster Gestaltungsstile inklusive Charakteren, Kamerafahrten und mehr generieren. Das KI-Modell versteht dabei nicht nur die Texteingabe des Anwenders und generiert darauf basierend ein Video, sondern auch, wie diese Dinge in der physischen Welt miteinander interagieren.

Das KI-Modell hat noch Schwächen

Dabei gesteht OpenAI aber auch ein, dass Sora durchaus noch einige Schwächen habe, die das Unternehmen neben den überzeugenden Videos ebenso zur Schau stellt. Das KI-Modell habe zum Beispiel Probleme damit, in komplexen Szenen korrekt den physikalischen Regeln zu folgen. Auch Ursache und Wirkung verstehe Sora nicht immer korrekt. Als Beispiel nennt OpenAI einen abgebissenen Keks, der im Anschluss wieder ganz dargestellt wird. Sora könne auch räumliche Details einer Texteingabe fehlinterpretieren, links und rechts verwechseln oder mit präzisen Beschreibungen eines zeitlichen Ablaufs Probleme haben, etwa wenn spezifische Kamerafahrten gefordert werden.

Sora kann allerdings nicht nur auf Basis von Texteingaben Videos erstellen, sondern akzeptiert auch Bilder und andere Videos als Input. Bestehende Videos können sowohl vor als auch nach der eigentlichen Aufnahme in der Länge verändert werden. Wie die GPT-Modelle von OpenAI setzt Sora dabei auf die Transformer-Architektur. Hintergründe zur technischen Funktionsweise von Sora erklärt OpenAI in einem separaten Beitrag. Alle auf der Website gezeigten Videos wurden ausschließlich mittels Sora generiert.

CB-Funk Podcast #166: Der 9950X3D2, „günstigerer“ HUDIMM-RAM und WLP-Spleens mit Fabian und Jan-Frederik