Microsoft: VASA-1 erzeugt lebensechte Videos aus einem Bild plus Ton

19.4.2024 11:45 Uhr

Nicolas La Rocco

Bild: Microsoft

Immer neue KI-Modelle und AI-Forschungsprojekte schrauben die Anforderungen für realistische und lebensechte Videos stetig weiter nach unten. Bei Microsofts VASA-1 genügt jetzt ein einziges Bild plus Ton, um daraus ein lebensechtes Avatar als Video zu kreieren. Im Gegensatz zur Sora lässt sich VASA-1 sogar in Echtzeit ausführen.

Im Bereich der KI-generierten Videos sorgte zuletzt vor allem das von OpenAI entwickelte AI-Modell Sora für Aufsehen, das aus einer Texteingabe ein realistisches Video in bis zu Full-HD-Auflösung erzeugen kann. Sora steht der Öffentlichkeit noch nicht zur Verfügung, Zugriff erhalten aktuell ausschließlich Experten, die Sora auf Fehlinformationen, hasserfüllte Inhalte oder Voreingenommenheit überprüfen sollen. Adobe bereitet neben eigenen KI-Modellen aber bereits die Integration von Sora in Premiere Pro vor.

VASA-1 lässt sich in Echtzeit-Anwendungen nutzen

Das Forschungsprojekt VASA-1 von Microsoft ist hingegen speziell auf lebensechte Avatare ausgerichtet und kann in Echtzeit ausgeführt werden. Bei Sora von OpenAI wird ein Textbefehl zwar ebenfalls zu einem Video gewandelt, dieser Vorgang benötigt aber eine gewisse Zeit. VASA-1 lasse sich hingegen auch für Echtzeit-Anwendungen nutzen, sodass ein vom KI-Modell generiertes Video mit Avatar zum Beispiel für die Konversation in einem Video-Call mit Teams, FaceTime oder anderweitigem Livestreaming genutzt werden könnte. Die Verzögerung liege laut Microsoft lediglich bei 170 Millisekunden.

Ein Foto plus Audio genügen

VASA-1 benötigt dafür vom Anwender lediglich ein einziges Foto vergleichbar mit einem Passbild und eine Tonspur, um daraus ein lebensechtes und realistisch animiertes Video zu erzeugen, das lippensynchron zur bereitgestellten Audiodatei wiedergegeben wird. Microsofts Forscher erklären (PDF), dass sich bisherige KI-Modelle vor allem auf diesen Aspekt der lippensynchronen Wiedergabe spezialisiert haben, während Mimik, Emotionen, Kopfbewegungen und andere feine Details vernachlässigt wurden. VASA-1 soll all das bieten und damit lebensecht animierte Gesichter erzeugen können. Das beweisen die Forscher zugleich mit einer Auswahl verschiedener Kurzvideos auf der Projektseite.

170 ms Verzögerung auf Testsystem mit RTX 4090

Laut Microsoft kann VASA-1 Videos mit einer Auflösung von 512 × 512 Pixeln und 45 FPS bei der Offline-Verarbeitung oder im Online-Modus mit 40 FPS praktisch in Echtzeit mit einer vorangehenden Verzögerung von lediglich 170 ms erzeugen. Dafür genutzt haben die Forscher einen Desktop-PC mit einer Nvidia GeForce RTX 4090. Wie lange das generierte Video ausfällt, hängt von der zugeführten Audiospur ab, aufgrund der geringen Latenz lässt sich diese aber auch in Echtzeit etwa für einen Livestream importieren. Anstelle des eigenen Gesichts bekommen die Teilnehmer dann ein von VASA-1 erzeugtes Avatar zu sehen, unter Umständen ohne dass man sich darüber im Klaren ist.

VASA-1 bietet dem Anwender eine Reihe von Stellschrauben, um zum Beispiel vorab die Blickrichtung der Augen, die Ausrichtung des Kopfes, die Stimmung des erzeugten Avatars oder den Abstand des Kopfes zur virtuellen Kamera zu definieren. VASA-1 könne zudem animierte Charaktere erstellen oder solche wie die Mona Lisa zum Leben erwecken, obwohl das KI-Modell nicht mit entsprechenden Daten trainiert worden sei. Auch andere Sprachen abseits von Englisch können lippensynchron animiert werden.

Risiken und Einschränkungen

In ihrem Forschungspapier gehen die Entwickler von VASA-1 auch auf die Risiken und Einschränkungen der Lösung ein. Zwar sei das KI-Modell nicht erstellt worden, um damit andere Personen zu täuschen, durchaus könne es aber dafür genutzt werden, indem zum Beispiel über das Foto einer anderen Person diese imitiert wird. Für Microsofts Demo-Videos kamen mit Ausnahme der Mona Lisa ausschließlich mittels KI durch StyleGAN2 und DALL·E-3 erzeugte Bilder zum Einsatz.

VASA-1 habe aktuell zudem Einschränkungen in der Videoerzeugung, sobald ab dem Hals auch Teile des Torsos animiert werden sollen. Mit Haaren oder Kleidung könne es ebenfalls noch zu Problemen kommen, außerdem können Texturen manchmal fehlerhaft generiert werden.