Von der Kamera zum gerenderten Gegenüber
Technisch handelt es sich gar nicht um ein klassisches Video, erfahre ich im Anschluss, sondern um eine mehrstufige Rekonstruktion. Sieben Kameras und ein Beamforming-Array bestehend aus zwölf Mikrofonen, allesamt verteilt im Rahmen des 65-Zoll-Panels mit 8K-Auflösung, sowie zwei weitere Mikrofone auf dem Tisch erfassen die Person aus unterschiedlichen Winkeln. Die Daten werden in einem Google-Rechenzentrum in Echtzeit verarbeitet und als synthetisches Bild neu gerendert.
Ich sitze also gar keinem Videostream im klassischen Sinne gegenüber, sondern einem generierten – aber hyperrealistischen – 3D-Abbild, das kontinuierlich an Perspektive und Blickrichtung angepasst wird. Wie Google erklärt, kommt dabei ein speziell trainiertes KI-Modell für volumetrische Videoinhalte zum Einsatz.