HP Dimension mit Google Beam: 3D-Videotelefonie ohne Brille wirkt im Hands-on wie Magie
Im Rahmen von HPs Hausmesse Imagine hatte ComputerBase in New York die Gelegenheit, ein Demo-Setup von HP Dimension mit Google Beam auszuprobieren. Dabei konnte das Produkt zur 3D-Videotelefonie in Lebensgröße mächtig Eindruck schinden: Das klappt beeindruckend gut! Die Hürden sind zum Marktstart im Herbst aber gewaltig.
Erster Eindruck: Da sitzt eine Person hinter Glas
Die Tür geht auf, ich betrete einen kleinen Raum. Auf einem halbrunden Schreibtisch steht eine Art Fernseher, davor ein Bürostuhl. Ich setze mich darauf. Und plötzlich sitzt mir eine Person in 3D gegenüber – das ist gar kein Fernseher, sondern nur eine Glasscheibe?!
Erst als ich genauer hinschaue, fällt ein feines Raster auf. Die dreidimensionale Darstellung wirkt nicht perfekt scharf, aber ist durchweg ausreichend, um die Mimik der gegenübersitzenden Person und sogar einzelne Poren auf der Haut klar erkennen zu können. Bewege ich den Kopf nach links oder rechts, verändern sich Perspektive und Raumklang. Das Gefühl bleibt: Da sitzt jemand hinter dem Glas. Ich sehe meinen Gesprächspartner nicht auf einem Bildschirm, sondern einen Meter vor mir, physisch im Raum – nur eben unerreichbar. Denn die Person sitzt nicht hier mit mir in New York, sondern tatsächlich in Austin, Texas.
Dieser erste Eindruck, der sich zum Start meiner kurzen Demo-Session mit HP Dimension einstellt, trägt erstaunlich weit. Auch einfache Gesten wirken glaubwürdig. Als mein Gegenüber einen Apfel anhebt und mir entgegenstreckt, nur wenige Dutzend Zentimeter vor mein Gesicht, entsteht das Gefühl, ich könne danach greifen – aber der Griff führt haptisch ins Leere, wenngleich meine Hand optisch im Apfel verschwindet. Gleichzeitig zeigen sich Grenzen: feine Artefakte, leichtes Flimmern, und eine gewisse Künstlichkeit bei genauerem Hinsehen. Es ist kein perfektes Abbild der Realität, aber nah genug, dass das Gehirn den Unterschied für den Moment ausblendet. Und genau darin liegt die Wirkung des Systems.
Von der Kamera zum gerenderten Gegenüber
Technisch handelt es sich gar nicht um ein klassisches Video, erfahre ich im Anschluss, sondern um eine mehrstufige Rekonstruktion. Sieben Kameras und ein Beamforming-Array bestehend aus zwölf Mikrofonen, allesamt verteilt im Rahmen des 65-Zoll-Panels mit 8K-Auflösung, sowie zwei weitere Mikrofone auf dem Tisch erfassen die Person aus unterschiedlichen Winkeln. Die Daten werden in einem Google-Rechenzentrum in Echtzeit verarbeitet und als synthetisches Bild neu gerendert.
Ich sitze also gar keinem Videostream im klassischen Sinne gegenüber, sondern einem generierten – aber hyperrealistischen – 3D-Abbild, das kontinuierlich an Perspektive und Blickrichtung angepasst wird. Wie Google erklärt, kommt dabei ein speziell trainiertes KI-Modell für volumetrische Videoinhalte zum Einsatz. „Normale“ Foto- oder Videoaufnahmen des Produkts können dem nicht gerecht werden, argumentiert HP, weswegen eigene Aufnahmen der Redaktion in diesem Artikel fehlen. Das ist schade, aus meiner Perspektive aber durchaus nachvollziehbar.
Wie das Display Tiefe erzeugt
Denn die Darstellung erfolgt über ein sogenanntes Lichtfeld-Display respektive mittels Linsenrasterbild. Dabei werden nicht einfach zwei Bilder für linkes und rechtes Auge erzeugt, sondern eine Vielzahl leicht unterschiedlicher Perspektiven gleichzeitig dargestellt. Möglich wird das durch feine Linsen oder Prismen auf dem Panel, die Lichtstrahlen gezielt in verschiedene Richtungen lenkt. Je nach Position der Augen trifft dadurch jeweils ein anderes Teilbild auf die Netzhaut. Bewegt man den Kopf, verschiebt sich dieser Winkel kontinuierlich, analog eines Parallax-Effektes, wodurch neue Perspektiven sichtbar werden. Bekannt ist diese Funktionsweise beispielsweise von Wackelbildern, wie sie etwa auf Grußkarten zu finden sind – bei HP Dimension ist die Qualität aber deutlich höher.
Die effektive Auflösung des 8K-Panels verteilt sich allerdings dennoch auf diese verschiedenen Blickwinkel. Das erklärt, warum Details zwar gut erkennbar sind, aber nicht ganz das Auflösungsvermögen eines klassischen 2D-Displays mit 7.860 × 4.320 Pixeln erreicht wird. Gleichzeitig entstehen potenziell Artefakte wie ein leichtes Flimmern oder Moiré-Effekte, da das Bild aus diskreten View-Zonen besteht. Das System versucht, diese Übergänge durch Tracking von Kopf- und Blickbewegungen möglichst unauffällig zu halten.
Blickkontakt, Licht und Rendering-Tricks
Einen wichtigen Beitrag für das Gefühl eines gewöhnlichen Gesprächs ist außerdem die Anpassung des Blickkontakts: Das bei Videotelofonie übliche Problem, dass die Pupillen des Gesprächspartners nicht auf die eigenen Augen, sondern die Kamera am Rande des Displays gerichtet sind, wird beim Rendern des 3D-Abbilds umgangen. Es entsteht konsequent der Eindruck, mein Gesprächspartner schaue mir in die Augen, wenn er mich denn ansieht; ein natürliches Gefühl von Blickkontakt entsteht. Gleichzeitig werden Beleuchtung und Lichttemperatur angepasst, um Unterschiede zwischen Aufnahme- und Wiedergabeseite auszugleichen.
Im Kern ist das System damit weniger eine Bildübertragung von Kamera zu Display, sondern integriert eine durchgängige Rendering-Pipeline. Aufnahme, Rekonstruktion und Darstellung sind eng miteinander verzahnt und aufeinander abgestimmt, tatsächlich aufgenommene Pixel sieht am Ende aber keiner der beiden Anwender. Ist mir das in irgendeiner Art und Weise aufgefallen? Nein, tatsächlich gar nicht.
Nichtsdestoweniger berichtete ein anderer Journalist, der an der Demo-Session teilnahm, nach seinem Beam-Telefonat von leichten Kopfschmerzen und müden Augen, was er aber von allerhand 3D-Displays gewohnt sei. In unserer Runde war das ein Einzelfall und auch ich kann mich nicht über derartige Nebenwirkungen beschweren. Es ist aber offen, inwiefern auch andere Menschen bei der Verwendung von HP Dimension mit vergleichbaren Problemen zu kämpfen haben – und inwiefern die Hersteller diese mildern oder gar abstellen können.
Spatial Audio und Live-Übersetzung
Für ein authentisches Gesprächserlebnis ist aber offenkundig auch der Ton relevant. Die zahlreichen Mikrofone erfassen die Stimme und ermöglichen eine räumliche Wiedergabe. Dabei übernehmen die beiden Mikrofone auf dem Tisch die eigentliche Sprachaufnahme, wohingegen die zusätzlichen Mikrofone im Rahmen zur Positionsbestimmung mittels Triangulation dienen. Über vier Lautsprecher lässt sich die Stimme anschließend so im Raum platzieren, dass sie akustisch mit der dargestellten Person übereinstimmt.
HP und Google sehen außerdem vor, dass das fertige Produkt in Echtzeit zwischen verschiedenen Sprachen der Gesprächspartner übersetzen können soll. Dabei soll das System dynamisch auch Tonfall, Tonhöhe und Charakteristiken der Stimme berücksichtigen und die Audioausgabe entsprechend anpassen. Basis der Übersetzung sei – wenig verwunderlich – ein KI-Modell. Diese Funktion konnte ComputerBase aber im Rahmen von Präsentation und Demo weder beobachten noch selbst ausprobieren.
Kooperation zwischen Google und HP
Die zugrunde liegende Technologie stammt ursprünglich von Google und basiert auf Project Starline. Dort wird die 3D-Rekonstruktion, das Rendering sowie die gesamte Plattform entwickelt und betrieben. Auch die Cloud-Infrastruktur und die Streaming-Pipeline sind Teil dieses Systems, das unter dem Namen Google Beam vermarktet wird.
HP übernimmt mit Dimension dagegen die Rolle des Hardware- und Systemintegrators. Das Unternehmen baut das Display, integriert die Kameras, Mikrofone und Recheneinheit und sorgt dafür, dass das System als geschlossenes Produkt zuverlässig funktioniert und vermarktet werden kann. Dazu gehören auch Aspekte wie Kalibrierung, thermisches Design und die Integration in Meetingräume.
Voraussetzungen und Anwendungsbereich
Das gesamte System ist stark auf kontrollierte Bedingungen angewiesen. Sitzposition, Abstand zum Display und Beleuchtung sind vorgegeben und lassen nur wenig Spielraum. Der halbrunde Tisch vor dem Display beispielsweise ist exakt so dimensioniert, dass die Gesprächspartner den richtigen Abstand zu Kameras, Mikrofon-Array und Panel wahren. Und Lichtquellen sollten idealerweise nur hinter dem Display platziert sein, weswegen HP Dimension über ein starkes Hintergrundlicht verfügt und die sonstige Beleuchtung im Demo-Raum ausgeschaltet war. Ein Einsatz im direkten Sonnenlicht etwa ist nicht möglich.
Schnelles Internet und viel Energie nötig
Hinzu kommt die Abhängigkeit von passender Infrastruktur. Für den Betrieb werden stabile Internetverbindungen benötigt. HP empfiehlt eine Bandbreite im Bereich von mindestens 50 Mbit/s symmetrisch sowie eine Paketumlaufzeit von unter 40 ms. Das setzt nicht nur Vorgaben für die Anbindung der beiden HP-Dimension-Module ans Internet, sondern auch die Verfügbarkeit passender Rechenzentren voraus – bei einer derart latenzsensiblen Anwendung ist es äußerst ungünstig, wenn passende Rechenkapazität gerade nur auf der anderen Seite des Planeten verfügbar ist. Anfällig für Internetprobleme ist das System aber auch im Idealfall noch: Während meiner Hands-on-Session waren zeitweise Bild und Ton nicht synchron, was in dieser Form bei anderen Probanden jedoch nicht vorkam.
Erwähnenswert ist für die vorgestellte Implementierung auch der Energiebedarf: 600 Watt verbraucht ein HP-Dimension-Modul während eines laufenden Videoanrufs. Die Rechenleistung in der Cloud ist dabei selbstverständlich noch außen vor, doch zu diesem Thema bleibt Google bislang generell vage – Details zur Hard- und Software gibt es nicht. Die lokale Recheneinheit des Beam-Setups beschreibt HP hingegen salopp als „modifizierte Chromebox“.
Einsatz heute: Klar abgegrenzt
Aktuell ist das System auf Gespräche zwischen zwei Personen ausgelegt. Erweiterungen auf mehrere Teilnehmer oder komplexere Szenarien sind zwar vorgesehen, stellen aber aktuell noch erhebliche technische Herausforderungen dar, schildert HP auf Nachfrage. Einerseits geht es darum, mehr als nur zwei HP-Dimension-Module miteinander zu verbinden, wo sich der Hersteller für die nahe Zukunft zuversichtlich zeigt. Aber insbesondere die korrekte Darstellung aus verschiedenen Blickwinkeln für mehrere Betrachter vor einem Modul sei komplex und könnte zusätzliche Hardware oder neue Displayansätze erfordern. Außerdem gelte es noch zu erproben, inwiefern das Gefühl eines authentischen Gesprächs aufrecht erhalten werden könne, wenn die gegenübersitzende Person nicht in Lebensgröße dargestellt werden kann, falls kleinere Displays zum Einsatz kommen.
Entsprechend bleibt der Einsatzbereich vorerst eng gefasst, denn auch die finanziellen Hürden sind hoch. Die erste kommerzielle Umsetzung, HP Dimension mit Google Beam – also genau das Modul, das in einer Entwicklungsversion von mir ausprobiert wurde –, liegt früheren Angaben zufolge bei rund 25.000 US-Dollar pro Gerät. HP gab aber zu verstehen, dass das fertige Produkt zum Start im Herbst 2026 realistisch eher noch teurer werde. Ziel sei es aber, beschwichtigt HP auf Nachfrage, den Preis mit zukünftigen Generationen zu senken.
Laufende Kosten für die Google-Server
Hinzu kommen aber in jedem Fall noch laufende Lizenzkosten für die Plattform von Google. Pro Modul sollen 5.500 US-Dollar im Jahr anfallen, was letztlich die nötige Rechenleistung in der Cloud bezahlen soll. Und für eine Verbindung werden offenkundig zwei dieser Systeme benötigt, was die effektiven Kosten für das erste Jahr HP Dimension auf über 60.000 US-Dollar hebt. In der Konsequenz richtet sich die Lösung vorerst an Unternehmen. Erste Kunden nennen HP und Google bereits: Deloitte, Salesforce, Citadel, NEC, Hackensack Meridian Health, Duolingo und Recruit.
Und was versprechen sich diese Pionierkunden von HP Dimension? Die Hersteller unterfüttern die beworbenen Vorteile der Plattform mit eigens durchgeführten Studien, die konkret auf einen Einsatz im betrieblichen Umfeld eingehen. Demnach steige der erfolgreiche Einsatz nonverbaler Kommunikation, also etwa von Mimik, Gesten oder Augenkontakt, gegenüber herkömmlichen Videotelefonielösungen um 39 Prozent. Außerdem falle die Konzentration der Teilnehmer auf das Gespräch während eines Meetings per Google Beam um 14 Prozent höher aus und im Anschluss könnten sich beide an 28 Prozent mehr der im Meeting genannten Informationen erinnern.
Langfristiges Ziel: Mehr Nähe trotz Distanz
Unterm Strich überwiegt dennoch der positive erste Eindruck. Die Technologie funktioniert nicht nur, sie hebt sich qualitativ deutlich und in beeindruckender Weise von klassischer Videotelefonie ab. Der Unterschied ist nicht subtil, sondern unmittelbar spürbar. Gespräche wirken natürlicher, direkter und weniger vermittelt. Es entsteht tatsächlich der Eindruck, sich einen Raum zu teilen und gemeinsam an einem Tisch zu sitzen, statt auf einen Bildschirm zu schauen – die eigene Wahrnehmung wird effektiv ausgetrickst.
Gerade darin liegt das eigentliche Potenzial. Die Technik reduziert Distanz nicht nur funktional, sondern vermittelt erfolgreich ein Gefühl von Nähe und erlaubt nonverbale Kommunikation auf einer Ebene, die bisher nur im realen Kontakt vor Ort möglich war. Gespräche mit weit entfernten Personen – ob im beruflichen Kontext oder privat – werden nicht bloß in der Qualität gesteigert, sprich hinsichtlich Bilschirmauflösung oder Tonqualität, sondern wortwörtlich auf eine neue Dimension gehoben.
ComputerBase hat Informationen zu diesem Artikel von HP im Rahmen einer Veranstaltung des Herstellers in New York unter NDA erhalten. Die Kosten für Anreise, Abreise und Hotelübernachtung wurden von HP getragen. Eine Einflussnahme des Herstellers auf die oder eine Verpflichtung zur Berichterstattung bestand nicht. Die einzige Vorgabe war der frühestmögliche Veröffentlichungszeitpunkt.
Dieser Artikel war interessant, hilfreich oder beides? Die Redaktion freut sich über jede Unterstützung durch ComputerBase Pro und deaktivierte Werbeblocker. Mehr zum Thema Anzeigen auf ComputerBase.
Wow, das war eine tolle Überraschung! Mein erstes „Telefonat“ – der Begriff erscheint mir fast deplatziert – mit HP Dimension hat richtig Spaß gemacht und eine Art kindliche Begeisterung für neue Technik entfacht: Wer nicht weiß, was hier vor sich geht, kommt unweigerlich zum Schluss, Google Beam sei pure Magie. HP und Google gaben zu verstehen, dass auch an der Qualität der Übertragung und Darstellung weiter gearbeitet werde, aber Fortschritte in dieser Hinsicht braucht das Produkt meiner Meinung nach gar nicht zwingend, um gegenüber dem Status quo der Videotelefonie einen eklatanten Mehrwert bieten zu können.
Als maßgebliche Hürde sehe ich allerdings die Zugänglichkeit. Preis, Setup und Infrastruktur machen das System aktuell und wohl auch in naher Zukunft zu einer Lösung für große Unternehmen. Für den breiten und insbesondere privaten Einsatz ist es in dieser Form noch nicht bereit. Genau hier läge aber meiner Meinung nach der größte Mehrwert: Ein Produkt, das es schafft, geographische Distanz nicht nur akustisch und visuell, sondern auch menschlich und emotional zu schließen, kann sein volles Potenzial doch erst dann entfalten, wenn es für Freunde, Familie und Liebende erfahrbar wird.
Gleichzeitig zeigt diese erste Generation aber eindrucksstark, dass die zugrunde liegende Idee tragfähig ist und in erster Implementierung erstaunlich gut funktioniert. Sollte es also gelingen, Kosten und Komplexität zu reduzieren, könnte sich aus HP Dimension und Google Beam eine neue Kategorie der Kommunikation entwickeln – und sei es mittelfristig mit einer Renaissance spezialisierter Telefonzellen, bevor derartige Technik breit zugänglich in Haushalte einziehen wird. Zu einer Zeit, in der Big-Tech-Innovationen für private Konsumenten zunehmend dystopische Drohkulissen darstellen, stellt dieser Ausblick für mich zumindest eine willkommene Abwechslung dar.