DeepL: Echtzeit-Sprachüber­setzung mit Voice-to-Voice nun Reali­tät

Michael Schäfer
34 Kommentare
DeepL: Echtzeit-Sprachüber­setzung mit Voice-to-Voice nun Reali­tät
Bild: Deepl

Das KI-Übersetzungstool DeepL hat mit DeepL Voice-to-Voice eine neue Produktreihe vorgestellt, die eine Sprachübersetzung in Echtzeit per mündlicher Kommunikation ermöglicht. Der Einsatz ist insbesondere in virtuellen Meetings vorgesehen, sodass Teams weltweit mühelos über Sprachbarrieren hinweg zusammenarbeiten können sollen.

Kommunikation ohne menschlichen Übersetzer

Gespräche in unterschiedlichen Sprachen sollen damit künftig vollständig ohne Dolmetscher auskommen. DeepL Voice-to-Voice ermöglicht es, ganz natürlich in der eigenen Sprache zu sprechen, während das Gesagte beim Empfänger präzise übersetzt wird. Laut CEO Jarek Kutylowski kombiniert DeepL hierfür die bekannten eigenen Sprachmodelle mit der ebenfalls eigenen, bewährten KI-Übersetzungstechnologie, um insbesondere Unternehmen eine barrierefreie Kommunikation zu ermöglichen.

Die neue Technologie fußt dabei auf fünf zentralen Eckpfeilern:

  • Voice for Meetings soll eine Echtzeit-Übersetzung auf Plattformen wie Microsoft Teams und Zoom ermöglichen, wobei Teilnehmer in ihrer Muttersprache sprechen, während die Empfänger die Inhalte in ihrer jeweils gewählten Sprache hören. Das Early-Access-Programm soll im Juni dieses Jahres starten, eine Registrierung ist ab sofort möglich.
  • Voice for Conversations richtet sich primär an den mobilen Einsatz, geht jedoch darüber hinaus und soll eine plattformübergreifende Übersetzung bieten, insbesondere für Szenarien, in denen die Installation von Apps nicht praktikabel oder zulässig ist.
  • Mit Gruppenkonversationen will DeepL den mehrsprachigen Austausch in Trainings, Coachings und Workshops erleichtern, indem Teilnehmer per QR-Code direkt dem Gespräch beitreten und dank Multi-Device-Zugang gleichzeitig Echtzeit-Übersetzungen empfangen können. Diese Funktion soll ab dem 30. April verfügbar sein.
  • Darüber hinaus ermöglicht die Voice-to-Voice-API Unternehmen, die Sprachübersetzung direkt in interne Anwendungen sowie kundenorientierte Tools zu integrieren; hier hat das Early-Access-Programm bereits begonnen, eine Registrierung ist weiterhin möglich.
  • Ergänzend sollen neue Optimierungsfunktionen sicherstellen, dass spezifische Terminologie wie Branchenbegriffe, Produktnamen oder Eigennamen auch bei schneller oder technischer Sprache präzise erkannt und entsprechend verarbeitet, also bei Bedarf nicht übersetzt werden. Bestehende DeepL-Glossare werden dafür in DeepL Voice integriert, um eine einheitliche Terminologie über alle Gespräche hinweg zu gewährleisten. Diese Funktion soll ab dem 7. Mai verfügbar sein.

Großes Sprachpaket bereits zum Start vorhanden

DeepL richtet die neue Technologie auch auf eine einfache Zugänglichkeit für kleinere Teams aus. Das Self-Service-Modell erlaubt es Unternehmen, die Lösung im Rahmen eines kostenlosen Testzeitraums unmittelbar zu implementieren und zu erproben, bevor der Einsatz ausgeweitet wird. Zum Start von Voice-to-Voice wird bereits eine breite Auswahl an Sprachen unterstützt, darunter alle 24 offiziellen EU-Sprachen sowie Arabisch, Bengalisch, Hebräisch, Norwegisch, Tagalog, Thailändisch und Vietnamesisch. Insgesamt soll DeepL Voice zum Start mehr als 40 Sprachen abdecken.

DeepL will komplette Infrastruktur für Übersetzungen erschaffen

Parallel zum Launch von Voice-to-Voice entwickelt DeepL sein Kernprodukt, das nach eigenen Angaben weltweit von über 200.000 Teams sowie Millionen von Einzelnutzern genutzt wird, zur nächsten Generation der Übersetzungsplattform weiter. Ziel ist der Aufbau einer End-to-End-Übersetzungsinfrastruktur für moderne Unternehmen. Damit sollen Ineffizienzen klassischer Übersetzungsmanagements beseitigt werden, die nach Ansicht des Unternehmens häufig auf langsamen, starren und manuellen Prozessen beruhen und entsprechend hohe Kosten verursachen. „Globale Unternehmen haben heute kein reines Übersetzungsproblem mehr; sie haben ein strukturelles Problem im Betriebsablauf. Heutige Sprachlösungen lassen sich oft nicht schnell genug skalieren und bremsen so das Wachstum“, erklärt Jarek Kutylowski das Vorhaben.