Neuer Film-Schnitt: Wo bleibt die künstliche Intelligenz statt schlechter (oder keiner) Nachvertonung?

mgutt

Lt. Commander
Registriert
März 2009
Beiträge
2.021
Überall liest man von Projekten mit künstlicher Intelligenz. Ganz aktuell hat eine KI die 10. Symphonie von Beethoven vollendet. Aber was wirklich mal praktisch wäre macht keiner. zB wenn ein deutscher Synchronsprecher das zeitliche segnet oder wenn ältere Filme oder Serien neu geschnitten oder endlich mal als Uncut Version auf den Markt kommen, dann passieren die spannendsten Dinge. Entweder wird gar nicht synchronisiert, sondern es wechselt fröhlich zwischen Originalsprache und Deutsch. Oder eine völlig anderer Sprecher versucht sich in einer Nachvertonung. Oder oder oder. Ist echt noch keiner darauf gekommen die Synchronisationslücken bei Filmen mit künstlicher Intelligenz zu schließen?

Was würdet ihr davon halten bzw gab es da schon und meint ihr ob das rechtlich überhaupt zu machen ist (weil der original Synchronsprecher sicher nicht begeistert sein wird, sofern er/sie noch lebt)?
 
  • Gefällt mir
Reaktionen: DeusoftheWired
Hm, Vocaloid is a thing.
Vllt irre ich mich, aber eine Stimme glaubhaft zu simulieren (zu Schauspielern, mit Kontext) ist wohl noch eine Gewichtsklasse über Deepfakes.
Da sind wir einfach noch nicht. AI Gestützte Zwischenbildberechnung gibt es zb, ist aber noch nicht auf Masterproduktionslevel. Kommt sicher noch, aber wir sind noch nicht da.
Ob es sinnvoll ist, aus Robin Williams Robo Williams zu machen, darüber lässt sich streiten. Man könnte ihn auch einfach in guter Erinnerung behalten.

"Wenn man die Toten wieder zum leben erweckt sind sie nur denen im Weg, die nach ihnen kommen."
Simon the Digger.
 
  • Gefällt mir
Reaktionen: Insanic
Das wäre mit erheblicher Arbeit/Kosten verbunden, jede Betonung müsste nachbearbeitet werden. Audio KI kann das Gefühl der Sprache nachstellen aber nicht automatisch. -> Lohnt sich nicht für unseren kleinen Markt.
 
Bei Star Trek TOS hätte ich mir das gewünscht.
Allerdings wird als "KI" auch schon eine einfache Funktion bezeichnet, die einfach nur zwei Zahlen addiert. Insofern erwarte ich da garnichts.
 
 
  • Gefällt mir
Reaktionen: DeusoftheWired
Dafür braucht man gar nicht das Schlagwort 2019 zu bemühen, das gab es in sehr ähnlicher Form schon weit früher:

https://de.wikipedia.org/wiki/Vocaloid

Ist zwar für Gesungenes und nicht für Gesprochenes, aber das Prinzip ist sehr ähnlich.

mgutt schrieb:
(weil der original Synchronsprecher sicher nicht begeistert sein wird, sofern er/sie noch lebt)?

Sie würden sich selbst arbeitslos machen. Selbst wenn sie zu Lebzeiten alle Phoneme des Deutschen einsprechen würden, würde noch das fehlen, was einen guten Synchronsprecher ausmacht: Das Mitgehen, das Einfließenlassen von Emotion in das Gesagte. Es gibt unglaublich viele Nuancen der Betonung eines Worts, die man mit einem neutralen, digitalen Phonemwörterbuch eines Sprechers nicht abdecken könnte. Das Einsprechen von allem in Variation jeder Emotion würde aber wohl unverhältnismäßig viel Aufwand darstellen.

emotionalchart.jpg
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: ghecko
Knito schrieb:
Das wäre mit erheblicher Arbeit/Kosten verbunden, jede Betonung müsste nachbearbeitet werden.

Sind die Kosten nicht eher die KI überhaupt mal zu erstellen? Danach muss man sie ja "nur" noch mit Material füllen.

Wobei natürlich die Frage ist wie gut die KI die Lippen berücksichtigt. Es geht ja leider nicht nur um Ton, sondern auch ums Bild.
 
Wird das ein Forschungsauftrag oder ein Auftrag zur Realisierung - dann bereite eine Bankgarantie mit sehr vielen Nullen vor.
 
Ich fände es toll, wenn eine KI die Originalstimmen simuliert und dann den deutschen Text spricht.
So sehr ich mich aber darüber freuen würde, wenn nicht immer wieder die gleichen Synchronsprecher/innen ausländische Schauspieler/innen synchronisieren (so wird z.B. anscheinend jede junge blonde Frau von Sonja Spuhl gesprochen), so wenig glaube ich daran, dass es funktioniert.
Die Stimmlage ist eine Sache - das würde vermutlich sogar funktionieren - aber Emotionen ... puh, da wird noch sehr viel Forschungsarbeit nötig sein.
 
DeusoftheWired schrieb:
würde noch das fehlen, was einen guten Schronsprecher ausmacht: Das Mitgehen, das Einfließenlassen von Emotion in das Gesagte.

Die Emotion ist ja im Originalton bereits bekannt. Wenn ich mir Vocaloid so anschaue ist das genau die Richtung. Jetzt müsste diese KI "nur" noch das Gesprochene in Emotionskategorien einteilen und diese Kategorie dann in der deutschen Aussprache anwenden. Wobei sie natürlich auch erst mal lernen muss wie Emotionen im Deutschen zu sprechen sind. Ansonsten betont sie sicher die falschen Teile eines Wortes. Aber wenn Vocaloid mit englischen Sprechern gefüttert werden kann, dann ja sicher auch mit deutschen.
Ergänzung ()

Cooder schrieb:
Ich fände es toll, wenn eine KI die Originalstimmen simuliert und dann den deutschen Text spricht.

Du kannst doch nicht einfach eine komplette Branche arbeitslos machen :D
 
mgutt schrieb:
Du kannst doch nicht einfach eine komplette Branche arbeitslos machen :D
Sind doch scheinbar nur so 50 verschiedene Sprecher/innen. ;)
 
also wenn zB ein Synchronsprecher einen take eines Filmschnippsels einspricht, braucht ein GUTER (!!), sehr sehr erfahrener, vielleicht nur 3 versuche, bis er gut klingt und zum emotions kontext des bildgehalts, der musik und des gesprächspartners klappt.
machst du das mit einer KI, reden zwei gesprächspartner monologisiert mit gefühlen aneinander vorbei, ohne auch richtig auf das geschehen einzugehen.
zB der typ schreit eher beim rennen während ihm die kugeln um die ohren fliegen vs er sagt den selben satz liegend im herzchenbett zu seinem toten pferd in gedanken ...

das kannste vergessen, sowas mit KI machen zu wollen.

ps. ich komme aus dem audiobereich und hab schon massig spiele und filme mit synchronsprechern vertont... ich weiss also ungefähr wovon ich rede.

wobei ich dieses wundervolle KI audio demo von Legion1875Neo super gern sehen würde, wäre in Computerspielen, bei der vertonung von RPG's, nebencharakteren, die eh nur rumstehen und banalen smalltalk betreiben, dafür wäre es suuuuuuuuuuper super genial.
ohman, vollvertonte spiele...
stell dir vor, in GTA5 beleidigt dich der passant nicht mit seinen 10 prerecordeten takes (was an sich schon extrem krass ist), sondern kann sich dir mit einer TalkBotKI echt lange gespräche liefern, die wären natürlich wenig gehaltvoll, aber die immersion würde nochmals beträchtlich steigen.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: DeusoftheWired
Zurück
Oben