Warum hinkt die Digitale Sprachproduktion so hinterher?

Mickey Cohen · 25. April 2016

hallo,

mal eine frage, die mich beschäftigt: warum hinkt die digitale künstlich erzeugte sprachausgabe, was die qualität angeht, so weit hinterher, verglichen mit gerendertem visuellen inhalt? man kann einen menschen mit 3d technik heute so simulieren, dass er von der videoaufnahme eines echten menschen quasi nicht zu unterscheiden ist. auch die spracherkennung leistet heutzutage faszinierendes: http://www.heise.de/newsticker/meld...rache-besser-als-ihre-Entwickler-3180741.html

aber wenn es darum geht, einen pc "sprechen" zu lassen, ist man immer noch auf eingesprochene samples angewiesen (siri, cortana, ...)
und das, obwohl die tontechnik so gesehen schon länger hochentwickelt ist, als die grafik-technik, und auf heutigen rechnern auch weniger ressourcen verbraucht (rechenleistung von soundkarten/3d-sound-berechnung vs. rechenleistung von grafikkarten etc.)

auch, was die wiedergabe digital gespeicherter realer aufnahmen angeht, scheint es einfacher zu sein, den ton originalgetreu widerzugeben, als bilder. (es braucht relativ weniger speicherplatz eine tonsequenz möglichst originalgetreu abzuspeichern, als ein video) wenn man nicht ein absolutes gehör hat oder sich darauf irgendwie spezialisiert hat, kann man mit entsprechendem equipment töne digital wiedergeben, die nicht von der originalquelle unterscheidbar sind. will man das mit videos machen, benötigt man schon ein wesentlich rechenleistungsstärkeres equipment. (bitrate von videos vs. ton-dateien)

oder anders gesagt: man kann mit heutigen mitteln einen oder mehrere designer/programmierer endlich lange (mit vernünftigen zeitaufwand) vor ein 3d-modellierungsprogramm setzen und die können für bspw. eine kino-film-sequenz einen menschen erzeugen, der echt aussieht. aber ihm eine eigene stimme geben, das können sie noch nicht, obwohl töne digital zu bearbeiten die scheinbar einfachere aufgabe darstellt. warum ist das so?

hallo7 · 25. April 2016

Mir sind keine gerenderten "Figuren" bekannt die man nicht als solche erkennt (Beispiel?).

Vor allem auf Bewegungen bezogen. Unser Auge ist dafür geschaffen Bewegungen erkennen zu können, genauso wie unser Ohr auf Störgeräusche mehr reagiert als auf gewohnte Töne.

Ein Bild zu rendern, dass wie echt aussieht ist kein Problem. Ein bewegtes Bild schon (da setzt man ja auch auf Motion Capture). So gesehen ist es beim Sound gleich, nur das es da eben kein Standbild Äquivalent gibt.

Suche

Warum hinkt die Digitale Sprachproduktion so hinterher?

Mickey Cohen

Gast

hallo7

Moderator

Ähnliche Themen

Passend zum Thema

AMD × Anthropic 2 GW MI455X-Rechenleistung und 5 Mrd. USD Investition

Milliardenprojekt OpenAI wollte deutsches Rechenzentrum mit Atomstrom

NAND-Flash Die Engpässe bei SSD-Speicher-Chips halten bis Ende 2027 an