Mickey Cohen
Commander
- Registriert
- Mai 2015
- Beiträge
- 2.827
hallo,
mal eine frage, die mich beschäftigt: warum hinkt die digitale künstlich erzeugte sprachausgabe, was die qualität angeht, so weit hinterher, verglichen mit gerendertem visuellen inhalt? man kann einen menschen mit 3d technik heute so simulieren, dass er von der videoaufnahme eines echten menschen quasi nicht zu unterscheiden ist. auch die spracherkennung leistet heutzutage faszinierendes: http://www.heise.de/newsticker/meld...rache-besser-als-ihre-Entwickler-3180741.html
aber wenn es darum geht, einen pc "sprechen" zu lassen, ist man immer noch auf eingesprochene samples angewiesen (siri, cortana, ...)
und das, obwohl die tontechnik so gesehen schon länger hochentwickelt ist, als die grafik-technik, und auf heutigen rechnern auch weniger ressourcen verbraucht (rechenleistung von soundkarten/3d-sound-berechnung vs. rechenleistung von grafikkarten etc.)
auch, was die wiedergabe digital gespeicherter realer aufnahmen angeht, scheint es einfacher zu sein, den ton originalgetreu widerzugeben, als bilder. (es braucht relativ weniger speicherplatz eine tonsequenz möglichst originalgetreu abzuspeichern, als ein video) wenn man nicht ein absolutes gehör hat oder sich darauf irgendwie spezialisiert hat, kann man mit entsprechendem equipment töne digital wiedergeben, die nicht von der originalquelle unterscheidbar sind. will man das mit videos machen, benötigt man schon ein wesentlich rechenleistungsstärkeres equipment. (bitrate von videos vs. ton-dateien)
oder anders gesagt: man kann mit heutigen mitteln einen oder mehrere designer/programmierer endlich lange (mit vernünftigen zeitaufwand) vor ein 3d-modellierungsprogramm setzen und die können für bspw. eine kino-film-sequenz einen menschen erzeugen, der echt aussieht. aber ihm eine eigene stimme geben, das können sie noch nicht, obwohl töne digital zu bearbeiten die scheinbar einfachere aufgabe darstellt. warum ist das so?
mal eine frage, die mich beschäftigt: warum hinkt die digitale künstlich erzeugte sprachausgabe, was die qualität angeht, so weit hinterher, verglichen mit gerendertem visuellen inhalt? man kann einen menschen mit 3d technik heute so simulieren, dass er von der videoaufnahme eines echten menschen quasi nicht zu unterscheiden ist. auch die spracherkennung leistet heutzutage faszinierendes: http://www.heise.de/newsticker/meld...rache-besser-als-ihre-Entwickler-3180741.html
aber wenn es darum geht, einen pc "sprechen" zu lassen, ist man immer noch auf eingesprochene samples angewiesen (siri, cortana, ...)
und das, obwohl die tontechnik so gesehen schon länger hochentwickelt ist, als die grafik-technik, und auf heutigen rechnern auch weniger ressourcen verbraucht (rechenleistung von soundkarten/3d-sound-berechnung vs. rechenleistung von grafikkarten etc.)
auch, was die wiedergabe digital gespeicherter realer aufnahmen angeht, scheint es einfacher zu sein, den ton originalgetreu widerzugeben, als bilder. (es braucht relativ weniger speicherplatz eine tonsequenz möglichst originalgetreu abzuspeichern, als ein video) wenn man nicht ein absolutes gehör hat oder sich darauf irgendwie spezialisiert hat, kann man mit entsprechendem equipment töne digital wiedergeben, die nicht von der originalquelle unterscheidbar sind. will man das mit videos machen, benötigt man schon ein wesentlich rechenleistungsstärkeres equipment. (bitrate von videos vs. ton-dateien)
oder anders gesagt: man kann mit heutigen mitteln einen oder mehrere designer/programmierer endlich lange (mit vernünftigen zeitaufwand) vor ein 3d-modellierungsprogramm setzen und die können für bspw. eine kino-film-sequenz einen menschen erzeugen, der echt aussieht. aber ihm eine eigene stimme geben, das können sie noch nicht, obwohl töne digital zu bearbeiten die scheinbar einfachere aufgabe darstellt. warum ist das so?
Zuletzt bearbeitet: