Künstliche Stimmen (KI?) / Virtueller Speaker - Empfehlungen?

matthias_nbg

Lieutenant
Registriert
Mai 2011
Beiträge
646
Hallo Zusammen,

ich würde gerne ein Video-Tutorial erstellen und dabei ist mir aufgefallen, dass meine Stimme nicht so gut klingt, wie ich das gerne hätte... (und außerdem "gatz" ich ständig bei den Aufnahmen :-) ).

Ich habe beispielsweise diesen Dienst gefunden, der bei mnachen Stimmen ganz gut klingt: https://www.narakeet.com/

Was könntet ihr so empfehlen?
 
Klingen alle immer wie Grütze auf deutsch, habe noch kein gutes deutsches TTS gehört, auch nicht mit ML-Voodoo. Die haben alle immer ein Problem mit den richtigen Betonungen und mit unseren zusammengesetzten Wortbildungen. Das Zeug wird irgendwie immer nur für US of A entwickelt.
 
  • Gefällt mir
Reaktionen: BFF
Meine Empfehlung: Versuch eine halbwegs gute und sympathische Aufnahme deiner Stimme zu machen. Mich nerven diese ganzen text2speech immer super ab. Man hört es sofort raus, weil es gefühlt auch nur eine handvoll gute gibt.
Ich verstehe, wenn jemand das vielleicht unangenehm ist und das eigene Wissen zu teilen ist trotzdem toll. Aber mit t2s ist das Video (mMn!) sofort signifikant schlechter/unattraktiver.

Kann aber sein, dass Generation TikTok das feiert, keine Ahnung :D da hört man gefühlt den ganzen Tag die gleichen 2-3 Stimmen :freak:
 
  • Gefällt mir
Reaktionen: mae1cum77 und BFF
Gibt auch die Möglichkeit rein visuell mit Einblendungen zu arbeiten. Finde ich gerade bei Tutorials durchaus gangbar und IMMER besser als gelangweilte TTS.

Hatte in letzter Zeit das Glück, daß die Inder mit dem brutalsten Dialekt auf Englisch meist die besten Lösungen 'präsentiert' haben. Ist gerade bei Tutorials aber eher zu vernachlässigen.

Ansonsten: Sprechen/Vorlesen ist Übungssache. Gibt nicht umsonst Sprech-Erzieher ;).
 
@matthias_nbg
Nicht so schlechte Ergebnisse auch für deutsche Texte generiert Bark TTS, besser als Tortoise TTS, und schneller. Gut optimal ist das Ergebnis meines Tests auch nicht, was die Betonung der Wörter im deutschen Text anbelangt. Wenn Du magst kannst Du ua. Bark TTS mit diesem Kostenlosen Tool (Python) ausprobieren.
https://github.com/rsxdalv/tts-generation-webui
Install dauert eine Weile, einige GB werden heruntergeladen Conda env, Pytorch ect., falls Du eine Nvidia Graka. hast sollte Nvidia Toolkit ect. installiert sein.
Einen "onClick Installer" gibt es auch start_linux.sh.
https://github.com/rsxdalv/one-click-installers-tts/archive/refs/tags/v6.0.zip
Das Python Paket Netwokx3.1 wurde bei mir nicht korrekt installiert, das musste ich nach installieren-
Vorteil hier es gibt eine Webui, ist also lokal per Browser benutzbar.

Mit "finetuning" bekommt vielleicht noch bessere Ergbnisse.
 

Anhänge

  • 2023-11-19_21-08-54__bark__long.wav
    2,7 MB
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: matthias_nbg
Das Ergebnis ist nicht optimal, aber beeindruckt im ersten Moment schon.
 
Zurück
Oben