Lokales Modell für Synchronsprecher [Speech to Speech]

AffeMitWaffe_

Cadet 4th Year
Registriert
Juli 2022
Beiträge
111
Grüße zusammen,

ich habe mir vorgenommen, englisches Wissen auch für andere Sprachen zugänglich zu machen.
Ich habe mit Qwen 3 TTS experimentiert, um z. B. die Stimme eines englischen Sprechers dazu zu bringen, Deutsch zu sprechen. Dabei sind mir jedoch zwei Probleme aufgefallen:
  • Es gibt keine Möglichkeit, die Emotionen der generierten Sprache gezielt zu steuern.
  • Die Aussprache von Buchstaben wie dem „R“ bleibt eher englisch, statt dem typisch harten deutschen „R“.
    (Wenn ich dem Modell hingegen eine deutsche Sprachaufnahme als Input gebe, ist die Aussprache korrekt.)
Ich bin etwas überrascht, dass ich bisher kein gutes Modell gefunden habe, bei dem ich:
  • eine Referenzstimme (inkl. Transkript) eingeben kann,
  • zusätzlich meine eigene eingesprochene Version (ebenfalls mit Transkript, inklusive gewünschter Betonung/Emotion),
  • und das Modell daraus dann die gewünschte Ausgabe kombiniert.
Vielleicht gibt es so etwas ja schon und ich habe es einfach übersehen.

Außerdem wundert es mich, dass es keine einfache Möglichkeit gibt, eine Stimme selbst zu trainieren.
Stattdessen ist man darauf angewiesen, dass das Modell aus kurzen Samples „sein Bestes“ macht.

Aus Datenschutzgründen möchte ich das Ganze lokal betreiben und keine Daten an Dienste wie ElevenLabs o. Ä. weitergeben.
Kennt jemand Ressourcen oder Ansätze, die in diese Richtung gehen?

Das Ganze ist für wissenschaftliche und Bildungszwecke gedacht.

Danke und liebe Grüße
KoKo
 
Zurück
Oben