Voice Cloning?, womit wird sowas gemacht?

Gregorie

Lieutenant
Registriert
Apr. 2017
Beiträge
624
Durch den Moderator Serdar Somuncu ua. auf Radio Eins vom RBB wurde ich auf den YT Kanal von aka Snicklink kürzlich aufmerksam, auf dessen satirische Videos. Jetzt interessiert mich, wie macht der das mit der Stimme von Olaf Scholz, einen gesprochenen Text so zu
verändern? THANOS übernimmt die Welt ... :)
Gibt es für sowas inzwischen Software?
Ich habe gegoogelt, es gibt Voice Cloning Software, spezialisiert auf hauptsächlich englisch und kostenpflichtig.
Sowas wird dafür wohl benutzt oder und gibt es sowas auch kostenlos für Linux oder Windows?
 
Auf das Thema wird u.a. hier eingegangen:
 
  • Gefällt mir
Reaktionen: Gregorie
z.b.

siehe videobeschreibung für links inkl. stimmmodelle.
 
  • Gefällt mir
Reaktionen: Gregorie
Nachvertonungen von Filmen, die selben Darsteller in verschiedenen Sprachen mit der "originalen" Stimme sprechen lassen.
 
  • Gefällt mir
Reaktionen: Engaged
Gregorie schrieb:
Gibt es für sowas inzwischen Software?
Ja: Am Montag lief im BR eine nachtmix-Sendung, in der der Moderator seine Stimme von der KI sprechen ließ.
Ralf Summer hat eine US-Speech-Simulations-Software mit seiner Stimme gefüttert, die ihn nun beim Sprechen imitiert und die Songs im Mix ankündigt.
Welche SW das war, hat er aber glaube ich nicht genannt. Wenn man seine Stimme, und die Art zu sprechen, kennt, merkt man, meine ich, doch an mehreren Stellen, dass das nicht ganz echt sein kann.

Die Sendung (empfehlenswert für Hörer von Club/DJ-Music mit ein wenig Dub) gibt's noch bis Montag Abend zum Nachhören: https://www.br.de/radio/live/bayern2/programm/2023-09-04/3433343/
 
@eYc
Danke für den Hörtip.
Ich las für Linux gibt es auch ein Tool tortoise-tts für Pyton, das versuche ich zum Testen zu installieren.
Das verwendet Pytorch ua. wird zusätzlich haufenweise installiert auch von Nvidia.
Jetzt bin ich bei:
Code:
python tortoise/do_tts.py --text "I'm going to speak this" --voice random --preset fast
Außer nochmalige Downloads passiert nichts, dh. keine Audioausgabe des Textes ist hörbar.
Werde mich noch weiter damit beschäftigen müssen, scheint nicht so einfach zu sein.
https://github.com/neonbjb/tortoise-tts
 
Übrigens bekomme ich unter Fedora 38 Linux (GraKa. NVIDIA Geforce 1050) kein einziges der Linux Python Programme fehlerfrei unter Python 3.11 installiert. :(
Irgendeine Abhängigkeit der installierten Module stimmt regelmäßig nicht.
Aktuell dieses:

bigvgan 0.0.1 requires librosa==0.8.1, but you have librosa 0.10.0.post2 which is incompatible.
torchvision 0.15.1+cu118 requires torch==2.0.0, but you have torch 2.0.1 which is incompatible.
torchaudio 2.0.1+cu118 requires torch==2.0.0, but you have torch 2.0.1 which is incompatible

Ich wollte nun mal nach dieser Anleitung "Coqui + Bark Voice Cloning" installieren,
https://colab.research.google.com/drive/1eY9Br7N58y5P4AZfCrnIVFrv4y-pS52b?usp=sharing

Mit anderen Python Versionen z.B. 3.7 per Conda habe ich es auch nicht hinbekommen.
Komisch funktioniert das bei Euch?
Das Ergebnis, wenn es funktioniert wird auch nicht so toll sein, zumal die meist auf englisch spezialisiert sind
 
Ich habe noch weiter rumprobiert, mit den kostenlosen Voice Cloning Python Programmen.
Nun mit diesem: https://git.ecker.tech/mrq/ai-voice-cloning
Aber nur unter Windows 10 bekam ich das einigermaßen fehlerfei installiert so das die Webgui im Browser
auch funktioniert. Clonen von vorhandenen Audio wav Dateien, ist aber nicht so einfach.
Bei dem Training sehe ich kaum durch, wie man das machen soll.
Das Programm verwendet ua. Whisper open ai, und ist praktisch nur für englisch einigermaßen brauchbar.
Ich wollte Honecker Stimme probehalber klonen. Die Stimmlage seines "Singsanges" kommt als Ergebnis
ganz gut hin, nur deutsch geht nicht.
Ob das auch geht bzw. wie? Ist nur Spielerei von mir.
 

Anhänge

  • ai Voice Cloning.jpg
    ai Voice Cloning.jpg
    196,5 KB · Aufrufe: 58
noch mal icke zum Thema.
ICh habe noch länger rumprobiert mit dem Tool
mrq ai-voice-cloning , da das Projekt auch aktuell noch aktiv gepflegt wird.
Unter Windows 10 läuft es bei mir auch im Browser per gradio lokal.
Sprache zu erzeugen dauert aber sehr lange mit meiner nicht aktuellen HW Nvidia Geforce 1050.
GPU ist dabei fast 100 Prozent ausgelastet.
Probiert habe ich zuletzt mit einer Honecker Rede als audio Datei (die Mauer wird noch 100 Jahre stehen....).
Text: Gedicht Der Erlkönig von Goethe.
Ergebnis na ja, wieder starker englischer Akzent.

Was ich überhaupt nicht verstehe, wie das mit dem Erzeugen eines korrekten Dataset und dem
Training einer geclonten Stimme gehen soll.
Ich bekomme ständig Error Meldungen.
Hat von Euch jemand damit Erfahrungen, und weiß wie das genau geht?
Dieses whisper Modul erzeugt bei mir eine Train.txt in englisch aus den gesprochenem deutschen Text.
Eine Train.yaml Datei habe ich zuletzt nicht neu erzeugt bekommen.
Das andere an Einstellungen, sind für moch auch nicht sehr verständlich, wie Epoches, Batchsize ect.
Wie viel Text und welcher Art, ich bei Tokenizer eingeben soll, ist mir auch unklar.
ai-Voice-Cloning.jpg
 

Anhänge

  • Honecker clone spricht der Erlkönig .mp3
    1,1 MB
Zuletzt bearbeitet:
@Mulciber
Danke ich übersetzte mir den Text, kann kein englisch. :(
Eines habe ich nun verstanden, bei "Prepare Dataset" muss ich das eng. raus nehmen, sonst verwendet
das Whisper AI Modul englisch, deutsch wird scheinbar automatisch erkannt, denn nun habe ich eine train.txt
Datei in deutsch erzeugen können. Bei "generate Configuration, scheitere ich noch.
Console Output:
Gradient accumulation size is too large for a given batch size, clamping gradient accumulation size to: 2
Batch ratio (2) is expected to exceed your VRAM capacity (4.000GB, suggested 1 batch size cap), adjusting gradient accumulation size to: 4
! EXPERIMENTAL ! BitsAndBytes requested.
For 50 epochs with 49 lines in batches of 4, iterating for 650 steps (13) steps per epoch).

Ausserdem ist mein Text scheinbar zu lang, mehr als 200 Zeichen.
Muss ich wohl kürzen, VRAM hat meine NVIDIA GrKa. auch nur 4GB.
 

Anhänge

  • Ai Voice cloning Settings Training.jpg
    Ai Voice cloning Settings Training.jpg
    168,8 KB · Aufrufe: 58
Zurück
Oben