PDF in mp3 vorlesen lassen möglich?

Hermann78

Lt. Junior Grade
Registriert
Aug. 2015
Beiträge
305
Guten Morgen,

ich suche ein Programm bzw Online, wo ich eine PDF-Datei in ein Audio File umwandeln kann, damit ich es z. B. im Auto anhören kann.
Ich habe schon etwas recherchiert und auch bei einigen Online Diensten angemeldet aber dort kann man immer nur 5 Minuten umwandeln und soll dann irgendwelche Credits kaufen.
Auch ein kostenloses Tool für den PC ( Balabolka ) habe ich getestet aber das hört sich leider so Roboterstimmen mäßig an......

Hat jemand von euch ne Idee wie man das (am besten kostenlos) lösen kann?

Vielen Dank!
 
Du suchst: "Text to Speech".

Sind die PDFs, aus denen du das nutzen willst, so geschützt, dass der Text nicht kopierbar ist?

Dann wird es schwer. Andernfalls gibt es unter oben genanntem Begriff unzählige Möglichkeiten. Einfach den gewünschten Text kopieren, im TTS einfügen und als Audiodatei ausgeben lassen.

Die Sprachqualität (Betonung, etc.) lässt bei so etwas aber stark zu wünschen übrig. Wenn es sich zudem noch um technische Dokumente handelt, wirst du Probleme bei Verweisen, Bilduntertiteln, etc. haben.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: madmax2010, piepenkorn, Hermann78 und eine weitere Person
Du kannst dir eine entsprechende Engine selbst zusammenbauen. Wenn du unter Linux/Windows-WSL arbeitest, ist das kein Riesenproblem. Am einfachsten ist es, wenn du eine KI wie zum Beispiel Claude oder Qwen3 von Dash Scope zur Einrichtung nutzt. Die hat ein extrem großes, freies Kontingent. Dann kannst du verschiedene TTS-Engines installieren. Ich habe mit folgenden, lokal installierten Docker-Containern experimentiert: Qwen3 TTS lokal, XTTS, Piper TTS, Edge TTS, Fish Speech S2 Pro und MOSS TTS. MOSS, Fish und Qwen3 TTS liefern die mit Abstand beste sprachliche Ausdrucksweise. Man kann bei Qwen3, XTTS, Fish und MOSS 15-30 Sekunden lange eigene Sprachsamples beilegen, die dann per Voice Cloning auf die Ausgabestimme gelegt wird und nochmal zusätzlich deutlich bessere Ausgabequalität liefert. Alles ist natürlich abhängig von der VRAM-Größe deiner Grafikkarte. Du kannst auch, wenn du keine so große Grafikkarte hast, dich bei Dashscope, also Alibaba, registrieren. Und alle dort aufgelisteten Qwen-Modelle mit einem erstaunlich großen Freikontingent benutzen, unter anderem eben auch QN3 TTS. Allerdings läuft das dann nicht mehr lokal, sondern über das Netz in die Cloud. Alle Modelle, die ich dir oben genannt habe, kannst du, wie gesagt, lokal auf deinem eigenen Rechner laufen lassen. Immer vorausgesetzt, du hast genügend V-RAM. Am hungrigsten ist Moss und Fisch. X-TTS ist am Schlanksten, zusammen mit Piper TTS, das allerdings weder Voice Cloning kann, noch besonders schöne Stimmen hat. Aber es funktioniert gut. Edge TTS ist ein freinutzbarer Cloudservice von Microsoft mit vielen Stimmen ohne Voicecloning. Du könntest damit zuerst experimentieren.
 
  • Gefällt mir
Reaktionen: aluis, Hermann78 und JackForceOne
Zurück
Oben