PDF in mp3 vorlesen lassen möglich?

Hermann78

Lt. Junior Grade
Registriert
Aug. 2015
Beiträge
305
Guten Morgen,

ich suche ein Programm bzw Online, wo ich eine PDF-Datei in ein Audio File umwandeln kann, damit ich es z. B. im Auto anhören kann.
Ich habe schon etwas recherchiert und auch bei einigen Online Diensten angemeldet aber dort kann man immer nur 5 Minuten umwandeln und soll dann irgendwelche Credits kaufen.
Auch ein kostenloses Tool für den PC ( Balabolka ) habe ich getestet aber das hört sich leider so Roboterstimmen mäßig an......

Hat jemand von euch ne Idee wie man das (am besten kostenlos) lösen kann?

Vielen Dank!
 
Du suchst: "Text to Speech".

Sind die PDFs, aus denen du das nutzen willst, so geschützt, dass der Text nicht kopierbar ist?

Dann wird es schwer. Andernfalls gibt es unter oben genanntem Begriff unzählige Möglichkeiten. Einfach den gewünschten Text kopieren, im TTS einfügen und als Audiodatei ausgeben lassen.

Die Sprachqualität (Betonung, etc.) lässt bei so etwas aber stark zu wünschen übrig. Wenn es sich zudem noch um technische Dokumente handelt, wirst du Probleme bei Verweisen, Bilduntertiteln, etc. haben.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: redjack1000, madmax2010, piepenkorn und 2 andere
Du kannst dir eine entsprechende Engine selbst zusammenbauen. Wenn du unter Linux/Windows-WSL arbeitest, ist das kein Riesenproblem. Am einfachsten ist es, wenn du eine KI wie zum Beispiel Claude oder Qwen3 von Dash Scope zur Einrichtung nutzt. Die hat ein extrem großes, freies Kontingent. Dann kannst du verschiedene TTS-Engines installieren. Ich habe mit folgenden, lokal installierten Docker-Containern experimentiert: Qwen3 TTS lokal, XTTS, Piper TTS, Edge TTS, Fish Speech S2 Pro und MOSS TTS. MOSS, Fish und Qwen3 TTS liefern die mit Abstand beste sprachliche Ausdrucksweise. Man kann bei Qwen3, XTTS, Fish und MOSS 15-30 Sekunden lange eigene Sprachsamples beilegen, die dann per Voice Cloning auf die Ausgabestimme gelegt wird und nochmal zusätzlich deutlich bessere Ausgabequalität liefert. Alles ist natürlich abhängig von der VRAM-Größe deiner Grafikkarte. Du kannst auch, wenn du keine so große Grafikkarte hast, dich bei Dashscope, also Alibaba, registrieren. Und alle dort aufgelisteten Qwen-Modelle mit einem erstaunlich großen Freikontingent benutzen, unter anderem eben auch QN3 TTS. Allerdings läuft das dann nicht mehr lokal, sondern über das Netz in die Cloud. Alle Modelle, die ich dir oben genannt habe, kannst du, wie gesagt, lokal auf deinem eigenen Rechner laufen lassen. Immer vorausgesetzt, du hast genügend V-RAM. Am hungrigsten ist Moss und Fisch. X-TTS ist am Schlanksten, zusammen mit Piper TTS, das allerdings weder Voice Cloning kann, noch besonders schöne Stimmen hat. Aber es funktioniert gut. Edge TTS ist ein freinutzbarer Cloudservice von Microsoft mit vielen Stimmen ohne Voicecloning. Du könntest damit zuerst experimentieren.
 
  • Gefällt mir
Reaktionen: aluis, Hermann78 und JackForceOne
Schöne Auflistung, außerdem noch nennenswert wäre evtl. Omnivoice, davon gibts unter anderem auch eine comfyui Version, so wie ein darauf basierendes "Studio" und evtl noch interessant ein Audiobook-Creator (noch recht klein und evtl experimentell).
 
Unter Android kann z.B. die App Libera (gibt's bei F-Droid oder Github) Texte wie PDF oder EPUB vorlesen. Man muß aber eine TTS-App installiert haben oder nimmt die von Google, die eh bei Android dabei ist. Das kannst du dann bei Bedarf im Prinzip auch am Smartphone nutzen und dann per Bluetooth auf die Lautsprecher im Auto hören. Das kostet dann, abgesehen von den Kosten für Androidgerät und BT-Lautsprecher nix.
 
Zurück
Oben