Text aus PDFs entnehmen nicht möglich

so_la_la

Lt. Commander
Registriert
Feb. 2014
Beiträge
1.294
Hallo,
ich möchte aus einem pdf Text übernehmen.
Wenn ich das über Kopieren und Einfügen mache, kommt in Word und in Notepad++++ aber nur Datenmüll raus, lauter Umbrüche und Sonderzeichen. In N++ so komische Symbole.
Das pdf ist aber offensichtlich nicht geschützt, lässt sich drucken und gut lesen.
Der Text lässt sich auch markieren, ist also keine Grafik.
Was kann das sein?
 
novemberkind schrieb:
Wurde das PDF ggf. mit einer nicht systemeigenen Schriftart erstellt?
Das ist das Problem: ich habe echt keine Ahnung. Evtl.. kann ich es in ein neues pdf drucken?
 
chromium ist super darin. imer wenn drucker bei PDFs zicken, jage ich sie einmal durch CHromium. Muessen super Ghostscript Parameter hinterlegt sein :)
wenn es aber nur ein eingebettetes Bild ist, wird dir das allex nix bringen.

Woher ist die PDF denn? Wer hat sie erstellt?
Ergänzung ()

ZUm Extrahieren von Text aus eingebetteten Bildern ist das hier ueberigens der marktfuehrer: https://github.com/tesseract-ocr/tesseract
 
madmax2010 schrieb:
chromium ist super darin. imer wenn drucker bei PDFs zicken, jage ich sie einmal durch CHromium. Muessen super Ghostscript Parameter hinterlegt sein :)
wenn es aber nur ein eingebettetes Bild ist, wird dir das allex nix bringen.
Ne, es geht um die Entnahme von Text bzw. leserlich machen durch andere Programme. Chromium wäre zB Vivaldi oder so?
madmax2010 schrieb:
Woher ist die PDF denn? Wer hat sie erstellt?
Es ist ein Aufsatz aus dem Internet. Er war bereits für den Druck aufbereitet. Ich denke, irgendwas an dieser Aufbereitung macht Probleme.
Ergänzung ()

madmax2010 schrieb:
Ich weiß gar nicht, wie ich das installieren soll.
 
Knall das Dingen in Google Docs und kopier dir den Kram in ein .txt File mit dem Editor aus dem Zwanzigsten Jahrhundert.

Der kennt praktisch gesehen keine Schriftarten und formatieren kannst du das ja hinterher, nebst ansehnlicherer Schriftart.

Ich übersetze so regelmäßig griechische oder chinesische und japanische pdf's und das hat bisher immer wunderbar funktioniert. Witzigerweise erkennt google docs zwar jedes Schriftzeichen korrekt, kopiert aber nur Müll wenn man das ohne diesen Zwischenschritt in den Übersetzer einfügt.
 
PHuV schrieb:
Manche PDF sind mit Absicht schreib- bzw. lesegeschützt, da kannst Du nichts extrahieren.
Ja, aber hier geht es eigentlich, ich kenn das wohl, auch Dateien, die sich nicht nochmal als pdf drucken lassen und so
madmax2010 schrieb:
Wenns nicht illegal ist, schick sie mir und ich schau mal
also es ist nicht illegal, aber sollte nicht geteilt werden; es ist nicht wirklich frei zugänglich. Aber danke für das Angebot.
 
Aaalso:
Datei aus foxitreader heraus nochmal als pdf gedruckt (Dateigröße stieg von 2mb auf 180mb).
Die entstandene pdf-Bilddatei (f*ck) dann mit FreeOCR lesbar gemacht und in ein .rtf umgewandelt.
Hat ganz schön lange gedauert (inkl. 1000 Versuchen mit einem komischen Irfanview-Plugin).
 
Zurück
Oben