Text aus PDFs entnehmen nicht möglich

User Userichsen · 12. Januar 2022

Hallo,
ich möchte aus einem pdf Text übernehmen.
Wenn ich das über Kopieren und Einfügen mache, kommt in Word und in Notepad++++ aber nur Datenmüll raus, lauter Umbrüche und Sonderzeichen. In N++ so komische Symbole.
Das pdf ist aber offensichtlich nicht geschützt, lässt sich drucken und gut lesen.
Der Text lässt sich auch markieren, ist also keine Grafik.
Was kann das sein?

novemberkind · 12. Januar 2022

Wurde das PDF ggf. mit einer nicht systemeigenen Schriftart erstellt?

madmax2010 · 12. Januar 2022

Probier es mal mit PDFMiner: https://pypi.org/project/pdfminer/

User Userichsen · 12. Januar 2022

novemberkind schrieb:
Wurde das PDF ggf. mit einer nicht systemeigenen Schriftart erstellt?

Das ist das Problem: ich habe echt keine Ahnung. Evtl.. kann ich es in ein neues pdf drucken?

madmax2010 · 12. Januar 2022

chromium ist super darin. imer wenn drucker bei PDFs zicken, jage ich sie einmal durch CHromium. Muessen super Ghostscript Parameter hinterlegt sein

wenn es aber nur ein eingebettetes Bild ist, wird dir das allex nix bringen.

Woher ist die PDF denn? Wer hat sie erstellt?

Ergänzung (12. Januar 2022)

ZUm Extrahieren von Text aus eingebetteten Bildern ist das hier ueberigens der marktfuehrer: https://github.com/tesseract-ocr/tesseract

User Userichsen · 12. Januar 2022

madmax2010 schrieb:
chromium ist super darin. imer wenn drucker bei PDFs zicken, jage ich sie einmal durch CHromium. Muessen super Ghostscript Parameter hinterlegt sein
wenn es aber nur ein eingebettetes Bild ist, wird dir das allex nix bringen.

Ne, es geht um die Entnahme von Text bzw. leserlich machen durch andere Programme. Chromium wäre zB Vivaldi oder so?

madmax2010 schrieb:
Woher ist die PDF denn? Wer hat sie erstellt?

Es ist ein Aufsatz aus dem Internet. Er war bereits für den Druck aufbereitet. Ich denke, irgendwas an dieser Aufbereitung macht Probleme.

Ergänzung (12. Januar 2022)

madmax2010 schrieb:
Probier es mal mit PDFMiner: https://pypi.org/project/pdfminer/

Ich weiß gar nicht, wie ich das installieren soll.

PHuV · 13. Januar 2022

Manche PDF sind mit Absicht schreib- bzw. lesegeschützt, da kannst Du nichts extrahieren.

madmax2010 · 13. Januar 2022

Wenns nicht illegal ist, schick sie mir und ich schau mal

UNDERESTIMATED · 13. Januar 2022

Knall das Dingen in Google Docs und kopier dir den Kram in ein .txt File mit dem Editor aus dem Zwanzigsten Jahrhundert.

Der kennt praktisch gesehen keine Schriftarten und formatieren kannst du das ja hinterher, nebst ansehnlicherer Schriftart.

Ich übersetze so regelmäßig griechische oder chinesische und japanische pdf's und das hat bisher immer wunderbar funktioniert. Witzigerweise erkennt google docs zwar jedes Schriftzeichen korrekt, kopiert aber nur Müll wenn man das ohne diesen Zwischenschritt in den Übersetzer einfügt.

User Userichsen · 13. Januar 2022

PHuV schrieb:
Manche PDF sind mit Absicht schreib- bzw. lesegeschützt, da kannst Du nichts extrahieren.

Ja, aber hier geht es eigentlich, ich kenn das wohl, auch Dateien, die sich nicht nochmal als pdf drucken lassen und so

madmax2010 schrieb:
Wenns nicht illegal ist, schick sie mir und ich schau mal

also es ist nicht illegal, aber sollte nicht geteilt werden; es ist nicht wirklich frei zugänglich. Aber danke für das Angebot.

madmax2010 · 13. Januar 2022

Ist es ein Wissenschaftliches paper? Gib doi

User Userichsen · 13. Januar 2022

Aaalso:
Datei aus foxitreader heraus nochmal als pdf gedruckt (Dateigröße stieg von 2mb auf 180mb).
Die entstandene pdf-Bilddatei (f*ck) dann mit FreeOCR lesbar gemacht und in ein .rtf umgewandelt.
Hat ganz schön lange gedauert (inkl. 1000 Versuchen mit einem komischen Irfanview-Plugin).

Suche

Text aus PDFs entnehmen nicht möglich

User Userichsen

Lt. Commander

novemberkind

Lt. Junior Grade

madmax2010

Fleet Admiral

User Userichsen

Lt. Commander

madmax2010

Fleet Admiral

User Userichsen

Lt. Commander

PHuV

Banned

madmax2010

Fleet Admiral

UNDERESTIMATED

Banned

User Userichsen

Lt. Commander

madmax2010

Fleet Admiral

User Userichsen

Lt. Commander

Ähnliche Themen