Gescannte oder textbasierte PDFs finden/separieren

Eggsplorer

Cadet 4th Year
Registriert
März 2012
Beiträge
110
Hey =)

ich habe etliche PDF-Dokumente, von denen einige richtige eBooks sind und andere eingescannt wurden.
Hat jemand eine Idee, wie ich die Dokumente separieren kann?
Ich würde gerne nur die gescannten herausfiltern (bzw. nur die eBooks rausfiltern) um die gescannten PDFs anschließend per Batch Texterkennung und Komprimierung zu bearbeiten.

Bin über jede Idee dankbar =)
 
Mit fällt da nur die Größe der Dateien ein. Erfahrungsgemäß sind eingescannte pdfs ja deutlich größer als textbasierte, je nach Scan-Parametern.

Auf der anderen Seite ist eh die Frage, mit welcher Software du die Texterkennung und Bearbeitung der Dateien vornehmen willst. Abbyy FineReader ist z.B. an sich sehr nützlich (aber auch teuer). Es braucht unter Umständen dennoch viele manuelle Eingriffe, je nach Ausgangsmaterial. Dagegen wird das händische Separieren eine vergleichsweise kleine Aufgabe.
 
Danke für die schnelle Antwort =)

Die Größe ist tatsächlich ein guter Hinweis. Die eBooks sind teilweise 1-50 MB groß, wohingegen die Scans 30-600 MB groß sind (geschätzt, bzw. vereinzelt gesehen). Leider bleibt da immer noch ein bisschen Handarbeit.
Ich dachte vielleicht, gibt es eine schnelle Methode und würde ein bisschen Zeit ersparen.

Die Batchverarbeitung würde ich mit Acrobat machen. Das habe ich schonmal getestet. Ich könnte eine Aktion erstellen, die OCR erkennt und als PDF mit verkleinerter Größe abspeichert. Finde auch, dass die Ergebnisse recht gut sind, allerdings dauert es teilweise auch echt lange.

ABBYY FineReader kenne ich jetzt nicht. Da ich die Software bei der Arbeit benötigt (evtl auch öfters) käm ein Kauf von Software evtl auch in Frage. Dann müsste es aber auch deutlich Vorteile gegenüber Acrobat haben, da wir davon schon Lizenzen besitzen.
Hast du Erfahrung mit dem Programm?
 
Adobe Preflight sollte das können.

Ansonsten selbst programmieren. Bild(er) in der PDF bestimmen und wenn die Größe (annähernd) der Seitengröße entspricht, hast Du ein gescanntes Buch.

Falls Du kein entsprechendes Programm findest und es Dir eine kleine Spende wert ist, schick ne PM.
 
Adobe Preflight kannte ich auch nicht. Sieht so aus als könnte ich es damit bewerkstelligen. Werd ich mir mal anschauen.

Und dank für das Angebot. Werde ich evtl. drauf zurückkommen =)
 
Der FineReader macht halt alles, dreht und schneidet zurecht, erkennt Text in unterschiedlichen Sprachen und kann Fußnoten und Seitenzahlen als solches erkennen. Allerdings ist es wie gesagt auch ein bisschen fehleranfällig. Wir haben es für wissenschaftliche Publikationen benutzt und es ist oft an seine Grenzen gekommen, lag vielleicht aber auch an den Besonderheiten der Altgermanistik. Das Programm braucht dazu auch recht lang.

Wenn Seite drehen, Text erkennen und komprimiertes Bild speichern für dich ausreicht und das Acrobat kann, dann ist ja alles in Butter. Ich hatte das seinerzeit auch mal mit Kubuntu und verschiedenen Paketen bewerkstelligt. Hat auch funktioniert.
 
Ich denke auch, dass Acrobat reicht. Denn uns geht es lediglich um a) PDF durchsuchbar machen und b) Dateigrößen verringern.
Außerdem würde der FineReader vermutlich auch erstmal eine kleine Einarbeitung erfordern. Dennoch werde ich mir mal die Testversion anschauen und testen, ob sie erheblich bessere Ergebnisse liefert. Die automatische Spracherkennung wäre jedenfalls etwas Praktisches, da unsere Dokumente in DE und EN vorliegen, was am Dateiname nicht immer zu erkennen ist.
 
Was mir zum separieren noch einfällt: vielleicht sind die textbasierten und/oder die gescannten zumindest zum Teil mit einem Kommentar in den Metadaten versehen. Manche Programme machen das ja beim Erstellen automatisch.
 
Zurück
Oben