OCR für PDF-Datei

Glowazowski · 9. Februar 2012

Hallo liebe Leute,

mir stellt sich folgendes Problem: Ich habe eine PDF-Datei mit insgesamt 91 Doppelseiten eingescanntem Text. Gescannt wurde das ganze mit einer Auflösung von 400dpi, bei einer Seitengröße von 310mm x 230mm. Das ganze hat eine Dateigröße von ca. 28 MByte.

Jetzt hätte ich gerne, dass da eine Texterkennung drüber läuft und den Text unsichtbar hinter dem gescannten Dokument speichert, so dass ich das ganze noch im originalen Layout ausdrucken kann, die PDF-Datei aber auch durchsuchbar ist (bzw. einzelne Passagen auch raus kopiert werden können).

Aus einer c't aus dem Jahr 2008 habe ich noch eine Vollversion des ABBYY FineReade 6.0 Professional rumliegen. Damit konnte ich den Text zwar erkennen lassen, beim abspeichern als PDF-Datei wurde aber das "Bild" des Textes komplett neu gespeichert. Das hat zur Folge, dass ich entweder eine riesig große Datei erhalte (ca. 210 MByte), die lesbar ist und sich auch noch zum Drucken eignet oder eine deutlich kleinere (ca. 13MByte), die dann aber in der Auflösung soweit reduziert ist, dass an ein Ausdrucken nicht mehr zu denken ist. In den beiden neuen Dateien mit erkanntem Text stimmt auch die Seitengröße nicht mehr mit dem Original überein.

Theoretisch müsste es doch irgendwie gehen, dass das originale Schrift-"Bild" der PDF erhalten bleibt und nur der erkannte Text unsichtbar dahinter gelegt wird. Die Dateigröße dürfte sich dabei ja eigentlich kaum vergrößern, da der reine Text im Hintergrund ja kaum Speicherplatz braucht.

Hat jemand eine Idee, wie ich das hinbekomme, idealerweise mit dem FineReader 6.0 oder einem anderen kostenfreien Programm?

Besten Dank für Eure Hilfe
Wazowski

Tenchi Muyo · 9. Februar 2012

Du könntest Dir einfach eine Demoversion laden!

Z.B. mit dem Foxit Phantom PDF gehts dass (nutzt Iris) oder Nitro PDF Professional
und zu guter letzt PDF Converter Professional 7.0 von Nuance (von denen ist Omnipage 18).

Die OCR Erkennung läuft unterschiedlich gut, musste halt testen.

FineReader 11 hatte ich auch mal angetestet.

Hatte mich in der Hauptsache für die ersten Programme interessiert, um PDF's zu erstellen.
Die OCR funktionen hatte ich halt auch getestet.

Nitro PDF geällt mir als PDF Programm auch sehr gut,
allerdings bekam ich im Falle von OCR eine Fehlermeldung.

Mit Word 2010 kann man übrigens sehr gut die Dokumente abstimmen,
also zwei gleiche Seiten miteinander vergleichen.

Vielleicht kannst Du auch mit Omnipage 18 Pro direkt die PDF's erkennen,
dürfte dann vermutlich eines der besten Ergebnisse haben.

aero · 9. Februar 2012

Du könntest auch den PDF-X-Change Reader nutzen - der hat neuerdings auch OCR in der kostenlosen Version mit drin.

Grüße
aero

Suche

OCR für PDF-Datei

Glowazowski

Lt. Junior Grade

Tenchi Muyo

Captain

aero

Lieutenant

Ähnliche Themen