Suche OCR-Software, die die Formatierung beibehält

(-_-)

Commander
Registriert
Feb. 2013
Beiträge
2.614
Hi,

für eine Bekannte schaue ich mich gerade nach Freeware um, die ihre gescannten und zukünftig zu scannenden Dokumente so umwandelt, dass sie in Word bearbeitet werden können.
Ich hatte mal probeweise FreeOCR installiert, jedoch sofort bemerkt, dass jede Zeile einfach linksbündig hingeklatscht wird, keine Leerzeilen übernommen werden etc.

Sicherlich dürfte Omnipage so etwas schaffen, doch sie möchte kein Geld dafür ausgeben.
Gibt es da womöglich eine gute Lösung?
 
FreeOCR verwendet unter der Haube Tesseract (Google OpenSource Projekt), dass auch in anderen Produkten verwendet wird.
Das ist zu Beispiel im schnellen PDF-XChange Viewer bzw. Editor der Fall, wo es die Texterkennung bei eingescannten Dokumenten übernimmt (damit kann man gescannt Dokumente im PDF durchsuchbar machen --> Empfehlung in den Einstellungen: "Text als extra Ebene im PDF speichern und den Scan als Original beibehalten").

Ich würde mal probieren wie sich Omnipage verhält, denn man bekommt davon eine Testversion:
http://www.nuance.de/for-business/by-product/omnipage/ultimate/trial-version/index.htm

OCR ist und bleibt recht fehleranfällig...
 
Ich sehe bei dieser 0-Euro-Vorgabe nur den Weg über eine ältere Version von Omnipage Pro oder Finereader.

Diese sind immer noch besser, als irgendeine Free-OCR-Version.

Für gelegentliches OCR gibt es alternativ auch einen Online-Service.
 
Wie soll Software mit einem Blick auf ein gedrucktes Blatt unterscheiden können, ob der Autor fünf Leerzeichen aneinandergereiht oder einfach einen Tab gesetzt hat? Hat er eine Leerzeile verwendet oder einfach nur extremen Zeilenabstand? Das Problem ist, daß man mit mehreren unterschiedlichen Formatierungsoptionen zum gleichen graphischen Ergebnis beim Ausdruck kommt. Hinterher festzustellen, welche benutzt wurde, ist so unmöglich, wie anhand von kompiliertem Code festzustellen, wie der Quelltext aussah.

Mit OCR ist es wie mit Übersetzungssoftware: Gut für das Gros der dummen Arbeit, manuelles Nacharbeiten bleibt aber immer notwending.

Du kannst dir höchstens eine OCR-Software suchen, die PDFs mit editierbaren Textfeldern erstellt.
 
Ansonsten, welches Word hast du denn? 2013 kann nativ PDFs Öffnen und als als doc/docx speichern. Ansonsten gibt es auch diverse Plugins für Word 2010 und 2007, um PDFs zu öffnen.

Aber egal, ob du eine kommerzielle oder eine Freewarelösung nimmst, so wirklich überzeugt hat mich da noch nichts. So oder so bekommst du da in aller Regel Ergebnisse mit deutlichem Formatierungsdefizit.

War es Ursprünglich mal ein doc/docx, wurde mit Word als 08/15-PDF gespeichert (nicht solche PDF-A-Scherze) und hast du da keine Formatierungsspecials drin, dann geht es mit Word 2013 meiner Erfahrung nach noch am besten. Wenn das PDF aber das Ergebnis von irgendeiner Desktop-Publishing-Anwendung war, da bekommst du in aller Regel nur Chaos raus...
 
Testen kann ich da spontan leider nicht viel, selbst habe (und brauche) ich keinen Scanner und mal kurz 200km zu ihr fahren möchte ich auch nicht unbedingt ;)

Habe gerade in der Bucht "Finereader Sprint 5" entdeckt.
Soll wohl eine kastrierte Version sein, aber um Scans zu erkennen und als rtf etc. zu speichern soll es wohl reichen.
Kann da vllt. Jemand aus eigener Erfahrung etwas sagen?
 
Bin gerade umgezogen und darf noch ca. 2 Wochen auf mein DSL warten ;)
Das ist mir dann doch etwas zu teuer über UMTS.
 
Zurück
Oben