Suche OCR-Software, die die Formatierung beibehält

(-_-) · 27. März 2015

Hi,

für eine Bekannte schaue ich mich gerade nach Freeware um, die ihre gescannten und zukünftig zu scannenden Dokumente so umwandelt, dass sie in Word bearbeitet werden können.
Ich hatte mal probeweise FreeOCR installiert, jedoch sofort bemerkt, dass jede Zeile einfach linksbündig hingeklatscht wird, keine Leerzeilen übernommen werden etc.

Sicherlich dürfte Omnipage so etwas schaffen, doch sie möchte kein Geld dafür ausgeben.
Gibt es da womöglich eine gute Lösung?

Strikerking · 27. März 2015

http://alternativeto.net/software/omnipage/?license=opensource

xmarsx · 27. März 2015

FreeOCR verwendet unter der Haube Tesseract (Google OpenSource Projekt), dass auch in anderen Produkten verwendet wird.
Das ist zu Beispiel im schnellen PDF-XChange Viewer bzw. Editor der Fall, wo es die Texterkennung bei eingescannten Dokumenten übernimmt (damit kann man gescannt Dokumente im PDF durchsuchbar machen --> Empfehlung in den Einstellungen: "Text als extra Ebene im PDF speichern und den Scan als Original beibehalten").

Ich würde mal probieren wie sich Omnipage verhält, denn man bekommt davon eine Testversion:
http://www.nuance.de/for-business/by-product/omnipage/ultimate/trial-version/index.htm

OCR ist und bleibt recht fehleranfällig...

computerbase107 · 27. März 2015

Ich sehe bei dieser 0-Euro-Vorgabe nur den Weg über eine ältere Version von Omnipage Pro oder Finereader.

Diese sind immer noch besser, als irgendeine Free-OCR-Version.

Für gelegentliches OCR gibt es alternativ auch einen Online-Service.

DeusoftheWired · 27. März 2015

Wie soll Software mit einem Blick auf ein gedrucktes Blatt unterscheiden können, ob der Autor fünf Leerzeichen aneinandergereiht oder einfach einen Tab gesetzt hat? Hat er eine Leerzeile verwendet oder einfach nur extremen Zeilenabstand? Das Problem ist, daß man mit mehreren unterschiedlichen Formatierungsoptionen zum gleichen graphischen Ergebnis beim Ausdruck kommt. Hinterher festzustellen, welche benutzt wurde, ist so unmöglich, wie anhand von kompiliertem Code festzustellen, wie der Quelltext aussah.

Mit OCR ist es wie mit Übersetzungssoftware: Gut für das Gros der dummen Arbeit, manuelles Nacharbeiten bleibt aber immer notwending.

Du kannst dir höchstens eine OCR-Software suchen, die PDFs mit editierbaren Textfeldern erstellt.

nickless_86 · 27. März 2015

kenn da nichts persönliches nur kenn ich die Seite wos massig alternativen zeigt....selbst hab ich Readiris (Gabs zum Scanner dazu)

http://alternativeto.net/software/omnipage/

nurmalsoamrande · 27. März 2015

Ansonsten, welches Word hast du denn? 2013 kann nativ PDFs Öffnen und als als doc/docx speichern. Ansonsten gibt es auch diverse Plugins für Word 2010 und 2007, um PDFs zu öffnen.

Aber egal, ob du eine kommerzielle oder eine Freewarelösung nimmst, so wirklich überzeugt hat mich da noch nichts. So oder so bekommst du da in aller Regel Ergebnisse mit deutlichem Formatierungsdefizit.

War es Ursprünglich mal ein doc/docx, wurde mit Word als 08/15-PDF gespeichert (nicht solche PDF-A-Scherze) und hast du da keine Formatierungsspecials drin, dann geht es mit Word 2013 meiner Erfahrung nach noch am besten. Wenn das PDF aber das Ergebnis von irgendeiner Desktop-Publishing-Anwendung war, da bekommst du in aller Regel nur Chaos raus...

(-_-) · 27. März 2015

Testen kann ich da spontan leider nicht viel, selbst habe (und brauche) ich keinen Scanner und mal kurz 200km zu ihr fahren möchte ich auch nicht unbedingt

Habe gerade in der Bucht "Finereader Sprint 5" entdeckt.
Soll wohl eine kastrierte Version sein, aber um Scans zu erkennen und als rtf etc. zu speichern soll es wohl reichen.
Kann da vllt. Jemand aus eigener Erfahrung etwas sagen?

Madman1209 · 27. März 2015

Hi,

Testen kann ich da spontan leider nicht viel, selbst habe (und brauche) ich keinen Scanner und mal kurz 200km zu ihr fahren möchte ich auch nicht unbedingt

Teamviewer?

VG,
Mad

(-_-) · 27. März 2015

Bin gerade umgezogen und darf noch ca. 2 Wochen auf mein DSL warten

Das ist mir dann doch etwas zu teuer über UMTS.

Suche

Suche OCR-Software, die die Formatierung beibehält

(-_-)

Commander

Strikerking

Commander

xmarsx

Lieutenant

computerbase107

Rear Admiral

DeusoftheWired

Fleet Admiral

nickless_86

Commander

nurmalsoamrande

Lt. Commander

(-_-)

Commander

Madman1209

Fleet Admiral

(-_-)

Commander

Ähnliche Themen