Scan Technik? Omnipage / Abby Forum?

TobiasSchneider

Lt. Junior Grade
Registriert
Okt. 2009
Beiträge
471
Hallo

Ich suche verzweifelt seit langer Zeit ein Forum, das sich mit der Thematik des Scannens, Archivierens etc. beschäftigt und Anwender hat, die Abby Finereader oder Omnipage (vielleicht mit Paperport?) benutzen.

Ich stoße immer wieder auf Probleme, die ich mit den dicken Handbüchern nicht wirklich gelöst bekomme.

Aktuell habe ich zb. ein Grundbuch vorliegen, dass mal vom Amt eingescannt wurde und dieser scan sieht nicht toll aus. Das Format ist .TIF


Ich kann dieses mehrseitige Tif nun mit PaperPort PRO V11 in eine durchsuchbare PDF umwandeln und das Layout bleibt erhalten. Nur optisch sieht es nicht so gut aus.


Ich möchte selbiges aber mit den bezahlversionen von Abby Finereader und Omnipage schaffen. Finde aber keinen weg.



Der Vorredner sprach von einem Stil. Ok, ich habe bei Omnipage nur die US Version, was auch ok ist. Vermute Du meinst, jenes dass sich dort Template nennt?

Wie dem auch sei, ich schaffe es nicht zufriedenstellen, wie die Werbung es verspricht, das Layout zu erhalten bzw. vielleicht sogar zu verbessern (ausrichten, Anti-Alias, Punkte von STaub entfernen, Schrift ersetzen etc.).



Sepp bat seine Hilfe per PM an. Finde ich gut, dennoch halte ich es ebenfalls für gut, sowas im Forum zu bereden. Ist ja der Sinn

Also,

wer ist so nett und kenntnisreich, dass er hier helfen kann?
Wer kennt ein Omnipage oder Abby Forum?

Hier könnt Ihr Euch meinen TestScan ansehen, damit Ihr Euch ein Bild machen könnt:
http://db.tt/3tGH4vE
oder
https://www.sugarsync.com/pf/D388262_6276164_721559

Für den öffentlichen Speicher habe ich Dropbox und SugarSync genutzt, letzteres bietet sogar die Möglichkeit, dass meine öffentliche Datei durch Euch annotiert, kommentiert und geändert werden kann. Seht Euch mal die Anleitung/Video bei SugarSync an. Einfach mit einer Internetadresse (also irgendwas lustiges registrieren...)
https://www.sugarsync.com oder Dropbox http://goo.gl/2Q0cP



vielen Dank
Tobias
 
Hm, ich verstehe nicht ganz genau, was dein Problem ist. Der Scan sieht so aus wie das Papier, halt etwas nachgeschärft und so, aber das ist doch ok, oder? Und einen OCR hast du auch, dass man über den Windows Indexdienst drauf zugreifen kann bzw. der die PDFs indizieren kann (Adobe PDF iFilter nicht vergessen!).

Die Punkte, die du verbessern möchtest, machst du am allerbesten mit Adobe Acrobat Standard.

Ich hab auch ein PDF-Programm für unsre Firme besorgen sollen und hatte den Auftrag, erst mal Freeware abzuklappern. Das Ergebnis war, dass ich am Ende ca. 40 PDF-Programme in meiner virutellen Maschine hatte, wovon genau zwei überhaupt mal einen OCR konnten, der Rest ging schon nicht mehr.

Fazit: es gibt wirklich nur EIN PDF-Programm, mit dem man wirklich vernünftig arbeiten kann. Adobe Acrobat.

Hab das seinerzeit für günstige 95€ bei ebay geschossen. Und genau da kannst PDFs zuschneiden, Kratzer entfernen, Stab entfernen, sogar den Bundstegschatten.

So sieht das aus:

http://www.adobe.com/de/designcente...t_createpdf/images/acr7ct_createpdf_3_int.jpg
 
Hallo,

um mit Abbyy FineReader aus der BitMap-PDF eine Durchsuchbare PDF zu machen gehts Du so vor.

Über Datei wählst Du PDF-Datei/Bild öffnen. Bei normaler Einstellung beginnt der OCR-Vorgang* unmittelbar nach dem Ladevorgang und Du siehst in der Zwei-Seiten-Übersicht das Original links und das OCR-Ergebnis im rechten Fenster.


Über die Ausgabe, ebenfalls über Datei und Dokument speichern, wählst Du im ersten Dialog das PDF-Format aus. Im nächsten Dialogfenster befindet sich unten rechts die Taste Optionen.

Einmal geklickt wählst Du, wenn nicht schon aktiv, das Dateiformat PDF und unter der Bezeichnung Modus speichern, wählst Du Text unter dem Seitenbild.


Wenn Du den Namen vergeben hast und die Datei gespeichert wurde, erhältst Du eine Durchsuchbare PDF in der im Vordergrund die grafische Darstellung mit Tabellen, Grafikzeichen usw. dargestellt wird, gleichfalls kannst Du den Text auch ganz normal auswählen und kopieren. In Desktopsuchmaschinen wird der Text in diesen PDF-Dokumenten ebenfalls erkannt und indiziert.


Und Tschüss



* je schlechter der Zustand der Vorlage, desto mehr Fehler gibt es zu korrigieren.
 
Makyt

danke schon einmal für den Hinweis. Du hast Recht. Ich habe OCR in der Linkdatei. Ursprünglich war dieses ein TIFF, das ich dann mit PaperPort PRO , das einzig wirklich sinnvolle Programm, mit dem ich umgehen kann... einfach als PDF-A gespeichert.

Das klappt wunderbar. Vor allem bleibt so natürlich das Layout vorhanden, da nur der 'Kontainer' geändert wird.

Ich habe mir es aber so vorgestellt, dass ich mit Omnipage PRO 17 das Tiff oder die PaperPort PDF lade, OP dann erkennt, dass es das Original eine Mono Schrift hat und diese z.B. entsprechend ersetzt. Somit wäre der Fliesstest quasi saniert und wesentlich besser lesbar. Die Linien horiz./verti. sollten erhalten bleiben und als Linien erkannt werden und richtig ausgerichtet werden.

Mein hypothetisches Resultat wäre dann eine Arbeitsgrundlage als PDF (die dann wieder gen TIF; JPG oder Word... gehen könnte), die aussieht, als wäre sie neu getippt worden und somit wesentlich besser lesbar.

PS:
Kann das nur der neueste Acrobat
10? Weil der ist mir doch zu teuer.
 
Hm, ob das geht? Eine gescannnte Schrift durch eine "Schriftarte" die auf dem System installiert ist, ersetzen?

Wenn ja, das wäre natürlich richtig geil. Das würd mich auch interessieren.

Aber reicht es denn nicht, wenn du die künstliche Nachschärfung und den Kontrast etwas runterdrehst. Scheint mir nämlich etwas Aggresiv bei dir zu arbeiten.

Wir haben auch das Acrobat 9 gekauft deswegen, weil das X einfach unverschämt teuer ist. Naja, ist ja auch (noch) neu.


Zur Frage, Textschrift im Scan durch eine "echte" Schriftart zu ersetzen, gibts hier schon was:

http://www.mediengestalter.info/forum/9/schrift-in-gescannten-pdfs-verbessern-149665-1.html

Da spricht jemand von ClearScan, was etwas bringen soll. Aber die Schriftart auszutauschen, scheint wohl nicht möglich zu sein.
 
Ich hoffe, Ihr bleibt am Ball :)

Ich muss mich nun ums Kind kümmern und hoffe, mich noch ein wenig weiter in die Materie vertiefen zu können. Es ist offensichlich ein Problem, dass oft auftaucht bei Anwendern wie mir. Die Frage ist nur, ob es eine Lösung gibt, die bezahlbar ist (Omnipage 17PRO kostet als Vollversion zur Zeit 99,- und ich hatte nur das update. Acobat ist da schon eine andere Ansage). Oder:
Es liegt ein basales Verständnisproblem vor.

Sprich, man kann wirklich nichts verbessern - Lesbarkeit - , wenn das Ausgangsmaterial schlecht ist. Ich habe zwar hier einen EPSON GT 15000 A3 Scanner, aber mein Grundbuchauszug und vieles andere stammt ja aus anderen Quellen. Es wurde also schnell und minderwertig eingescannt - oder aber das richtige Original war schon schlecht. Ich vermute bei mir letzteres (Schreibmaschiene... geringe DPI) kombiniert mit nem Schnellscan (Vorlage schräg etc.)....

Dennoch hoffe ich, mit Omnipage eine Automatisierung hinzubekommen. Wenn es sein muss, kommt Abby Finereader hinzu!
 
Hallo Tobias.
Ich beschäftige mich sehr viel mit der OmniPage-Automatisierung, weil wir die OCR in unserer Archivierungssoftware verwenden.
Ich verstehe eines noch nicht so richtig. Soll als Ergebnis ein PDF-Textdokument herauskommen? Also eine Umwandlung des gescannten Bilder in ein Textdokument, welches dann als Vorlage für eine Überarbeitung dient?
Für die Archivierung wäre das falsch, weil dabei das gescannte Abbild verloren geht.
OmniPage (auch FineReader) bietet beide Möglichkeiten: entweder in ein Textdokument umwandeln oder das gescannte Bild erhalten und den Text zusätzlich in den Hintergrund kopieren (s.a. Kate: Text unter dem Seitenbild).
Für die Automatisierung mit OmniPage würde ich den Agent (Batch Manager) entsprechend einstellen. Neue Dateien werden in ein überwachtes Verzeichnis gelegt, OmniPage Agent verarbeitet das Dokument und legt es dann in einen Exportordner.
Gruß, Harald
 
Hallo Harald

also das Zielformat ist mir zur Zeit noch egal. Wichtig ist mir, dass ich das schlechte Ausgangsmaterial lesbarer bekomme.


Die Technik per OCR den erkannten Text dann als Eben zu hinterlegen ist mir bekannt. PDF-A bzw. halt wie Du und Kate es sagen, mit Omnipage oder Finereader. Dann bleibt die original 'Optik' erhalten und der editierbare/durchsuchbare Text kommt als undursichtige Ebene dahinter.


Mir geht es aber darum, da ich sehr viele solcher Vorlagen habe - alte Grundbücher, alte juristische Texte, alte Testamente :)... etc., dass diese schneller 'entziffern' kann. Damit meine ich einfach nur, sie lesbarer zu machen.


Darunter verstehe ich, dass z.B.
a) die schrägen Linien des Scans (klar, im Original waren sie mal horizontal und vertikal, aber es wurde halt schräg eingescannt) auszurichten. Sowas kann sehr eindrucksvoll z.B. Scantailor. Das Programm ist mir aber zu unergonmisch und für mich daher nicht brauchbar. Man muss zu viel im Kleinklein einstellen....
b) die 'New Courier' oder welche Monospace auch immer das obig z.B. ist 'austauschen'.

Es muss nun nicht eine andere Schriftfamilie sein, was aber nett sein könnte, aber dann erhält man einen ganz neuen Fließtest, da z.B. nicht mehr alle Zeichen in eine Zeile passen etc. ABER
das teure Scanprogramm sollte zumindest die Schriftfamilie mehr oder weniger richtig erkennen (sind ja meist die üblichen Schriften (Schreibmaschine) und dann mit denen des Betriebssystems ersetzen.

Damit meine ich, in meinem original Scan können Buchstaben ausgefranst sein. Omnipage sollte dann ein ausgefranstes 'a' erkennen, weil im Original dieses als 'o' erscheint, weil halt ausgefranst :=)
 
Ok - verstanden.
Da muss ich aber passen, hier geht es ja ausschließlich um die Bildverbesserung.
Gute Erfahrungen hatte ich mit Kofax VRS gemacht, aber nur beim Scannenn. Ich weiß nicht, ob man damit auch bestehende Bilder verarbeiten kann. Zumal das auch nicht einfach einzustellen ist, da bleib besser beim Scantailor.

Zusammen mit OmniPage könnte ich mir nur vorstellen, für jeden Dokumenttyp ein eigenes Fach-Wörterbuch zu erstellen und dieses mit den ersten Bildern zu trainieren.

Gruß, Harald
 
Darf ich noch fragen, ob Ihr noch gute Foren zu dieser Thematik kennt außer jenen bei Yahoo (Paperport, Omnipage group).

Weil ich finde leider keinen Platz, wo man dazulernen kann und sich austauschen kann. Z.B. schreibe ich grade eine autoit Anwendung für versch. Scanprogramme und meinen Epson GT Scanner...
 
Zurück
Oben