Workflow für Dokument Archivierung (Scannen -> OCR -> PDF/A)

16-Bit · 18. Februar 2018

Hi!
Ich arbeite an einem Workflow, mit dem ich Dokumente (Rechnungen, usw) schnell und effizient archivieren kann. Bisher mache ich es so, dass ich mit Abbyy Finereader (aktuell Testversion Ver. 14) die Dokumente einzeln einscanne, und dann mit dem Finereader bearbeite, erkenne und dann in einer Ordnerstruktur speichere, die ich dann mit einer Volltextsuche (Docfetcher) durchsuchen kann. Die PDFs speichere ich in S/W in hoher Auflösung (600 dpi) mit OCR als PDF/A (da braucht eine A4 Seite gerade mal 100-200 KB und ist sehr gut les- und durchsuchbar).

Ich würde mir aber mehr automatisierung wünschen. Gibt es irgendein system, welches die Dokumente (nehmen wir mal an, sie landen einfach unter Windows in einem "Eingangs-Order" -> mein Scanner unterstützt das Netzwerkseitig...), analysiert und dann automatisch verarbeitet? Z.b. sehen bestimmte Belege ja immer gleich aus. Mir würde auch schon ein automatische Umwandelung in PDF/A mit Texterkennung reichen. Das langt ja für die Volltextsuche.

Wie macht ihr das so? Habt ihr Tipps?
Dankeschön! :-)

hazrael · 18. Februar 2018

Ich mache es ähnlich, nur gibt es bei mir keine Ordnerstruktur mehr, der Scanner druckt als PDF, das PDF wird bei mir in OneNote importiert und ist damit durchsuchbar, das aufteilen in Ordner lasse ich weg, da ich nur noch über die Suche in OneNote arbeite.

Gerne würde ich auch mehr automatisieren, aber einen schnelleren Weg habe ich bisher nicht gefunden.

Joypad · 18. Februar 2018

Vielleicht hilft das:

Stichwort sind hier "hotfolder" / "überwachte ordner".

Es liest sich so, als ob Abbyy das schon kann:
http://help.abbyy.com/de-de/finereader/12/automation

Da gibt es Automatisierte Tasks
http://help.abbyy.com/de-de/finereader/12/taskmanager

und hotfolder:
http://help.abbyy.com/de-de/finereader/12/hotfolder

Zu Not könnte man den Umweg über PDFCreator mit Addon:
http://www.chip.de/downloads/HotFolder-fuer-PDFCreator_75767447.html

Adobe Produkte sollten das auch können.
Anscheinend für Postscript-Dateien https://helpx.adobe.com/de/acrobat/using/creating-pdfs-acrobat-distiller.html

Hoffe das hilft weiter.

Phill__ · 18. Februar 2018

Man könnte hier auch ein richtiges dms verwenden und alles nur mit Metadaten versehen

16-Bit · 18. Februar 2018

hazrael schrieb:
das aufteilen in Ordner lasse ich weg, da ich nur noch über die Suche in OneNote arbeite.

Verstehe. Aber da hätte ich ein Problem, wenn ich zwar weiß welcher Art ein Dokument ist (z.b. eine Rechnung mit unbekanntem Layout), aber nicht den genauen Inhalt (Artikelbezeichnung, Datum) kenne. Bei mit gehe ich dann in Rechnungen->2018->Januar und finde es dann wieder. Zugegeben - kommt so herum eher selten vor.

Joypad schrieb:
Vielleicht hilft das:

Stichwort sind hier "hotfolder" / "überwachte ordner".

Es liest sich so, als ob Abbyy das schon kann:
http://help.abbyy.com/de-de/finereader/12/automation

Da gibt es Automatisierte Tasks
http://help.abbyy.com/de-de/finereader/12/taskmanager

und hotfolder:
http://help.abbyy.com/de-de/finereader/12/hotfolder

Danke für den Hinweis. Hatte mir das hier schonmal genauer angeschaut. Leider scheint es nur so zu sein, dass Finereader nur in den Ordner schaut, ob da was Neues drin ist, und das dann stumpf OCR-verarbeitet und das dann in einen anderen Ordner schiebt. Es gibt keinerlei intelligente Verarbeitung / Sortierung. Außerdem kostet diese Version direkt 100€ mehr verglichen mit der Grundversion (=200€). Finde ich recht teuer für das was es da an mehrleistung dann gibt. Finereader an sich ist zugegegebenermaßen ein tolles Programm mit vielen coolen Features.

Joypad schrieb:
Zu Not könnte man den Umweg über PDFCreator mit Addon:
http://www.chip.de/downloads/HotFolder-fuer-PDFCreator_75767447.html

Aber includiert das auch OCR? So wie ich das verstehe erst einmal nicht oder? Oder würdest du das dann mir Abbyy kombinieren?

Joypad schrieb:
Adobe Produkte sollten das auch können.
Anscheinend für Postscript-Dateien https://helpx.adobe.com/de/acrobat/using/creating-pdfs-acrobat-distiller.html

Dafür braucht man leider Acrobat Pro. Und das gibts nur für 17€ / Monat (bin nicht so der Abo Fan

)

Phill_HF schrieb:
Man könnte hier auch ein richtiges dms verwenden und alles nur mit Metadaten versehen

Ja.. Aber leider verschiedben die meisten DMSe die Dateien in eine Datenbank. In irgendeinem probprietären Format. Ich hätte es gern als PDF/A in einer Ordnerstruktur...

In letzter Zeit hört man so viel vom machine / deep Learning. Verstehe nicht, dass da noch niemand was versucht hat. Das ist doch DER Anwednungsfall für diese Technik...

halwe · 19. Februar 2018

Ich würde es so angehen:
1. Einen Scanner besorgen, der direkt beim Scannen auch das OCR vornimmt (das hast du z. B. bei einem Brother AIO durch den Paperport mit dabei).
2. Alles in einen Ordner speichern lassen.
3. Über diesen Ordner Suchen aufbauen und speichern, die dann anhand der Suchbegriff jeweils eine bestimmte Art von Dokument rausfiltern.
4. Diese Suchen als Links leicht aufrufbar irgendwo hinlegen, ggf. auch Tastenkombis zuweisen.
5. Bei Bedarf können dann die über die Suche/Filter gefundenen Dateien leicht im Bündel irgendwo hingeschoben werden.

Tenchi Muyo · 4. März 2018

BTW:

Adobe Acrobat DC kann man immer noch als one-time purchase kaufen - ist aber leider sehr versteckt und nur über die adobe.com webseite zu finden:

KA ob der Link so funktioniert:
https://commerce.adobe.com/anyware/...EN&returnUrl=undefined&originalCountryCode=US

Oder:

1. Adobe.com
2. ganz unten links auf "view all products" klicken
3. Links in den großen Felder: "PDF & E-Signatures" je einen Haken reinsetzten

somit erscheint:

Acrobat Pro 2017
The complete desktop solution for working with PDFs. (one-time purchase)

Acrobat Standard 2017
Reliably create, edit, and sign PDFs on your desktop. (one-time purchase)

Wenn man dann die Vollversion kaufen möchte oder die Upgrades muss man im Warenkorb noch unten rechts das Land auf Deutschland ändern - damit man im Warenkorb auch erst die deutsche Version auswählen kann.

Wie gesagt über die deutsche Adobe.de Seite findet man hier nichts.

Suche

Workflow für Dokument Archivierung (Scannen -> OCR -> PDF/A)

16-Bit

Lt. Commander

hazrael

Cadet 4th Year

Joypad

Lieutenant

Phill__

Lt. Junior Grade

16-Bit

Lt. Commander

halwe

Lt. Commander

Tenchi Muyo

Captain

Ähnliche Themen