Software gesucht: Dateien per OCR benennen und verschieben

Tailtinn

Cadet 4th Year
Registriert
Apr. 2009
Beiträge
109
Hallo,

ich habe mir vorgenommen meine privaten Unterlagen zu digitalisieren.
Dazu habe ich mir einen Fujitsu fi-6110 zugelegt.

Nun bin ich auf der Suche nach passender Software.

Im Prinzip würde es mir reichen, meine Dateien später nur über Ordner auf der Festplatte zu verwalten.
Dazu bräuchte ich aber ein Tool, das mir per OCR die Dateitypen erkennt und anhand von extrahierten Werten die Dateinamen und Pfade zusammenbaut.

Im Prinzip suche ich ein ELOoffice für's Filesystem.
In ELOoffice kann ich Dokumententypen definieren. Für die werden OCR-Bereiche festgelegt die anhand von Stichwörtern das Dokument erkennen. Zusätzlich lassen sich per OCR gezielt Schlagwörter extrahieren, die ich dann für die Dateibenennung verwenden kann.
Also genau das was ich brauche - halt als DMS.

Ich habe auch schon etwas mit File Juggler rumgespielt, das schon viel kann, wie PDFs nach Schlagwörtern durchsuchen, aber eben nicht gezielt welche extrahieren kann.

Kennt jemand Alternativen? Bzw gibt es sowas überhaupt?
Die Software darf durchaus auch etwas kosten (ELO steht trotz allem in der engeren Wahl)


Danke schonmal,
Tailtinn
 
von Toshiba gibt es Paperport
 
Danke für den Tipp.
Auf den ersten Blick finde ich aber keine Möglichkeit, Dateien automatisch zu benennen und in Ordner zu verschieben.
Das wäre mir wichtiger als eine Verwaltung im Dateisystem.
Oder habe ich was übersehen?
 
Guck Dir mal Readiris oder Abby Finereader an, da kannst Du die Scans automatisch in durchsuchbare PDF's wandeln, oder Einzelbilder scannen, müsste auch mit fortlaufenden Nummern gehen. Einstellungen -> Speicherformat -> PDF Bild-Text
 
Danke, das scheint aber nicht das zu können, was ich suche.
Durchsuchbare PDFs erhalte ich bereits von meiner Scanner-Software (Pagestream Capture)
Das Problem ist das Auslesen bestimmter Bereiche, um den Dateinamen dynamisch aufzubauen.
 
Da ich auch immer mal wieder übers Digitalisieren alter Unterlagen nachdenke (und mit meinem Brother Duplex-Scanner inkl. Paperport und OCR eigentlich auch gut gerüstet bin), würde mich interessieren, wie du das mit den "Bereichen für OCR" meinst. Hast du so viele ähnlich aufgebaute Dokumente, dass sich das automatische Auslesen z. B. des Datums lohnt?

Wenn überhaupt fände ich eine Software interessant, die z. B. einen gelb gemarkerten Bereich als Stichwort oder Datum in den Dateinamen reinbaut.

Aber vielleicht steckt hinter dem Konzept noch mehr?

Viele Grüße, Halwe
 
halwe schrieb:
wie du das mit den "Bereichen für OCR" meinst.
Ich hab mal zwei Screenshots aus ELO angehängt.
Dort kann ich Dokumententypen festlegen (linke Spalte) und denen diverse Zonen zuweisen. Klassifizierungszonen und Parameter Zonen, die per OCR ausgewertet werden. Den Klassifizierungszonen (Screenshot 1) kann ich Vergleichstexte zuweisen, die den Dokumententyp identifizieren. Mit den Parameterzonen kann ich gezielt Schlagwörter aka Tags extrahieren (Screenshot 2) und diese auch direkt in ELO weiter verarbeiten um eben bspw. Dateinamen oder auch Pfade festzulegen.
ELO_OCR1.jpgELO_OCR2.jpg

halwe schrieb:
Hast du so viele ähnlich aufgebaute Dokumente, dass sich das automatische Auslesen z. B. des Datums lohnt?
Das gehört auch zum Dilemma in dem ich stecke. Am Anfang würde es sich sicherlich lohnen, bis ich alle bisher gesammelten Unterlagen eingescannt habe (Gehaltsabrechnungen, Kontoauszüge, div. Rechnungen, ...)
Es wäre halt mühselig, die alle von Hand sinnvoll zu benennen und zu sortieren.
Wenn ich mal auf dem Laufenden bin wäre das natürlich kein großer Aufwand mehr. Dann wäre es halt ein Stück Luxus, wenn ich mich nicht mehr um die Dateibenennung kümmern müsste, sondern neue Dokumente in den Scanner lege und fertig.

halwe schrieb:
Wenn überhaupt fände ich eine Software interessant, die z. B. einen gelb gemarkerten Bereich als Stichwort oder Datum in den Dateinamen reinbaut.
Das habe ich bei meiner Recherche auch entdeckt, mich aber noch nicht eingehender damit beschäftigt.
Die Fujitsu ScanSnap Software kann das zum Beispiel. Zwar werden die Werte nicht direkt in den Dateinamen übernommen, aber im PDF als Tags hinterlegt => ScanSnap Handbuch
 
Ich scanne ja schon ziemlich lange alles und überlege, meine älteren Unterlagen zu digitalisieren. Von daher: schön, einen "Leidensgenossen" gefunden zu haben.:)

Aber das automatische Benennen - was bringt das?

Ich stellt mir vor, ich bin in meinem Versicherungsordner und will die Unterlagen wegscannen. Dann nehme ich ein Dokument, scanne es ein und lege es ab, mit einem generischen Namen, wie "scan123.pdf". Mit diesem Namen würde ich es dann in den Dateiordner "Allianz Hausratversicherung" schieben und fertig (wie gesagt ich gehe davon aus, dass alle Dokumente zur Hausratsversicherung beieinander sind).

Die Alternative wäre, einen inhaltlichen Namen zu geben, also
"2010-11-23 Allianz - Ankündigung neuer Beitragssatz ab 2011.pdf"
und in den Ordner Versicherungen. So mache ich es momentan mit allen neuen Unterlagen.

Im ersten Fall interessiert mich nur der richtige Ordner, alles andere ist eine Frage der an der Dateinummer erkennbaren Chronologie und der Dateivorschau im Explorer. Eventuell ist hier die Textsuche per OCR noch hilfreich.

Im zweiten Fall habe ich mehr Detailüberblick. Aber auch hier ist das Wichtigste zunächst der Ordner, wo ich das Dokument ablege. Zweitwichtigstes Kriterium wäre das Datum, aber ich kann mir nicht vorstellen, dass eine automatische Erkennung desselben vor dem Hintergrund des geringen Tippaufwandes effizient wäre. Den sprechenden Dateinamen wiederum muss ich manuell schreiben, weil die Titel der Schreiben eben in der Regel nicht sprechend sind (und sich auch wiederum nur mit viel Aufwand scannen ließen).

Von daher fehlt mir immer noch der Use Case für diese Betreff- Texterkennung. Aber vielleicht ist bei dir alles ganz anders...
Viele Grüße, Halwe
 
Ich sehe ebenfalls keine reelle Chance aus dem Dokumentinhalt verlässliche Informationen zu ziehen die mir beim Dateinamen nennenswert helfen.

Möglicherweise mag es helfen durchsuchbare PDFs im Gegensatz zu reinen Bildern zu erzeugen - und schon müsste eine SW mit diesen Inhalt direkt temporär anzeigen damit ich per Copy-Paste Inhalte entnehmen und zum Dateinamen zusammensetzen kann {›bis ich Enter drücke‹ und das dann ablege}.

CN8
 
halwe schrieb:
Aber das automatische Benennen - was bringt das?
Es würde mir viel Aufwand (und monotone Arbeit) ersparen. Wie gesagt, zugegebenermaßen nur am Anfang, bis ich mal auf dem Laufenden bin und alle alten Unterlagen eingescannt habe.
Dabei geht es natürlich in erster Linie um die Dokumente, die sich ständig wiederholen. Die hätte ich gerne bspw. [Arbeitgeber]_Gehaltsabrechnung_05/2015.pdf oder [Bank]_Kontoauszug_#3_2014.pdf benannt. Und nachdem sich da über die Jahre einige angesammelt haben, wäre hier eine Automatisierung schön. Dass das nicht bei allen Unterlagen geht, ist mir klar.

cumulonimbus8 schrieb:
Ich sehe ebenfalls keine reelle Chance aus dem Dokumentinhalt verlässliche Informationen zu ziehen die mir beim Dateinamen nennenswert helfen.
Eingeschränkt ist das schon möglich (siehe mein ELO Beispiel von oben).
Ich habe halt nach Alternativen gesucht, da ich nicht zwingend ein vollwertiges DMS benötige (das zudem ca 350€ kostet).

Aber Danke schonmal für Eure Hilfe. Auch wenn ich nicht gefunden habe, was ich suche, hat die Diskussion ein paar Denkanstöße geliefert.
Im Moment überlege ich, ob die Kombination durchsuchbare PDFs und ein Tool wie File Juggler nicht reichen. Damit könnte ich zumindest eine grobe Vorsortierung nach dem Scan vornehmen.
 
Jaja, ich weiß, du willst monotone Arbeit sparen. Aber das ist nicht der Punkt. Ich sehe den konkreten Ablauf vor mir (z. B. du scannst deine Gehaltszettel) und frage mich, was außer dem Datum-Erkennen dir die OCR bringt. Oder, dieser Verdacht drängt sich auf, liegen deine Dokumente alle unsortiert als großer Stapel vor und du willst sie per OCR kategorisieren?

Bei der Gelegenheit: Ich suche immer noch eine (Hardware-) Variante zum Stapelscannen alter Fotos. Hab nun schon mehrere ADF-Scanner und einen Diascanner probiert, aber so was wie "20 Fotos 9x13 einlegen und wegscannen" schaffen die alle nicht.

Viele Grüße, Halwe
 
Meine Unterlagen sind in den Aktenordner natürlich bereits sortiert ;)
Es geht im Endeffekt wirklich nur um den Komfort, insbesondere am Anfang.

Die Regeln in ELO sind einfach schneller erstellt, als das manuelle Nachbearbeiten der Scans - das ist alles.
Und dabei geht es ja nur um die Ersparnis bei den regelmäßigen Dokumenten wie Gehaltsabrechnungen, Kontoauszüge, Handy-/Telefonrechnungen usw. Mit den Unterlagen, die ich nicht durch Regeln sortieren lassen kann, habe ich ja auch schon gut zu tun.

Oder für später: Ich sammle alle neuen Briefe einen Monat lang, setzte mich dann an einem Abend hin, werfe alle neuen Dokumente einfach auf einem Stapel unsortiert in den Scanner und lasse den Rest die Software erledigen.

Wie gesagt, mir hat einfach das Konzept in ELO gut gefallen.
 
Hallo zusammen,
auch wenn es ein alter Thread ist wollte ich mal hören ob jemand mittlerweile eine brauchbare Lösung gefunden hat?
Stehe vor dem gleichen „Problem“
Liebe Grüße
Seppel
 
Hallo,

bei mir ist es tatsächlich doch ELO geworden.
In erster Linie wegen der Dokumentenerkennung, und weil wir es auch bei der Arbeit einsetzen.
Außerdem kann man, wenn auch teils nicht so gut dokumentiert, selbst Erweiterungen programmieren.

Viele Grüße
 
Mir stellt sich die Frage warum ihr überhaupt noch grossartig scannt?

Ich habe damals alle Banken, Versicherungen usw. angeschrieben mit der Bitte mir nur noch Mails zu senden. Seit dem ist der Scan-Aufwand gegen 0 geraten.
 
Es geht ja nicht nur um das reine Scannen, sondern auch um die Verwaltung der Dokumente.
Ich bekomme auch die meisten Unterlagen mittlerweile digital.
 
Es ist ja nun schon wieder eine Weile her, dass sich hier jemand gemeldet hat. Und so wie ich das sehe, gab es hier keine befriedigende Lösung.

ELO habe ich auch schon mal ausprobiert. Auf den ersten Blich scheint es DIE Lösung zu sein. Warum ich es wieder entfernt habe? Weil es eine propritäre Lösung ist. Heisst: wenn es ELO mal nicht mehr gibt, wie komme ich dann an wieder meine Dokumente?

Dann habe ich "File Juggler" gefunden. Dieses Tool deckt ca. 90% dessen ab, was ich mir wünsche. Für jeden Absender (meist sind es ja immer die gleichen Kreditoren) muss ich eine eigene Konfiguration anlegen. Über diese Konfiguration wird dann definiert, wie der Name der Datei aufgebaut, und wo das File abgelegt werden soll. Es vereinfacht die Arbeit schon wesentlich!
Ich wünschte mir jedoch, dass es nur eine Konfiguration gibt, welche für alle Dokumente universell anwendbar ist. Das Auslesen des "Kreditors" funktioniert ja soweit gut. Warum also für jeden Kreditor eine eigene Konfig anlegen? Ich denke das liegt daran, dass man danach flexibler ist, wo das PDF abgelegt werden soll. Aber auch dies könnte durch eine universell anwendbare Regel gelöst werden. Es wäre also nur noch ein kleiner Schritt notwendig.

Vielleicht gibt es in der Zwischenzeit ja genau das Tool, das ich mir wünsche, und ich habe es nur noch nicht gefunden. Vielleicht kennt jemand aus diesem Forum die Antwort auf meine Wünsche?
 
Zurück
Oben