Scanner Workflow

DaishoCB · 21. August 2023

Hallo CB Forum,

Ich habe aktuell folgenden Workflow:
Rechner via Dualboot ins Windows booten, Scannersoftware von Brother starten, Dokumente in den Scanner (Brother 2750DW) legen, mit OCR scannen (Ich verwende hier die Software von Brother weil die einfach unglaublich gut ist im OCR, sowohl Deutsch als auch andere Sprachen welche ich brauche). Und im Anschluss in Linux die Dokumente via Recoll "verwalten" (Recoll ist eigentlich eine Indexierung von Texten mittels Volltextsuche, nicht wirklich zur Verwaltung gedacht).

Aber ich bin nicht so wirklich glücklich mich dem Workflow. Das Hauptproblem ist, ich muss, damit ich scannen kann, immer via Dualboot ins Windows (und dort dann erstmal Updates etc.). Und Recoll ist okay, aber als DMS (Dokumentenmanagementsoftware) nicht wirklich der Hit, da ich jedes Mal die Volltext suche habe und auch keine Tags etc. vergeben kann was ich aktuell über die Dateinnamen versuche zu lösen.

Was ich am Wochenende versucht habe:
Raspberry pi aufgesetzt, dort dann Docker installiert, dann "paperless ngx" drauf und dann entsprechend Netzwerkfreigabe via Samba auf den "ingest Folder" von Paperless. Und dann halt vom Scanner via Netzwerkscan die Dokumente einscannen.
An sich super Workflow, genau wie ich es mir vorstelle ABER, die OCR von paperless ist mal sowas von grotten schlecht. Dies ist auch einer der Gründe warum ich vor ein paar Jahren schon den Workflow ins Windows verlegt hatte, weil ich mit Teseract und Co einfach keine gute OCR bekommen habe. Und das passiert mir schon bei "einfachen" Textdokumenten. Sobald da was mit Tabellen reinkommt, oder gar Tabellen mit mehreren Spalten und Zeilen ist komplett vorbei. Auch Kundennummern etc. werden nicht sauber erkannt. Und sobald das Dokument mehr als 3 Grad schief eingescannt wurde weigert er sich komplett etwas mit OCR zu machen und ich muss das ganze neu einscannen.

Kennt einer da eine Alternative? Die brother Software scheint man nicht unter Linux nutzen zu können (zumindest nicht nach meiner Suche via Google und co). Und der Workflow mit Paperless und dem Raspberry Pi ist eigentlich genau das, was ich will weil ich dann meinen Windowsrechner nicht brauche und den Pi einfach laufen lassen kann, aber die OCR ist einfach bescheiden.

Vielen Dank im Voraus,

Bruzla · 21. August 2023

Teste mal ecoDMS, da hast du alles, was du brauchst.

DaishoCB · 21. August 2023

Das hatte ich vor 2 Jahren mal versucht, war aber damals nicht wirklich begeistert, weil das Setup einfach ein Krampf war und die Frage welche sich mir stellt, haben die etwas anderes als Teseract im Hintergrund im Einsatz? Denn meines wissen bauen fast alle linuxbasierten Scan Tools auf Teseract als OCR auf. Und dann werden die Ergebnisse nicht wirklich anders ausfallen, als bei paperless und co.

wern001 · 21. August 2023

ich hab recht gute erfahrungen mit abby FineReader gemacht. Gibt es auch als Mac und Linux version

Archivar · 21. August 2023

hmm - zwei sponante Anregungen:

1.) Du könntest unter Linux versuchen den OCR-Anteil durch masterpdf oder pdfstudio zu machen. Müsstest du testen, ob deren OCR besser (oder auch nur ein gekapseltes tesseract) ist.

2.) Du installierst dein Windows in eine virtuelle Maschine, z.B. unter Qemu/KVM oder Virutalbox, und reichst den Scanner bzw dessen USB-Port durch und installierst die Originaltreiber unter Windows. Dann wäre zumindest das Dualboot weg.

Demon_666 · 21. August 2023

Dass mit tesseract verwundert mich ein wenig. Mit dem hatte ich mit Abstand die besten Ergebnisse, als ich vor einiger Zeit Massen an Dokumenten digitalisieren sollte bzw. eine lösung erarbeiten sollte.

Ich fand Bitfarm als DMS damals recht gut. Zwar etwas altbacken im Design, aber man konnte viel selbst hand anlegen. Da kenne ich den aktuellen Stand jedoch nicht.

Archivar · 21. August 2023

dritte Idee:

3.) versuche mal vuescan, ob es deine Anforderungen erfüllt. Das ist oftmals eine Option, wenn sane nicht ausreicht. Dann könntest du unter Linux direkt scannen.

e_Lap · 21. August 2023

Paperless ocr settings auf "clean-final" gestellt?
PAPERLESS_OCR_CLEAN=clean-final

https://docs.paperless-ngx.com/configuration/#ocr

bzw wenn dein scanner eh schon OCR macht, dann stell paperless ocr einfach aus.
PAPERLESS_OCR_MODE=skip

DaishoCB · 25. August 2023

Danke für das Feedback, war leider mit Arbeit zugeschüttet, daher erst jetzt die Antwort.

Abby klingt in soweit ganz gut, als das ich ggf. "Nachbearbeiten" kann. Habe dann aber mal geschaut und man kann es leider nicht auf einem Rapsberry Pi im Container laufen lassen (zumindest sagt deren Doku man braucht ein Windows Host System). Ich finde die Vorstellung er scannt alles ein und macht schon die OCR und ich schau nur drauf, wenn ich es brauche eigentlich sehr ansprechend.

Ich habe die Settings mal angesehen und er nimmt eigentlich das, was ihr vorschlagt, aber die Ergebnisse sind einfach nicht so prickelnd, ich werde da nochmal versuchen woran es liegt. Ich hab bisher immer mit 300DPI gescannt, dass sollte eigentlich reichen für Text auf A4. Ich hatte dann mal 600 DPI versucht, da bekomme ich aber Probleme mit paperless weil die OCR scheinbar in einen TimeOut läuft (scheinbar nicht genug CPU/RAM), aber das kann ich mir auch nochmal ansehen.

Was das Thema alternative PDF Tools angeht, vielleicht mache ich mir den Spass mal am Wochenende und schaue was es da so schönes gibt. Ich mach ggf. auch nochmal einen Test auf meinem Rechner um zu sehen ob man das Problem mit mehr Ram und CPU in den Griff bekommt, so ein Container ist ja schnell installiert.

Edit: Ich habe gerade mal paperless auf meinem richtigen Rechner installiert und das gleiche Dokument nochmal durchfahren lassen. Dann bekomme ich keinen Fehler (scheint also ein Problem mit RAM und CPU zu sein auf dem Pi zu sein, wenn man 4 Seiten mit 600 DPI verarbeiten will).
Aber ich habe immer noch unglaublich schlechte Ergebnisse was die OCR angeht. laut diesem Link: https://github.com/paperless-ngx/paperless-ngx/discussions/3328 bin ich nicht alleine mit dem Problem (auch wenn meine Scans deutlich besser aussehen als die aus dem Beispiel).
Ich habe auch mal nur Deutsch als OCR Sprache genommen und es wird einfach nicht besser. Besonders wenn man kontrastreiche Textbeispiele hat (Versicherungsnummer auf gelbem Grund) steigt die OCR komplett aus, hier sollte sie eigentlich unglaublich gut funktionieren. Sehr schade. Und leider kann Brother halt das OCR nicht direkt im Gerät machen, warum auch immer.

Suche

Scanner Workflow

DaishoCB

Lieutenant

Bruzla

Commodore

DaishoCB

Lieutenant

wern001

Admiral

Archivar

Cadet 4th Year Pro

Demon_666

Commodore

Archivar

Cadet 4th Year Pro

e_Lap

Commander

DaishoCB

Lieutenant

Ähnliche Themen

Passend zum Thema

Computex Nightsword v2, Clipper Pro Mini Corsairs erste Maus mit Stream-Deck-Tasten

Computex 20 Jahre Republic of Gamers Asus stellt zahlreiche „Edition 20“-Produkte vor

Finalmouse Starlight X Das soll die schnellste FPS-Maus der Welt werden