Papierloses Büro

Bronco5000

Cadet 3rd Year
Registriert
Juli 2011
Beiträge
52
Hi,

ich werde mit meiner Firma diese Jahr in ein neues Büro ziehen und möchte bei der Gelegenheit auch endlich den Schritt hin zu einem – zumindest teilweise – papierlosen Büro machen und mich von den endlosen „Ordnerwänden“ zu verabschieden. Primär geht’s dabei darum verschiedene Ablieferbelege zu scannen und als PDF zu archivieren, was grob überschlagen zu einem jährlichen Datenvolumen von ca 50GB führen wird.
Das sind alles keine hochbrisanten Daten die irgendwie verschlüsselt werden müssten oder ähnliches, ich muss halt nur nachschauen können wenn irgendwelche Rückfragen von Absendern, Auftraggebern oder Empfängern kommen.

Meine Frage dazu zielt gar nicht so sehr auf die Hard- und Software zum Scannen, hierfür tut´s wohl zunächst auch mein All-in-One Canon ir 1730, sondern auf das Konzept wie, wo und womit man das am besten und langlebig sichert.

Was sind Eure Erfahrungen oder wie macht Ihr das? Externe Platte? NAS (RAID oder nicht)? Cloud-Lösungen? Alles zusammen? Welche Produkte kommen in Frage bzw. welche Anbieter?

Der Zugriff auf die Daten muss nicht von überall erfolgen können, es reicht wenn ich von meinem Büro aus darauf zugreifen kann. Wichtiger ist die sichere Speicherung der Daten für einen Zeitraum von mindestens zehn Jahren. Welches Medium ist dafür am verlässlichsten? Festplatten können ja auch mal abrauchen etc.

Ich hab hier in meinem jetzigen Büro schon ein Single-Bay-NAS für Images von den einzelnen PCs stehen, aber angenommen es würde im Büro brennen dann bringt mir ein NAS am selben Ort wie der PC dann doch eher wenig…das ist wie mit dem Türschlossenteiser im Handschuhfach ;-)

Grüße
 
Hi,

in meinem HomeOffice habe ich über genau dasselbe nachgedacht und wie folgt umgesetzt:

- Jeder Brief wird eingescannt (ich verwende den HP OfficeJet Pro 8620 Plus - wichtig: Duplex-Scan!)
- Der OfficeJet packt das PDF auf meinen Server (eine kleine Intel NUC mit Core i3 und Ubuntu)
- Auf dem Server läuft pypdfcocr in Verbindung mit eigens geschriebenen python-Scripten, welche das PDF OCRen und auf der NAS (4-Bay ZyXEL 540) in OCRT und zur Sicherheit das Original ablegen und mit Datum taggen
- Auf dem Server läuft zudem ein OpenSemantic Search Server, der täglich alle PDFs indiziert und in einem Webportal (apache, SOLR, Jetty) zum Suchen und filtern zur Verfügung stellt.
- Das Portal habe ich mit einer einfachen .htaccess geschützt und auch ins Web freigegeben, damit ich von überall darauf zugreifen kann.
- Derzeit synct mein Hauptrechner noch alles von der NAS und synct danach mit OneDrive. Später sollte das die NAS oder die NUC selbst machen, bin ich aber noch nicht zu gekommen.
- Per eingebundenem Samba-Share kann ich auch von jedem LAN-Rechner auf die NUC ein PDF schieben, was sofort verarbeitet wird (falls mal eine Rechnung per Mail / digital und nicht per Post kommt)

Anmerkungen:

1.) Derzeit funktioniert das opotionale tagging im OpenSemantic Search jedoch noch nicht. Und OpenSemantic Search ist sehr schlecht dokumentiert - muss ich mal gucken, stört mich aber noch nicht wirklich, da ich auch ohne tagging alles finde.

2.) Der OpenSemanticSearch ist durch eigene Scripte perfekt anpassbar (soll er jedenfalls, noch nicht proibiert, sieht aber gut aus), womit man seine indizierten Dokumente bereits beim indizieren taggen kann.

3.) Ein Backup der im RAID-5-laufenden NAS sollte zusätzlich auch lokal, vielleicht durch eine zweite NAS erfolgen. Am besten behält man mehrere Versionen, auf genügend Speicherplatz ist also zu achten, da die Vorhaltezeit von Belegen 6 bis 10 Jahre beträgt.

4.) Ich habe keine AllInOne-Lösung gefunden, die einigermaßen bezahlbar ist. Alle eingesetzte Software ist daher OpenSource und man muss selbst scripten. Wenn man sich damit aber auch nur ein bisschen auskennt, hat man das in maximal einer Woche auf dem Stand, wie ich es jetzt habe. Erweiterungen sind immer möglich, was das tolle daran ist - und man zahlt keine Lizenzgebühren ;)

5.) Durch Anpassung von Scripten kann man bei meinem System auch seine eigene Ordnerstruktur behalten. Diese wird dann auf der NUC vorgehalten. Schiebt man / Scannt man bspw ein PDF auf die NUC auf
Code:
//NUC/Rechnungen/2016/Hausverwaltung/Objekt1/Rechnung.pdf
wird das Ding OCRed und auf die NAS in
Code:
//NAS/Rechnungen_OCR/2016/Hausverwaltung/Objekt1/da-tu-mm_Rechnung.pdf
gepackt. Im Webinterface vom OpenSemanticSearch kann dann das Suchergtebnis nach Pfaden gefiltert werden, was dann das Auffinden bei sehr vielen Dokumenten und Suchergebnissen ohne Filter extrem beschleunigt.

6.) OpenSemanticSearch indiziert nicht nur PDFs, sondern auch DOCX, DOC, etc....

Bei Fragen helfe ich natürlich gerne weiter, falls Du ebenfalls in diese Richtung gehen möchtest =)

MfG,

Anon

edit: habe diesen Post auch mal im "Technikblog von Hans" dazugeschrieben =)
 
Zuletzt bearbeitet:
Deine Probleme teilen sich in 2 größere Teile auf:

1. Altdaten in Papierform digitalisieren und laufende Papiere kommen dazu

2. Daten zentral gesichert zur Verfügung stellen

Zu 1)

Die gebräuchlichste Lösung ist die von Fujitsu ScanSnap mit den unterschiedlichen Ausprägungen: http://www.fujitsu.com/de/products/computing/peripheral/scanners/scansnap/
Die können es aufgrund der jahrelangen Erfahrung in diesem Bereich, beispielsweise werden in vielen Arztpraxen Papiere auf diesem Wege automatisch der jeweiligen digitalen Krankenakte zugefügt inklusive automatischer Verschlagwortung usw.
Der automatische Einzug inklusive der Stapelverarbeitung geht natürlich auch mit dem entsprechenden Gerät.
Darunter gibt es meiner Meinung nach nur "Spielkram", der wenig geeignet ist für den professionellen Betrieb.

Zu 2)

Zentrales gutes Nas inklusive Backuplösung, z.B. von Qnap. Aufgrund des angesprochenen Datenvolumens wird wohl eine 2er Nas im Raid1 hinreichend sein. Mein Tipp Qnap TS-253A.
 
Ich widerspreche hier computerbase107 wie folgt:

Zu 1) Ohne starke eigene Anpassung sind die ScanSnap-Tools ein großer manueller Aufwand. Zwar haben sie Angebote für Arztpraxen, lassen andere BRanchen (soweit ich weiß) aber alleine. Hier muss dann eine manuelle Bearbeitung jedes einzelnen Briefs / PDFs erfolgen. Digitale PDFs können auch nicht bearbeitet werden (so zumindest bei einem meiner Kunden in der Baubranche).
Die ScanSnap-Scanner sind zwar teuer aber durchaus sehr gut und sehr schnell.

Widersprich' mir gerne, falls es hier doch eine Lösung gibt, daran wäre ich sehr interessiert! Könnte meinem Kunden weiterhelfen, der noch überlegt, ob ich ihm meine Lösung einbauen soll.

Zu 2) Ich rate im Office-Betrieb ganz klar zu einer 4-Bay-NAS mit 3 Platten im RAID-5 und eine Platte als HotSpare, sodass bei Ausfall einer Platte mit der HotSpare sofort rebuildet wird.

MfG,

Anon
 
AnonStar schrieb:
Ich widerspreche hier computerbase107 wie folgt:

Zu 1) Ohne starke eigene Anpassung sind die ScanSnap-Tools ein großer manueller Aufwand. Zwar haben sie Angebote für Arztpraxen, lassen andere BRanchen (soweit ich weiß) aber alleine. Hier muss dann eine manuelle Bearbeitung jedes einzelnen Briefs / PDFs erfolgen. Digitale PDFs können auch nicht bearbeitet werden (so zumindest bei einem meiner Kunden in der Baubranche).
Die ScanSnap-Scanner sind zwar teuer aber durchaus sehr gut und sehr schnell.

Widersprich' mir gerne, falls es hier doch eine Lösung gibt, daran wäre ich sehr interessiert! Könnte meinem Kunden weiterhelfen, der noch überlegt, ob ich ihm meine Lösung einbauen soll.

Zu 2) Ich rate im Office-Betrieb ganz klar zu einer 4-Bay-NAS mit 3 Platten im RAID-5 und eine Platte als HotSpare, sodass bei Ausfall einer Platte mit der HotSpare sofort rebuildet wird.

MfG,

Anon

Basierend auf den Erfahrungen im Bekanntenkreis und den Erfahrungsberichten auf der oben von mir verlinkten Webseite habe ich die Empfehlung in Richtung Fujitsu ScanSnap ausgesprochen.

Zum Nas, größer geht immer und wenn es doch in Richtung HV (Hochverfügbarkeit) laufen sollte, dann sind wir schnell bei einer Doppel-Nas-Konfiguration mit gegenseitiger Aktualisierung. Also lieber 2 x ein 2erNas als 1 x ein 3er-Nas.
 
Hier auch mal ein Screenshot mit Erklärungen von der Oberfläche von OpenSemanticSearch (Nummerierung von mir):

2016-01-27_OpenSemanticSearch.png

1.) Der Suchbegriff (mit Autovervollständigung aus dem Index der indizierten Begriffe)

2.) Hier kann die Ergebnisliste nach Verzeichnissen gefiltert werden

3.) Hier kann die Ergebnisliste nach Unterverzeichnissen gefiltert werden

4.) Hier kann die Ergebnisliste nach Datum (Jahr -> Monat -> Tag -> Stunde -> Minute) gefiltert werden

5.) Hier kann die Ergebnisliste nach Dateityp gefiltert werden

6.) Der getaggte Titel des Dokuments. Dieser wird wahrscheinlich über das Title-Attribut aus dem Dokument ausgelesen. Bei mir ist das Attribut aber in keinem PDF oder Word-Dokument gefüllt worden (siehe Anhang 2). Da muss ich wohl mal an meinem Word-Makro rumschrauben, damit das da rein gepackt wird. Liegt also nicht an OpenSemanticSearch, sondern an meinen Dokumenten. Ich würde davon ausgehen,d ass das bei gesetzten Attributen funktioniert. Bei gescannten PDFs muss man natürlich nachhelfen, da wird der Drucker keinen Titel setzen =D Man kann das OCR-Script aber modifizieren, dass ein Titel eingesetzt wird (bspw. die Überschrift o.ä. - könnte etwas gefummel werden, damit wird aber JEDE Lösung ein Problem haben - woher sollen sie denn auch wissen, worum es in dem Dokument geht?)

Unterhalb des Titels wird der Name des Files und die Filegröße angezeigt. Darunter dann - sofern verfügbar - der Autor des Dokuments

7.) Hier kann das Dokument direkt geöffnet werden (bei mir wird hier die FTP-Verbindung auf die NAS mit korrektem Pfad geöffnet, sodass man sich nach der Anmeldung im Browser direkt das PDF im Browser ansehen kann)

8.) Hier kann das Dokument getaggt werden - bei meinen Versuchen wurden Tags nicht gespeichert. Irgendwo muss da ein Fehler sein. Vielelciht versucht er Attribute in den Files zusetzen, hat aber keine Schreibberechtigung auf der NAS - keine Ahnung, muss ich nochmal analysieren.

9.) Hier kann die Vorschau (d.h. lediglich der OCRte Text des Dokuments plain ausgegeben werden.

10.) Sortierung nach Relevanz, Neuste, Älteste

Abschließend: Ich finde das Tool super! Was geil wäre, wäre noch eine Thumbnail-Ansicht des Dokuments daneben. Das wäre spitzenklasse. Werde ich aber wahrscheinlich nciht einbauen können. So reicht's aber auch und ist auf jeden Fall besser, als nur eine thumbnail-Ansicht und sonst nichts weiteres zu haben.
Ergänzung ()

Hey,

1.) Hast Du denn Erfahrungen aus dem Bekanntenkreis mit der automatisierten Indizierung von PDFs durch ScanSnap außerhalb von Arztpraxen?

2.) Es ging mir hier nur um Datensicherheit, nicht um Hochverfügbarkeit. Zwar ist die Wahrscheinlichkeit sehr gering, dass zwei Platten hintereinander ausfallen, es ist aber auf jeden Fall sicherer, sofort ein Rebuild anzustoßen.
Ein Backup in der Cloud sollte natürlich weiterhin erfolgen, das auf eine leere NAS zurückzuspielen, würde aber wahrscheinlich so lange dauern, dass man da doch lieber in ein 4-bay gerät mit hotspare investieren sollte. die kosten ja auch nicht so viel...

Btw.: Wegen der Cloud - ganz genau auf die Anforderungen aus dem BDSG achten ;) Wenn Ami-Anbieter, dann am besten verschlüsseln.
 

Anhänge

  • 2016-01-27 11_52_29-Eigenschaften.docx.png
    2016-01-27 11_52_29-Eigenschaften.docx.png
    8,6 KB · Aufrufe: 287
Zuletzt bearbeitet:
AnonStar schrieb:
Ergänzung ()

Hey,

1.) Hast Du denn Erfahrungen aus dem Bekanntenkreis mit der automatisierten Indizierung von PDFs durch ScanSnap außerhalb von Arztpraxen?

2.) Es ging mir hier nur um Datensicherheit, nicht um Hochverfügbarkeit. Zwar ist die Wahrscheinlichkeit sehr gering, dass zwei Platten hintereinander ausfallen, es ist aber auf jeden Fall sicherer, sofort ein Rebuild anzustoßen.
Ein Backup in der Cloud sollte natürlich weiterhin erfolgen, das auf eine leere NAS zurückzuspielen, würde aber wahrscheinlich so lange dauern, dass man da doch lieber in ein 4-bay gerät mit hotspare investieren sollte. die kosten ja auch nicht so viel...

Btw.: Wegen der Cloud - ganz genau auf die Anforderungen aus dem BDSG achten ;) Wenn Ami-Anbieter, dann am besten verschlüsseln.

Hallo,

über die Erfahrungen im Bekanntenkreis hinaus verweise ich auf die diversen Praxisberichte im Netz und Fujitsu SnapScan ist ein "Quasi"-Standard in diesem Bereich. Das ein "Anlern-Prozess" für Benutzer und Software-Paket zu Beginn stattfinden muss ist ja wohl klar, oder ?

zu 2) Da bin ich mir nicht so sicher wie Du, denn falls das Raid5 degradet ist und es mehr als 8 Stunden dauert, um das Raid wieder zum laufen zu bringen, dann ist der Tag rum und wie sieht es dann mit dem Zugriff in der Zwischenzeit aus ?
Genau aus diesem Grund hat sich eine 2-Nas-Lösung in der Praxis wirklich bewährt, denn der Betrieb kann in der Regel nicht warten auf den Techniker bzw. auf die längere Raid-Rebuilt-Zeit.

Das mit der Sicherung in der Cloud, hat auch so seine Performance- und Sicherheitsschwächen im Detail.
 
Hey,

okay, ich werde mich mal in ScanSnap einlesen - ich kenne ja auch die Software uznd war nicht so überzeugt davon, aber mal sehen.

zu 2) Während des rebuilds ist bei aktuellen NAS (auch bei meiner ZyXEL NAS540 der Zugriff weiterhin möglich).
 
AnonStar schrieb:
7.) Hier kann das Dokument direkt geöffnet werden (bei mir wird hier die FTP-Verbindung auf die NAS mit korrektem Pfad geöffnet, sodass man sich nach der Anmeldung im Browser direkt das PDF im Browser ansehen kann)

Hallöchen,
da ja die Dokumentation und der Support relativ bescheiden ist, würde mich interessieren, wie und wo du die Pfadanpassung für die Datenquelle gemacht hast. Bei mir ist ein pdf-Archiv auf einer windows-share. Nach der indexierung verweist er aber auf die Maschine, wo die Suchmaschine liegt und nicht auf die im intranet zugängliche windows-share.
Weißt du vielleicht wo man das anpasst, damit beim draufklicken das Dokument geöffnet wird?

Vielen Dank! :)
 
Hi,

diese Einstellungen nimmst Du unter
Code:
<opensemanticsearch-config-dir>/connector-files
vor.
Anmerkung: Bei mir ist das folgender Pfad:
Code:
/etc/opensemanticsearch/connector-files

Dort hast Du die Pfadanpassung mittels

Code:
# If documents access not via filesystem but via website (http)
# your files in /var/www/documents/ should be mapped to http://www.opensemanticsearch.org/documents/
config['uri_prefix_strip'] = "/mnt/my/documents/"
config['uri_prefix'] = "ftp://myShare:port/my/documents/"

Dabei ist der strip der INTERNE Pfad; die zweite Variable ist der externe Pfad, der geöffnet werden soll bei Klick.

Statt FTP kannst Du dann eben auch samba oder http:// einstellen. Musst aber gucken, wie der Browser damit klarkommt. Das öffnen von Share-Files war bei mir nicht möglich über den Browser (ich musste den Pfad rauskopieren und in den Explorer einfügen).
Mit FTP klappt das aber alles ohne Probleme - insbesondere mit dem PDF-Viewer in Chrome und Firefox. Aber probier mal aus und berichte.

Damit der Pfad nicht zu lang wird im Webinterface darunter dann auch anpassen:

Code:
# The path facet is the sidebar component to navigate (sub)paths.
# If all your different directories are in one path like /documents
# or even worse the main content dirs are subdirs like /mnt/fileserver/onesubdir and /mnt/fileserver/othersubdirectory
# you might want that the user can select or navigate the subdirectories directly (which from the content perspective are main dirs)
# instead of forcing the user first navigate to ./mnt, then to ./fileserver and so on...

# this option wont change the uri (which is the base of this option and can be mapped and stripped above),
# it will only change/strip/shorten the path facet in the interactive navigation of the user interface
config['facet_path_strip_prefix'] = { "ftp://myShare:port/my/documents/", "myServer" }

Damit wird der Grundpfad herausgerechnet und nur noch "myServer" genannt. Ansonstne müsstest Du Dich im Webinterface durchhangeln: ftp -> myshare -> my -> documents

Ich hoffe geholfen zu haben.

MfG,

Anon
 
Klasse! Danke schon mal für deine Hilfe! :)
Ich werd das gleich mal ausprobieren.
Falls das mit dem Windows-Share nicht klappt, versuchs ich auch mal mit dem FTP.

Ich werd aufjedenfall berichten.
Dann haben auch andere was davon.

Gruß
Moppelchen
 
Zurück
Oben