NAS

OCR Systeme - Datenschutz

AimHigh

Newbie
Registriert
März 2008
Beiträge
3
Hallo zusammen!

Meine Frage:
Ich recherchiere aktuell (bisher erfolglos), ob es eine serverbasierende OCR-Software gibt, die beim Upload einer PDF (z.B. Rechnung), automatisch personenbezogene Daten (Name / Adresse etc.) erkennt und automatisch filtert (z.B. Verpixelung).


Wäre klasse, wenn hier jemand helfen könnte.

Vielen Dank im Voraus und Grüße

Manu
 
Warum sollten Sie dass? Das wäre totaler Schwachsinn, da Daten auf einer Rechnung ja durchaus wichtig sind oder? Gerade die Personenbezogenen.
 
kann ich mir nicht vorstellen. zumindest keine lösung die das bei jeder art von pdf machen kann. bei formularen die immer gleich sind könnte das jedoch ohne weiteres klappen. aber dann nicht auf basis von ocr sondern einfach durch angabe von den jeweiligen "koordinaten" auf dem formular
 
Konkretes Beispiel:

Du willst anhand einer Rechnung (Strom) NUR die "Nutzerdaten" - also Stromverbrauch und die dazugehörigen Parameter - herauslesen.
Wenn Du einen entsprechenden Service online anbietest, musst Du garantieren, dass die vom User hoch geladenen Dokumente die Personenbezogenen Daten NICHT verarbeitet / speichert etc.

Name, Adresse etc. sind hierbei nicht wirklich entscheidend....
Ergänzung ()

blablub1212 schrieb:
kann ich mir nicht vorstellen. zumindest keine lösung die das bei jeder art von pdf machen kann. bei formularen die immer gleich sind könnte das jedoch ohne weiteres klappen. aber dann nicht auf basis von ocr sondern einfach durch angabe von den jeweiligen "koordinaten" auf dem formular


Wie könnte das technisch und konkret genau aussehen, wenn ich jeweils passende "Koordinaten" verwende bzw. auslese.
Das wäre dann wahrscheinlich ein nachgeschalteter (nach OCR-Scan) Prozess oder?
 
ehm du könntest dir das in etwa so vorstellen:

auf einem din a4 formular hast du als erstes den punkt Name: dahinter ein weißes freies feld in den man den namen einträgt. dieses weiße feld befindet sich auf dem din a4 formular z.b. 10cm vom linken rand entfernt, 4cm vom oberen rand und ist 6cm lang und 2cm breit.
nachdem du das formular gescant bzw. erhalten hast (am besten in einem bild format wie png/jpeg) lädst du das in einem grafik programm (z.b. photoshop, das kann batch) und einen lässt einen blur-filter (unschärfe) über die position des weißen namensfeld laufen. danach speicherst du das neue bild und löscht das alte.
wäre dann natürlich kein ocr mehr. das wird bei diesem vorschlag jedoch auch nicht gebraucht.
 
blablub1212 schrieb:
ehm du könntest dir das in etwa so vorstellen:

auf einem din a4 formular hast du als erstes den punkt Name: dahinter ein weißes freies feld in den man den namen einträgt. dieses weiße feld befindet sich auf dem din a4 formular z.b. 10cm vom linken rand entfernt, 4cm vom oberen rand und ist 6cm lang und 2cm breit.
nachdem du das formular gescant bzw. erhalten hast (am besten in einem bild format wie png/jpeg) lädst du das in einem grafik programm (z.b. photoshop, das kann batch) und einen lässt einen blur-filter (unschärfe) über die position des weißen namensfeld laufen. danach speicherst du das neue bild und löscht das alte.
wäre dann natürlich kein ocr mehr. das wird bei diesem vorschlag jedoch auch nicht gebraucht.

Ok,
vielen Dank erstmal für die detaillierte Ausführung.
Kann ich also folgenden Prozess damit realisieren:
Upload einer Rechnung
Auslesen der relevanten Daten (also keine personenbezogenen Daten)
Konvertierung der Datei in ein kompatibles Grafikformat
Batchprozess zur "Verwischung" der personenbezogenen Daten
Speichern / Darstellung des bearbeiteten Dokuments

Warum eigentlich nicht wie folgt:
Kann ich dem OCR System nicht einfach sagen, dass nur einen bestimmten BEreich des Dokuments "scannt" ergo ab einem bestimmten Abschnitt?
Wäre zumindest vom Ergebnis her das Gleiche....

Danke & Gruß
manu
 
ja kann man sicherlich. wie genau du das deiner software sagst entnimmt man dem handbuch oder dem entwickler.

solche systeme werden doch normalerweise von informatikern gebastelt? ^^
 
Zurück
Oben