OCR Systeme - Datenschutz

AimHigh · 3. Februar 2011

Hallo zusammen!

Meine Frage:
Ich recherchiere aktuell (bisher erfolglos), ob es eine serverbasierende OCR-Software gibt, die beim Upload einer PDF (z.B. Rechnung), automatisch personenbezogene Daten (Name / Adresse etc.) erkennt und automatisch filtert (z.B. Verpixelung).

Wäre klasse, wenn hier jemand helfen könnte.

Vielen Dank im Voraus und Grüße

Manu

Dunkelschwinge · 3. Februar 2011

Warum sollten Sie dass? Das wäre totaler Schwachsinn, da Daten auf einer Rechnung ja durchaus wichtig sind oder? Gerade die Personenbezogenen.

blablub1212 · 3. Februar 2011

kann ich mir nicht vorstellen. zumindest keine lösung die das bei jeder art von pdf machen kann. bei formularen die immer gleich sind könnte das jedoch ohne weiteres klappen. aber dann nicht auf basis von ocr sondern einfach durch angabe von den jeweiligen "koordinaten" auf dem formular

AimHigh · 3. Februar 2011

Konkretes Beispiel:

Du willst anhand einer Rechnung (Strom) NUR die "Nutzerdaten" - also Stromverbrauch und die dazugehörigen Parameter - herauslesen.
Wenn Du einen entsprechenden Service online anbietest, musst Du garantieren, dass die vom User hoch geladenen Dokumente die Personenbezogenen Daten NICHT verarbeitet / speichert etc.

Name, Adresse etc. sind hierbei nicht wirklich entscheidend....

Ergänzung (3. Februar 2011)

blablub1212 schrieb:
kann ich mir nicht vorstellen. zumindest keine lösung die das bei jeder art von pdf machen kann. bei formularen die immer gleich sind könnte das jedoch ohne weiteres klappen. aber dann nicht auf basis von ocr sondern einfach durch angabe von den jeweiligen "koordinaten" auf dem formular

Wie könnte das technisch und konkret genau aussehen, wenn ich jeweils passende "Koordinaten" verwende bzw. auslese.
Das wäre dann wahrscheinlich ein nachgeschalteter (nach OCR-Scan) Prozess oder?

blablub1212 · 3. Februar 2011

ehm du könntest dir das in etwa so vorstellen:

auf einem din a4 formular hast du als erstes den punkt Name: dahinter ein weißes freies feld in den man den namen einträgt. dieses weiße feld befindet sich auf dem din a4 formular z.b. 10cm vom linken rand entfernt, 4cm vom oberen rand und ist 6cm lang und 2cm breit.
nachdem du das formular gescant bzw. erhalten hast (am besten in einem bild format wie png/jpeg) lädst du das in einem grafik programm (z.b. photoshop, das kann batch) und einen lässt einen blur-filter (unschärfe) über die position des weißen namensfeld laufen. danach speicherst du das neue bild und löscht das alte.
wäre dann natürlich kein ocr mehr. das wird bei diesem vorschlag jedoch auch nicht gebraucht.

AimHigh · 3. Februar 2011

blablub1212 schrieb:
ehm du könntest dir das in etwa so vorstellen:

auf einem din a4 formular hast du als erstes den punkt Name: dahinter ein weißes freies feld in den man den namen einträgt. dieses weiße feld befindet sich auf dem din a4 formular z.b. 10cm vom linken rand entfernt, 4cm vom oberen rand und ist 6cm lang und 2cm breit.
nachdem du das formular gescant bzw. erhalten hast (am besten in einem bild format wie png/jpeg) lädst du das in einem grafik programm (z.b. photoshop, das kann batch) und einen lässt einen blur-filter (unschärfe) über die position des weißen namensfeld laufen. danach speicherst du das neue bild und löscht das alte.
wäre dann natürlich kein ocr mehr. das wird bei diesem vorschlag jedoch auch nicht gebraucht.

Ok,
vielen Dank erstmal für die detaillierte Ausführung.
Kann ich also folgenden Prozess damit realisieren:
Upload einer Rechnung
Auslesen der relevanten Daten (also keine personenbezogenen Daten)
Konvertierung der Datei in ein kompatibles Grafikformat
Batchprozess zur "Verwischung" der personenbezogenen Daten
Speichern / Darstellung des bearbeiteten Dokuments

Warum eigentlich nicht wie folgt:
Kann ich dem OCR System nicht einfach sagen, dass nur einen bestimmten BEreich des Dokuments "scannt" ergo ab einem bestimmten Abschnitt?
Wäre zumindest vom Ergebnis her das Gleiche....

Danke & Gruß
manu

enteon · 3. Februar 2011

ja kann man sicherlich. wie genau du das deiner software sagst entnimmt man dem handbuch oder dem entwickler.

solche systeme werden doch normalerweise von informatikern gebastelt? ^^

Suche

OCR Systeme - Datenschutz

AimHigh

Newbie

Dunkelschwinge

Admiral

blablub1212

Rear Admiral

AimHigh

Newbie

blablub1212

Rear Admiral

AimHigh

Newbie

enteon

Gast

Ähnliche Themen