Weiterarbeiten mit OCR Ergebnis

Mulleperal · 10. November 2023

Guten Morgen,

Meine Programm soll eingescannte PDFs verarbeiten können. D.h. beim nächsten Zwischenschritt will ich vom Programm z.B. wissen um welche art von Dokument es sich handelt (z.b. Bestätigung eines Finanzamtes oder Versicherungsbestätigung oder nur seiten einer Jahresbilanz) oder eben das z.b. Aufgrund einer schlechten scan Qualität nicht zuordenbar ist.
Ich bin derzeit soweit das ich die PDFs per tesseract zu Text umwandle. Gern möchte ich bei diesen Text ansetzen und weiterarbeiten.
Ich glaub hier bin ich dann bei machine learning, da das Programm bei der Erkennung der Dokumente dazulernen soll. Jedoch hab ich mit machine learning bisher noch wenig Erfahrung.
Bräuchte einen hint mit welchen Paketen ich sowas umsetzen könnte.

Derzeit bin ich in java unterwegs.

Mfg Mulle

Aduasen · 10. November 2023

Wie sieht denn die konkrete Aufgabenstellung aus?
Wenn man die kennt, kann man ggf. einige Dinge von vorneherein ausschließen.

Michael-Menten · 10. November 2023

Nehm den Absender mit Adresse und schau was sich hinter der Adresse verbirgt.
Den inhalt kannst du an Keywords weiter einteilen.

Deutlich weniger Aufwand als ein neuronales Netz zu trainieren bzw. Trainingsdaten zusammeln.

Mulleperal · 10. November 2023

Zur Aufgabenstellung:

Ich muss von den unterschiedlichen PDF Datei die darin enthaltenen Daten abgleichen, auf Aktualität und Zugehörigkeit zu dem Unternehmen prüfen und anschließend in einem Bericht dokumentieren (Bürokratismus ftw .... NOT)

Eine PDF-Datei kann aus einer Kombination von gescannten und elektronisch erzeugten PDFs (markierbar) bestehen.

Aduasen · 10. November 2023

Auf deutsch, eine berufliche Aufgabenstellung?

Mulleperal · 10. November 2023

Ja die Idee stammt aus einer beruflichen Aufgabenstellung.

Das Interesse daran wie man diesen Prozess automatisieren könnte liegt bei mir selbst. Derzeit hab ich Interesse daran, wie so etwas von statten gehen kann und möchte mich in diesen Hinblick weiterbilden. Kann mir gut vorstellen, dass ich dieses Wissen in Zukunft brauchen könnte.

sandreas · 10. November 2023

Es gibt für sowas verschiedene Ansätze. Tesseract kann z.B. neben den reinen Textinformationen auch die Positionen der Wörter / erkannten Texte mit ausgeben, dazu wird das so genannte hOCR format genutzt (HTML-Datei mit Positionsangaben).

Das kann bezüglich der Einsortierung sehr nützlich sein.

Bezüglich des allgemeinen Inhalts nennt man das was du vorhast "Document Classification". BERT ist hier ein gäniges Verfahren, ALBERT eine leichtgewichtigere Alternative. Mit diesen Schlagwörtern solltest du genug recherchematerial finden.

Sehr nützlich finde ich z.B. OCRmyPDF
Für Albert scheint das hier ne ganz gute Einführung zu sein - du brauchst dafür aber schon einen Corpus bereits klassifizierter Dokumente.

Crumar · 10. November 2023

Kannst auch sonstmal bei paperless-ngx spinxen.
Das macht in jedem Fall eine Klassizifierung und nutzt (angeblich) eine KI um Dokumente nach menschlichem Training zu klassifizieren. Klappt soweit ganz gut, obs wirklich KI ist ... hab nicht reingeschaut, was genau dafür verantwortlich ist.

Bspw. werden Briefe meiner Versicherung immer konkret dieser Versicherung zugeordnet.

BeBur · 10. November 2023

Generell ist das ein Fass ohne Boden ohne Eingrenzung des Scopes.

Mulleperal schrieb:
Ich muss von den unterschiedlichen PDF Datei die darin enthaltenen Daten abgleichen, auf Aktualität und Zugehörigkeit zu dem Unternehmen prüfen und anschließend in einem Bericht dokumentieren

Vollautomatisch, d.h. kein Mensch soll das kontrollieren? Wie schlimm ist es, wenn ein Scan mal nicht so gut ist und die eingetragenen Daten falsch sind? Für mich wäre jedenfalls die erste Frage, wie gut das Programm erkennt, dass die Genauigkeit beim aktuellen Dokument nicht so gut ist und wie dann der Prozess ist was mit dem Dokument gemacht wird.
Machine Learning macht das ganze gerne noch problematischer, da nach unbekannten Regeln klassifiziert wird.

Mulleperal · 10. November 2023

Ich wüsste gerade nicht was für eine realistisches Eingrenzung du @BeBur dir erwartest, ohne dass ich Blödsinn rede, da ich den Thema das erste Mal begegne.

Ich finde den Beitrag von @sandreas sehr gut und werde mir mal seinen hinweisen folgen.

Was am Ende dabei rauskommen soll, weiß ich selbst noch nicht. Wie gesagt ich will jetzt mal austesten was ich so zusammenbekomme und wo die grenzen liegen.

Aber danke für den Blickwinkel, dass man dich sowieso nicht 100%ig auf so eine Lösung verlassen darf. Das Gefühl hatte ich bereits.

@Crumar hat mich auf die Idee gebracht das man auch Dokumente aus dem privaten Umfeld damit klassifizieren könnte.

Soll jetzt mal als "bastelprojekt" starten.
Vielen Dank schonmal an alle.

Suche

Weiterarbeiten mit OCR Ergebnis

Mulleperal

Lt. Junior Grade

Aduasen

Fleet Admiral

Michael-Menten

Commander

Mulleperal

Lt. Junior Grade

Aduasen

Fleet Admiral

Mulleperal

Lt. Junior Grade

sandreas

Lieutenant

Crumar

Lieutenant

BeBur

Commodore

Mulleperal

Lt. Junior Grade

Ähnliche Themen