Mulleperal
Lt. Junior Grade
- Registriert
- Sep. 2009
- Beiträge
- 290
Guten Morgen,
Meine Programm soll eingescannte PDFs verarbeiten können. D.h. beim nächsten Zwischenschritt will ich vom Programm z.B. wissen um welche art von Dokument es sich handelt (z.b. Bestätigung eines Finanzamtes oder Versicherungsbestätigung oder nur seiten einer Jahresbilanz) oder eben das z.b. Aufgrund einer schlechten scan Qualität nicht zuordenbar ist.
Ich bin derzeit soweit das ich die PDFs per tesseract zu Text umwandle. Gern möchte ich bei diesen Text ansetzen und weiterarbeiten.
Ich glaub hier bin ich dann bei machine learning, da das Programm bei der Erkennung der Dokumente dazulernen soll. Jedoch hab ich mit machine learning bisher noch wenig Erfahrung.
Bräuchte einen hint mit welchen Paketen ich sowas umsetzen könnte.
Derzeit bin ich in java unterwegs.
Mfg Mulle
Meine Programm soll eingescannte PDFs verarbeiten können. D.h. beim nächsten Zwischenschritt will ich vom Programm z.B. wissen um welche art von Dokument es sich handelt (z.b. Bestätigung eines Finanzamtes oder Versicherungsbestätigung oder nur seiten einer Jahresbilanz) oder eben das z.b. Aufgrund einer schlechten scan Qualität nicht zuordenbar ist.
Ich bin derzeit soweit das ich die PDFs per tesseract zu Text umwandle. Gern möchte ich bei diesen Text ansetzen und weiterarbeiten.
Ich glaub hier bin ich dann bei machine learning, da das Programm bei der Erkennung der Dokumente dazulernen soll. Jedoch hab ich mit machine learning bisher noch wenig Erfahrung.
Bräuchte einen hint mit welchen Paketen ich sowas umsetzen könnte.
Derzeit bin ich in java unterwegs.
Mfg Mulle