Auswertung des Inhalts von Dokumenten

BlackVip3r · 2. Januar 2019

Hallo zusammen,

erstmal ein schönes neues Jahr!

Ich arbeite gerade an einem kleinen Programmierprojekt, bei dem es sich um eine Fragenapp handelt, sprich einer App in der der Nutzer fragen zu einer bestimmten Kategorie bekommt, die er beantworten kann. Basis die Fragen stellen PDF Dokumente dar, die alle in ein und derselben Weise formatiert sind: Frage in fett + 4 Antwortmöglichkeiten, wovon eine mit einem Haken markiert ist.

Ich suche nun ein Programm, die ich so anlernen / konfigurieren kann, dass sie mir auf einem PDF Dokument oder einem Bild die entsprechenden Daten automatisiert extrahiert. Ich habe schon ein wenig gegoogelt, aber so wirklich fündig geworden bin ich nicht, zumal mir dazu kein Begriff einfallen würde. OCR Software gibt es zwar, aber die Features zielen meistens eher nur in die Erkennung von Text, aber nicht in die automatische Kategorisierung, wenn man so will.

Kennt jemand von euch ein derartiges Programm, bzw. kennt die Begrifflichkeiten unter denen ein solches Tool fallen würde?

Liebe Grüße

uburoi · 2. Januar 2019

Steht bei dem Programmprojekt das Quiz oder die Datengewinnung im Vordergrund?
Falls Ersteres, wäre es erheblich leichter, die Fragen und Antworten händisch in eine Datenbank einpflegen, oder falls das zu umständlich ist, die PDFs mit einer vorhandenen Lösung zu scannen und die erzeugte Textdatei weiterzuverarbeiten.

Gruß Jens

blablub1212 · 2. Januar 2019

Interessant wäre auch ob der Text in den PDFs wirklich Text ist (Kann man ihn mit der Maus in Adobe Acrobat Reader markieren?) oder ob der Text als Bild in die PDFs eingebunden ist.

Falls es Bilder sind, dann probier einfach mal mit einem kleinen Beispiel tesseract-ocr (https://github.com/tesseract-ocr/tesseract) aus. Dann siehst du sehr schnell ob du irgendeine maschinell verarbeitbare Ausgabe erhältst.

BlackVip3r · 2. Januar 2019

Vielen Dank für eure Antworten.

uburoi schrieb:
Steht bei dem Programmprojekt das Quiz oder die Datengewinnung im Vordergrund?

Sowohl als auch. Ich möchte die App später im privaten Umfeld nutzen und da es sich dabei um knapp 1000 Fragen handelt, möchte ich die nicht manuell eintragen.

blablub1212 schrieb:
Interessant wäre auch ob der Text in den PDFs wirklich Text ist ...

Es sind echte Texte, die ich Notfalls auch händisch rauskopieren könnte.

uburoi · 2. Januar 2019

Eine Textdatei mit den Fragen beim Programmstart auszulesen und weiterzuverarbeiten, wäre nicht schwierig, aber eine OCR-Implementation übersteigt meine Amateurkenntnisse, da muss ich passen. Ich könnte mir aber vorstellen, dass das nicht trivial ist...

Gruß Jens

cumulonimbus8 · 2. Januar 2019

Tja… Vielleicht wäre da doch der Weg übers Internet mit z.B. SurveyMonkey die bessere Lösung. Solche Umfragesoftware erlaubt durchaus eigene Designs und liefert die entgegengenommenen Daten direkt handhabbar zurück.
Das Rad muss man also nicht neu erfinden, und ich weiß von innen her was es da so an Fallstricken gibt.

CN8

BlackVip3r · 2. Januar 2019

Natürlich muss das Rad nicht neu erfunden werden, aber um wieder in die Programmierung reinzukommen, war das ein schönes Projekt. Besonders schön wäre es natürlich gewesen, wenn ich es nun auch noch mit einer Importfunktion versehen könnte, um die App auch produktiv nutzen zu können.

Nur ist PDF für den Computer ein Horror in der Auswertung und es hätte ja sein können, das jemand ein Tool kennt, das hier gute Ergebnisse liefert. Die Ergebnisse, die mir automatisierte Tools, wie bspw. docparser oder tabular (ja der Anwendungsfall passt auch nicht zur Software) liefern, erleichtern leider den Aufwand zur Datenpflege auch nur minimal und der bliebe ja auch bei der Wahl von SruveyMonkey ;-)

Suche

Auswertung des Inhalts von Dokumenten

BlackVip3r

Cadet 3rd Year

uburoi

Lt. Commander

blablub1212

Rear Admiral

BlackVip3r

Cadet 3rd Year

uburoi

Lt. Commander

cumulonimbus8

Fleet Admiral

BlackVip3r

Cadet 3rd Year

Ähnliche Themen