Datenextraktion aus PDFs in Excel (OCR?)

P

pascal2605

Gast
Hallo zusammen,

Wir brauchen für unser Unternehmen eine Software, die Daten aus PDFs extrahieren kann und diese dann in ein Excel-Dokument einfügen soll.

Etwas genauer: Wir veranstalten Kurse und erhalten über unsere Website für jede Anmeldung ein PDF mit den persönlichen Angaben des Registrierten. Diese Angaben müssten wir dann in ein Excel-Dokument reinkriegen; nach der Struktur des Excel-Sheets sortiert (Name, Vorname, Adresse etc.).
Das muss automatisch und massenweise funktionieren, da jedes Semester ein paar hundert Anmeldungen eintreffen.

Nach etwas googlen bin ich auf "OCR" gestossen. Kann mir ein solches Programm die Angaben im PDF erkennen und sie im Excel am richtigen Ort einfügen? Oder was gäbe es sonst für Lösungen? (ein entsprechendes Plugin direkt in der Website ist nicht möglich!)


Sorry, bin leider alles andere als ein Profi auf dem Terrain..


Liebe Grüsse,
Pascal
 
cartridge_case schrieb:
Dort ansetzen und die Eingaben in eine Datenbank übernehmen.
Das haben wir versucht, aber bei Anpassungen an der Website crasht sie gleich.
Die Website wurde von unserer internationalen Muttergesellschaft aufgesetzt, deswegen haben wir auch keine genauen Einblicke, wo da das Problem sein könnte; Lösung müsste extern sein..
 
tesseract würde mir spontan einfallen.

Wobei generell die Frage ist, ob OCR sinnvoll ist. Es ist halt v.a. dann sinnvoll, wenn die Schrift im Dokument als Grafik vorliegt - was sie bei einem generierten PDF wohl selten tun wird.
 
Hmmmm, Die Website kann also Pdfs erdtellen aber keine csvs? Sehrrrrr interessant.
 
  • Gefällt mir
Reaktionen: savuti, Madman1209 und WhyNotZoidberg?
acrobat hilfe formular

btw. OCR verwendet man normalerweise um aus gescannten dokumenten (bild) den text zu extrahieren.

@cartridge_case und @shuikun haben auch im unternehmen teilweise echte "profis" in der firma, die eher laien-niveau haben und als azubis durchgehen würden.
 
Das mit Adobe (& ggf. tesseract) werd ich mir mal anschauen, danke vielmals :D


Und an all die "Kritiker" hier (nicht böse gemeint):
Die Basis für unsere Website kommt von der internationalen Muttergesellschaft.
Bei Änderungen an der Website crasht sie, also müssen wir das Problem direkt mit den PDFs lösen. Wir waren immer wieder in Kontakt mit der IT-Abteilung, es konnte uns aber niemand helfen. Ob das an Inkompetenz liegt oder an sprachlichen Problemen (Hauptsitz in Israel), kann ich nicht sagen, ändert aber auch nix.
Ich selber bin leider auch kein IT-Profi (deswegen frage ich ja in diesem Forum^^), Einblicke in den Code oder was auch immer werden mir also auch kaum etwas bringen.
 
Ich verstehe ehrlich gesagt schon gar nicht was das heißen soll:
"Bei Änderungen an der Webseite crasht sie".

Aber sei's drum.
 
  • Gefällt mir
Reaktionen: Madman1209 und cartridge_case
tollertyp schrieb:
Ich verstehe ehrlich gesagt schon gar nicht was das heißen soll:
"Bei Änderungen an der Webseite crasht sie".

Aber sei's drum.
Ich habe versucht, Plugins zu installieren und sonstige Einstellungen vorzunehmen. Dabei ist die Website abgestürzt und musste wieder neu aufgesetzt werden. Entschuldigt meine fehlende Fachterminologie..
 
cartridge_case schrieb:
Naja um ein Plugin zu installieren, hats bis jetzt gereicht (auf unserer alten Website). Deswegen bin ich ja noch kein IT-Experte. Oder was genau meinst du?
 
Dann füttere einfach mall Google mit PDF und OCR. Und schon gibts Ergebnisse. Da gibts allerlei kostenpflichtige Software, die das erledigt.
 
Kostenlos mit Excel geht mit Powerquery. Ob das für euch in Frage kommt musst du entscheiden
Hier ein Video
 
Meine Frage wäre: Wie kommen die Daten in was für eine Sorte PDF?
Ist das eine ausfüllbare PDF? Oder druckt man ein Word-Formular als PDF? Oder liefert ein CMS-oder-was-auch-immer in ein Webinterface eingegebene Daten als PDF aus?

Eine PDF mit einem Tool öffnen ist Eines, das als Massenabfertigung was Anderes.
Ich hatte meinen Spaß mit PDFs die ich vor die Tür bekam und mit denen sich ein AutoIt-Skript als Massenabfertigung quälen durfte.
Kann denn PowerQuery so was [vollautomatische Massenabfertigung] wenn da vor allem keien Tabellen einzulesen sind sondern ganz andere Strukturen? Und dann noch das ordentlich ablegen?

Ich finde, so einfach ist das nämlich nicht.

CN8
 
Zurück
Oben