convert PDF to JSON oder XML

Flure

Cadet 3rd Year
Registriert
Apr. 2016
Beiträge
61
Hallo Leute :)

Ausgangslage:
Ich bekomme per Mail meine Daten in PDF form. Jetzt würde ich gerne diese Daten verarbeiten und am besten in einer Web application anzeigen. Meine Frage wäre ist es überhaupt möglich die Daten zu formatieren, damit ich damit arbeiten kann?

Würde mich über eure Erfahrungen freun :)

Flo
 
Also im PDF ist Text den Du extrahieren möchtest oder wie ist das gemeint?
 
Kommt extrem aufs Format der PDF dateien an.
Wenn zb das Original der PDFs eine Excel Tabelle ist, lässt sich das praktikabel zurück verwandeln.

Wenn es aber nicht strukturiert ist, dann wirds interessant und dann kommen die magischen Worte A.I und so ins Spiel ;)
 
  • Gefällt mir
Reaktionen: pcBauer
Lawnmower schrieb:
Also im PDF ist Text den Du extrahieren möchtest oder wie ist das gemeint?
Genau, wobei ich nicht alles Text ist. Ein paar Seiten sind in Tabellenform dargestellt. Wiederum andere sind fließ Text.....
Ich möchte noch ergänzen, dass ich mich im wesentlichen für die Werte in der Tabelle intressieren.
 
Kann die Quelle die Daten nicht in geeigneter Form bereitstellen? Das wäre die einfachste Variante. Beispielsweise als CSV-Tabelle mit den Werten.
 
  • Gefällt mir
Reaktionen: Hayda Ministral, DeusoftheWired und madmax2010
Du kannst mal mit https://docparser.com/ rumspielen und gründsätzlich schauen, ob du damit in der Lage bist an die Daten zu kommen. Im Allgemeinen gibt es eine Handvoll kommerzieller Lösungen die dafür gedacht sind. Für reine Tabellen kannst du mal mit https://github.com/tabulapdf/tabula rumspielen, damit hatte ich vor ein paar Jahren ein paar erfolgreiche Versuche.
 
Raijin schrieb:
Kann die Quelle die Daten nicht in geeigneter Form bereitstellen? Das wäre die einfachste Variante. Beispielsweise als CSV-Tabelle mit den Werten.
War mein erster Lösungsansatz. Das ist leider nicht möglich. Würde alle probleme lösen
 
Vielleicht eine KI trainieren, die deine PDFs in passende Text-Form bringt?

Also bei den Informationen, die du lieferst, fällt es nicht leicht konstruktiv zu helfen.

Wie gut ist das PDF bzw. die Tabellen denn "strukturiert"? Ist es immer die exakt selbe Struktur, sind es mal mehr Zeilen und Spalten, sind die Kriterien, anhand derer du die relevanten Werte findest, immer gleich (Z.B. Spaltennummer und erster Wert der Zeile usw)
 
Evtl. gibt es einen PDF-Parser für deine Web-App. Mit welcher Sprache arbeitest du?
Z. B. für Java --> Baeldung - PDF Conversion

Edit:
Hab mal deine Historie angeschaut. Du hast dich mit irgendwelchen Frontend-Frameworks beschäftigt. Hast du überhaupt eine Ahnung von Backend-Programmierung?
 
Zuletzt bearbeitet:
Fuer die Tabellen kann man auch Table OCR nutzen, das funktioniert in der Regel ziemlich gut. Die meisten Tools/APIs nehmen ein Image entgegen und geben dir die Tabelle in einem nicht-proprietaeren Format wie CSV oder so zurueck. Analog zu "normalen" OCR heutzutage wird dafuer wie wohl immer in Bildverarbeitung (G)(C)NN trainiert, wer mal was darueber lesen will kann sich ja mal Paper dazu ansehen, wie z.B.
TableNet: Deep Learning model for end-to-end Table detection and Tabular data extraction from Scanned Document Images
oder
Rethinking Table Recognition usingGraph Neural Networks
oder ...

Aber wie schon erwaehnt, den Ersteller der Quelle um CSV oder so bitten und man haette 100% Datenqualitaet. Da aber nicht moeglich, bleibt dann nur hoffen dass es einfache Tabelle sind, die kann quasi jedes der neueren OCR Tools
 
Flure schrieb:
War mein erster Lösungsansatz. Das ist leider nicht möglich.
Hier unbedingt nachhaken. “Die” wollen was. Mit dem vorliegenden Input ist kein verläßliches Arbeiten möglich und Punkt, dh alles was danach kommt riskiert Folgefehler und DAS ist an der Stelle ein Nogo.

Mach dem Provider der Daten klar, daß es so nicht geht. Sonst gewöhnt der sich noch dran, daß Abnehmer sich sowas gefallen lassen. Ich schick doch auch kein Foto vom SQL Developer rum und sage, macht mal.
 
  • Gefällt mir
Reaktionen: PHuV und Raijin
Wenn es wichtige Firmendaten wären, dann käme bestimmt kein PDF per Email. Von daher tippe ich mal, dass der TE nur irgendwelche privaten Auswertungen bekommt und diese in seiner Web-App integrieren möchte.

In meiner Firma gibt es ein KI-Projekt, welche Rechnungen in diversen Formaten scannt und eine elektronische Rechnung daraus generiert. Das hat aber einiges gekostet...
 
Adobe Acrobat kann aus PDFs recht passable html Dateien generieren. Der Nachteil ist nur, dass Text der normalerweise zusammenhängend wäre, die Zeilentrennung des Originals (als aus dem PDF) beibehält. Um das zu korrigieren muss man den Text mit verschiedenen Regex Befehlen formatieren.

Habe das so immer wieder mal gemacht um PDFs in EBooks zu konvertieren. Das Ergebnis war gut aber nicht 100% perfekt.
 
Eine pdf ist immer(!) aufbereitetes Datum. Warum sollte man extra nachverpackte Datensätze akzeptieren, wenn diese bei der Weiterverarbeitung nur stören? Das ist, als würde man ne CSV Datei in ein Installshield Setup verpacken und dann sagen, tja tut mir echt leid, gibts nur für Windows.
 
Zurück
Oben