convert PDF to JSON oder XML

Flure · 8. Juni 2021

Hallo Leute

Ausgangslage:
Ich bekomme per Mail meine Daten in PDF form. Jetzt würde ich gerne diese Daten verarbeiten und am besten in einer Web application anzeigen. Meine Frage wäre ist es überhaupt möglich die Daten zu formatieren, damit ich damit arbeiten kann?

Würde mich über eure Erfahrungen freun

Flo

Lawnmower · 8. Juni 2021

Also im PDF ist Text den Du extrahieren möchtest oder wie ist das gemeint?

Tornhoof · 8. Juni 2021

Kommt extrem aufs Format der PDF dateien an.
Wenn zb das Original der PDFs eine Excel Tabelle ist, lässt sich das praktikabel zurück verwandeln.

Wenn es aber nicht strukturiert ist, dann wirds interessant und dann kommen die magischen Worte A.I und so ins Spiel

Flure · 8. Juni 2021

Lawnmower schrieb:
Also im PDF ist Text den Du extrahieren möchtest oder wie ist das gemeint?

Genau, wobei ich nicht alles Text ist. Ein paar Seiten sind in Tabellenform dargestellt. Wiederum andere sind fließ Text.....
Ich möchte noch ergänzen, dass ich mich im wesentlichen für die Werte in der Tabelle intressieren.

Raijin · 8. Juni 2021

Kann die Quelle die Daten nicht in geeigneter Form bereitstellen? Das wäre die einfachste Variante. Beispielsweise als CSV-Tabelle mit den Werten.

Tornhoof · 8. Juni 2021

Du kannst mal mit https://docparser.com/ rumspielen und gründsätzlich schauen, ob du damit in der Lage bist an die Daten zu kommen. Im Allgemeinen gibt es eine Handvoll kommerzieller Lösungen die dafür gedacht sind. Für reine Tabellen kannst du mal mit https://github.com/tabulapdf/tabula rumspielen, damit hatte ich vor ein paar Jahren ein paar erfolgreiche Versuche.

Flure · 8. Juni 2021

Raijin schrieb:
Kann die Quelle die Daten nicht in geeigneter Form bereitstellen? Das wäre die einfachste Variante. Beispielsweise als CSV-Tabelle mit den Werten.

War mein erster Lösungsansatz. Das ist leider nicht möglich. Würde alle probleme lösen

Ponderosa · 8. Juni 2021

Flure schrieb:
Web application anzeigen

Darf man fragen ob das eine fertige Webapp ist, oder ob du die selber erstellt hast?
Danke

tollertyp · 8. Juni 2021

Vielleicht eine KI trainieren, die deine PDFs in passende Text-Form bringt?

Also bei den Informationen, die du lieferst, fällt es nicht leicht konstruktiv zu helfen.

Wie gut ist das PDF bzw. die Tabellen denn "strukturiert"? Ist es immer die exakt selbe Struktur, sind es mal mehr Zeilen und Spalten, sind die Kriterien, anhand derer du die relevanten Werte findest, immer gleich (Z.B. Spaltennummer und erster Wert der Zeile usw)

wahli · 8. Juni 2021

Evtl. gibt es einen PDF-Parser für deine Web-App. Mit welcher Sprache arbeitest du?
Z. B. für Java --> Baeldung - PDF Conversion

Edit:
Hab mal deine Historie angeschaut. Du hast dich mit irgendwelchen Frontend-Frameworks beschäftigt. Hast du überhaupt eine Ahnung von Backend-Programmierung?

abcddcba · 8. Juni 2021

Fuer die Tabellen kann man auch Table OCR nutzen, das funktioniert in der Regel ziemlich gut. Die meisten Tools/APIs nehmen ein Image entgegen und geben dir die Tabelle in einem nicht-proprietaeren Format wie CSV oder so zurueck. Analog zu "normalen" OCR heutzutage wird dafuer wie wohl immer in Bildverarbeitung (G)(C)NN trainiert, wer mal was darueber lesen will kann sich ja mal Paper dazu ansehen, wie z.B.
TableNet: Deep Learning model for end-to-end Table detection and Tabular data extraction from Scanned Document Images
oder
Rethinking Table Recognition usingGraph Neural Networks
oder ...

Aber wie schon erwaehnt, den Ersteller der Quelle um CSV oder so bitten und man haette 100% Datenqualitaet. Da aber nicht moeglich, bleibt dann nur hoffen dass es einfache Tabelle sind, die kann quasi jedes der neueren OCR Tools

RalphS · 8. Juni 2021

Flure schrieb:
War mein erster Lösungsansatz. Das ist leider nicht möglich.

Hier unbedingt nachhaken. “Die” wollen was. Mit dem vorliegenden Input ist kein verläßliches Arbeiten möglich und Punkt, dh alles was danach kommt riskiert Folgefehler und DAS ist an der Stelle ein Nogo.

Mach dem Provider der Daten klar, daß es so nicht geht. Sonst gewöhnt der sich noch dran, daß Abnehmer sich sowas gefallen lassen. Ich schick doch auch kein Foto vom SQL Developer rum und sage, macht mal.

wahli · 9. Juni 2021

Wenn es wichtige Firmendaten wären, dann käme bestimmt kein PDF per Email. Von daher tippe ich mal, dass der TE nur irgendwelche privaten Auswertungen bekommt und diese in seiner Web-App integrieren möchte.

In meiner Firma gibt es ein KI-Projekt, welche Rechnungen in diversen Formaten scannt und eine elektronische Rechnung daraus generiert. Das hat aber einiges gekostet...

jb_alvarado · 10. Juni 2021

Adobe Acrobat kann aus PDFs recht passable html Dateien generieren. Der Nachteil ist nur, dass Text der normalerweise zusammenhängend wäre, die Zeilentrennung des Originals (als aus dem PDF) beibehält. Um das zu korrigieren muss man den Text mit verschiedenen Regex Befehlen formatieren.

Habe das so immer wieder mal gemacht um PDFs in EBooks zu konvertieren. Das Ergebnis war gut aber nicht 100% perfekt.

RalphS · 11. Juni 2021

Eine pdf ist immer(!) aufbereitetes Datum. Warum sollte man extra nachverpackte Datensätze akzeptieren, wenn diese bei der Weiterverarbeitung nur stören? Das ist, als würde man ne CSV Datei in ein Installshield Setup verpacken und dann sagen, tja tut mir echt leid, gibts nur für Windows.

Suche

convert PDF to JSON oder XML

Flure

Cadet 4th Year

Lawnmower

Maître de cuisine Pro

Tornhoof

Commander

Flure

Cadet 4th Year

Raijin

Fleet Admiral

Tornhoof

Commander

Flure

Cadet 4th Year

Ponderosa

Gast

tollertyp

Fleet Admiral

wahli

Fleet Admiral

abcddcba

Rear Admiral

RalphS

Gast

wahli

Fleet Admiral

jb_alvarado

Lieutenant

RalphS

Gast

Ähnliche Themen