PDF Dokument per Texterkennung?

theblade

Commodore Pro
Registriert
Jan. 2006
Beiträge
4.281
Mahlzeit zusammen :)

Ich habe bei mir in der Firma mehrere Angebote als PDF Datei bekommen.

Leider ist das pdf Dokument vom Anbieter nicht nur in textform, sondern es wurden die Positionen des Angebotes als Bild eingefügt. Also sprich ich kann es nicht einfach -wie text- markieren und kopieren so dass ich es in meinm Branchenprogramm einfügen kann!

Bekomm ich das trotzdem mit einem Programm irgendwie hin, dass das PDF Dokument als einer text erkannt wird? ich denke die Chancen stehen schlecht oder ? ....

Danke
 
Hi,

das Zauberwort heisst hier "OCR" - was ich aber wirklich nicht empfehlen würde. Kopiere dir raus was geht und schreib den Rest händisch dazu, dürfte schneller und sicherer funktionieren.

Was genau ist denn dein eigentliches Vorhaben? Ist in dem "Bild" noch Text, der auch mitkopiert werden soll oder wie? Den restlichen Text solltest du doch problemlos per Copy&Paste kopieren können.

VG,
Mad
 
Probiers mal mit Abby Finereader, weiß zwar nicht genau obs ne Funktion zum Bilder scannen gibt, aber probieren kannst du es.


greetz
masked__rider
 
tja müsste man wissen ob dort ein Scannerproggy oder ein Bildbearbeitungsprogramm drauf ist was aus Bildern Schriften erkennen kann . Dann könnte man einen Screenshot machen und es damit bearbeiten .
 
Bei Adobe kann man die OCR/Texterkennung dazubestellen bzw upgraden.

Die Funktioniert recht zuverlässig bei Bildern im Tiff oder Jpeg Format. Auch mit gemischten Dokumenten sollte es keine Probleme geben
 
Madman1209 schrieb:
Hi,

das Zauberwort heisst hier "OCR" - was ich aber wirklich nicht empfehlen würde. Kopiere dir raus was geht und schreib den Rest händisch dazu, dürfte schneller und sicherer funktionieren.

Was genau ist denn dein eigentliches Vorhaben? Ist in dem "Bild" noch Text, der auch mitkopiert werden soll oder wie? Den restlichen Text solltest du doch problemlos per Copy&Paste kopieren können.

VG,
Mad

Ja, der restliche Text geht ja per copy&paste. Allerdings sind ausgerechnet - bzw eher absicht?- die Angebots-Positionen als Bildtext eingebettet (also sprich kein reiner Text).

Bei 1-2 Positionen mag das von Hand abschreiben noch gehen aber bei mehrere Seiten ist das echt nicht prickelnd ;)

Ich glaube das ist so technisch kaum Möglich da ein OCR Programm aus einem Bild ja keine Textinfos auslesen / erkennen kann.

adobe lässt sich so ein upgrade sofern es sowas echt gibt, sicherlich gut bezahlen. nach Möglichkeit sollte es schon freeware bzw shareware sein.
Es hätte ja sein können das jemand hier bei cb ne zündene Idee hat.
 
Hi,

ganz anders angefangen: Beim Ersteller nachfragen, ob er das Ganze nochmal "vernünftig" schicken kann? Ich denke, wir sind hier schon eine Station zu weit und du versuchst Fehler auszubügeln, die dein Zulieferer macht. Das kann klappen, wird aber evtl aufwändig, teuer und ungenau.

Die Dateien nochmals zusenden mit der Bitte, diesmal ein anderes Format zu nutzen, da eure Software die Daten so nicht einlesen kann? Mehr als "Nein" sagen können sie nicht :)

VG,
Mad
 
hehe ja die Idee kam mir ebenfalls schon ;)

So wie es aber aussieht kopiert er wahrscheinlich aus einem vorhanden Angebotskatalog aus seiner Software und fügt diese Datei (bildtext) einfach als Position ein.
 
Naja bei einer OCR geht es ja direkt darum aus einer Bilddatei den Text zu erkennen. Allerdings sind nunmal die kostenlosen einfach Müll und für deinen Zweck einfach nicht gut genug.

Die Fehlerrate bei denen ist schon immens.

Ansonsten bleibt dir fast nur noch die lösung von Madman :D
 
Hi,

So wie es aber aussieht kopiert er wahrscheinlich aus einem vorhanden Angebotskatalog aus seiner Software und fügt diese Datei (bildtext) einfach als Position ein.

uff...ist das so üblich? Ich finde, da sollten die flexibler sein. Kann ja nicht angehen dass die nur zu faul sind und du die Arbeit verzehnfacht kriegst...

Würde da nachfragen. Ganz ehrlich.

VG,
Mad
 
werde mal nen dreizeiler fertig machen.
mal sehen was dabei raus kommt.

Trotzdem vielen Dank für eure Mühe und Antworten ! :)
 
Zurück
Oben