in 2 PDF files kann ich nicht (richtig) markieren

tobi92-tobias

Ensign
Registriert
Okt. 2010
Beiträge
247
Ich habe Probleme damit, in 2 PDF Dateien in Adobe Textabschnitte. Beide Probleme sind anders, passwortgeschützt sind die Files nicht

Wenn ich beim ersten PDF mit meinem Stift einen Zeilenabschnitt markiere, verläuft die Markierung frei nach meinem Stift und folgt nicht wie sonst üblich der Zeile. Es scheint so, als hätte ich einen Scan/Bild noch nicht in Text konvertiert, es ist aber klar ein ebook/Text.
Das zweite PDF ist original von einer Website eines deutschen Dienstleisters. Hier kann ich ca. jede zweite Seite korrekt markieren, bei den anderen wird aber nicht die Zeile horizontal markiert, sondern fälschlicherweise die Seiten vertikal, also die untereinander stehenden Wörter. Dies passiert sobal ich mehr als 3-4 Buchstaben eines Wortes markiere.
Ich brauche die beiden PDFs dringend für meine Arbeit. Kann mir bitte jemand helfen, das Problem zu lösen? Natürlich kann ich die beiden PDFs auch in einer privaten Nachricht versenden.
 
Nun ja, dann schicke die Dateien doch mal her.
 
Zum einen wäre erst einmal interessant mit welchem PDF-Programm du arbeitest. Vielleicht liegt da ja der Hase im Pfeffer ;) Nitro oder Adobe Acrobat bspw. sind gute PDF-Editoren. Zum anderen kann es auch einfach sein, dass bei der Erzeugung der PDFs aus dem Ursprungsmaterial "geschlampt" wurde, sprich das PDF nicht ok ist. PDF-Druckertreiber bspw. arbeiten da nicht immer sauber. Vielleicht solltest Du versuchen, das PDF in Text zu wandeln und damit zu arbeiten. Du kannst ja danach daraus wieder ein PDF machen. Das geht aber nur bei relativ unkomplizierten PDFs wirklich gut.

Edit: Ich gehe davon aus, dass Du schon probiert hast, das PDF "lesbar/durchsuchbar" zu machen. Wenn nicht, probiere das erst einmal.
 
Ich nutze Adobe Acrobat Pro DC.
Habe xchange-viewer probiert: Beim ersten PDF, wo gar kein Text markiert werden konnte, habe ich die Texterkennung durchgeführt. Hat etwas gedauert, aber nun lässt sich der Text auch als Text markieren. Komischerweise verschwindet der Text für ca. 1 Sekunde von der Seite sobald ich etwas markiere. Aber dann erscheint der Text wieder und die Markierung ist korrekt. Das ist so hinnehmbar.

Beim zweiten PDF hilft die Methode leider nicht. Es wird weiterhin der Text untereinander/spaltenweise markiert und nicht wie gewollt zeilenweise.
Ich schicke mal den Link zu dieser PDF per PN. Wie gesagt, das Problem tritt bei ca. jeder 2. Seite auf.
 
Ich denke, der Acrobat Reader verhält sich hier absolut erwartungsgemäß:
Im ersten Fall gab es vorher keinen Text sondern nur eine Grafik (warum sollte man in einer Grafik ohne OCR Text markieren können?) . Im zweiten Fall ist die Quelle eine HTML-Seite, in der der Text tabellarisch aufgebaut ist. Die Markierung folgt dabei dem Aufbau und der Reihenfolge der Texte in der Originalseite. Dabei ist zu beachten, dass auch Text, der nebeneinander zu stehen scheint, manchmal eben intern ganz anders strukturiert ist.

Dem zweiten könnte man, etwas umständlich, abhelfen, indem man die pdf als Grafik ausgibt und dann selbst noch mal OCR drüber laufen lässt.
 
Im ersten Fall hatte ich schon OCR von Acrobat drüberlaufen lassen. Nur mit xchange war das Problem zu lösen.

Danke an xmarsx für die ausführliche Anleitung für das zweite PDF. Hier hatte ich selbst nicht "als Bild konvertiert" und dann in einer extra Datei gespeichert. So klappt es aber und es kann nur mit Acrobat jede Seite markiert werden.
Danke!
 
Zurück
Oben