PDF copy and paste Sperre aufheben?

h00bi

Fleet Admiral
Registriert
Aug. 2006
Beiträge
23.841
Hallo zusammen,

ich habe mehrere PDF Datenblätter, aus denen ich Infos wie (laaaaaange) Artikelnummern ziehen muss.
Copy and paste wurde beim erstellen PDF jedoch gesperrt.

Gerade kryptische Artikelnummern haben ein hohes Fehlerpotential für Vertipper und eine akribische Kontrolle ist ein echter Zeitfresser.

Aktuell "drucke" ich das PDF in eine neue PDF Datei und lasse es dann mit NAPS2 durch die OCR laufen. Zumal ja OCR auch nicht immer 100% genau ist.
Gibts da einen schnelleren Weg?
 
Mit den passenden Programmen kann man diese Sperren wieder aufheben. Ist der Schutz den passwortgeschützt? Wenn ja, dann geht es nur über deinen "Druck-Workaround" und selbst da werden bei "guten" PDF Druckern die Sperren mitgenommen, wenn man PDF->PDF druckt.
 
Zuletzt bearbeitet:
Oder je nach Passwortschutz (sofern vorhanden) vielleicht direkt in eine Word-/Textdatei umwandeln?
 
Die Dateien haben keinen Passwortschutz. Es sind öffentlich einsehbare Datenblätter, gerade das nervt mich so daran... die Sperre ist komplett sinnfrei.

cvzone schrieb:
nd selbst da werden bei "guten" PDF Druckern die Sperren mitgenommen
ich nehm den Microsoft Print to PDF. Der ist schlecht genug.
Ideal wäre vermutlich ein Tool, mit dem man das per Batch machen kann und das die Dateinamen (ggf. + Suffix) beibehält.

Problem ist auch, dass sich der Vorgang je nach Datenquelle ändert.
In diesem Fall war es jetzt so, dass ich die Originaldateien gar nicht direkt mit NAPS öffnen konnte, deswegen vorher der Druck. Bei anderen geht das manchmal.

Prinzipiell kommt es zu selten vor um da einen Masterplan auszuarbeiten, aber wenn es vorkommt dann nervt es und es kommt natürlich auch genau zu einem unpassenden Zeitpunkt.
 
Alternativen, mal probieren:

a) PDF ist im Reader geöffnet, dann gibt's evtl. die Option "in Text konvertieren".
In meinem Free-Reader kann ich so auch geschützte PDF's in plain Text wandeln u. dort Passagen rauskopieren.

b) oder PDF mal in Firefox öffnen -> dort copy&paste probieren (könnte auch gehen)
 
Was passiert, wenn du die PDF mit Microsoft Word öffnest? Normalerweise versucht Word zu konvertieren, eventuell entfernt das ja den Schutz. Alternativ könnte man auch einen anderen PDF Drucker wie PDF24 o.Ä. testen. Oder sogar den Adobe Acrobat als Demo Version (z.B. in einer VM :D ).
 
Wenn die PDF öffentlich ist, kannst Du sie mal hier hochladen.
Dann können wir [die Community] ja mal mit unseren Programmen testen.
 
h00bi schrieb:
ich habe mehrere PDF Datenblätter, aus denen ich Infos wie (laaaaaange) Artikelnummern ziehen muss.
Copy and paste wurde beim erstellen PDF jedoch gesperrt.
Sieh da, ein Leidensgenosse ... 😁

Wurde Copy&Paste wirklich gesperrt, oder wurden die Buchstaben beim "Exportieren als PDF" in Vektorgrafiken umgewandelt (=> sieht aus wie ein Buchstabe, ist aber ein Bild - erkennbar beim zoomen auf Buchstaben; 500% Vergrößerung sollten schon reichen. =) )?

Bei letzterem bleibt wirklich nur der Umweg über OCR, bei ersterem schreib mir bitte mal 'ne PM. 🙃
 
  • Gefällt mir
Reaktionen: Fusionator
Ich mache das mit den Power Toys von Windows und dem Textextraktor, das funktioniert sehr einfach.
 
  • Gefällt mir
Reaktionen: G.O.Tuhls
Wenn das einmalig ist - 👍
Passiert es öfter taugt dieses Hand-Werk aber nicht recht.
Der Weg des TE könnte dann eher was bringen; über die Macken von OCR reden wir mal lieber nicht - auch die PowerToys kochen nur mit Wasser (praktisch ist die Funktion aber allemal 🙂)

CN8
 
7200rpm schrieb:
Wurde Copy&Paste wirklich gesperrt, oder wurden die Buchstaben beim "Exportieren als PDF" in Vektorgrafiken umgewandelt
Weiß ich nicht sicher.
Ich kann Text markieren, aber beim kopieren (egal wie) landet nichts neues in der Zwischenablage.

Goldsmith schrieb:
Ich mache das mit den Power Toys von Windows und dem Textextraktor
Klingt interessant, noch nie gehört. Kannst du das kurz erklären? Ist das ne Standardfunktion in Power Toys für w10?
 
h00bi schrieb:
Klingt interessant, noch nie gehört. Kannst du das kurz erklären? Ist das ne Standardfunktion in Power Toys für w10?
Das geht relativ einfach, mit der Tastenkombination Windows, Shift und T startest du den Textextraktor, dann kopierst du den Text in die Zwischenablage und kannst ihn in einem Programm hinzufügen.
 

Anhänge

  • 2022-12-31 07 33 21.jpg
    2022-12-31 07 33 21.jpg
    381,6 KB · Aufrufe: 165
h00bi schrieb:
Weiß ich nicht sicher.
Ich kann Text markieren, aber beim kopieren (egal wie) landet nichts neues in der Zwischenablage.
Das klingt nach Text und eingeschränkten Berechtigungen - Vektorgrafiken bekommt man mit dem Textauswahlwerkzeug nicht markiert.
 
@h00bi,

konntest du dein Problem jetzt lösen?
 
naja, bedingt.
Der Text Extraktor funktioniert unzuverlässig. Auffällig ist, dass er Probleme mit der Ziffer 1 hat.
Entweder macht er daraus 1[SPACE] oder I
Code:
Farbe (CQPOO1-1)
wird zu
Code:
Farbe (CQPOOI-I)
"Haltbarkeit (CQP016-1)" in der gleichen Schriftart kapiert der Text Extraktor aber.
Wenn ich jeden String kontrollieren muss, könnte ich ihn auch abtippen. Es bleibt eine Fehlerquelle.

Der Portable PDF Unlocker hilft auch nicht. Wenn ich das PDF in das Fensterchen ziehe passiert quasi nichts, das Dokument erlaubt weiterhin kein copy.

Ich kann die Originaldokumente aber auch nicht in NAPS importieren. Nur die "Ausdrucke" davon.

Ich hatte die Datenblätter direkt vom Hersteller zur Verfügung gestellt bekommen.
Ziehe ich die inhaltlich identlischen Datenblätter direkt von der öffentlichen Herstellerwebsite, dann ist da kein Schutz drauf und ich kann föhlich copy&paste-n

Lösung ist für mich also zukünftig:
1) Alternatives Dokument suchen
2) falls 1 nicht möglich Drucken und OCR
 
"I" und "O" sind meist die Knackpunkte bei OCR.
Ich musste mal eine Menge alter Dokumente digitalisieren. Die besten OCR-Ergebnisse hatte ich mit Googles Tesseract. Natürlich ist die Qualität des Quelldokuments ebenfalls entscheidend, aber ich war verblüfft, wie gut die Software funktioniert.
Meines Wissens nach gibt es inzwischen tools die auf tesseract zurückgreifen, ich hatte damals alles via batch und Kommandozeile realisiert.
 
h00bi schrieb:
naja, bedingt.
Der Text Extraktor funktioniert unzuverlässig. Auffällig ist, dass er Probleme mit der Ziffer 1 hat.
Das macht er bei mir auch, wenn die PDF die Standardauflösung hat, wenn ich sie dann auf 200% stelle, funktioniert er problemlos.
 
Zurück
Oben