Womit wurde dieses PDF verändert?

Frieder01

Cadet 3rd Year
Registriert
Okt. 2023
Beiträge
60
Hallo,
ich habe nachstehendes PDF-Dokument erhalten. Beim Anbieter, von dem ich es erhalten habe, kann der Text ganz hormal kopiert bzw. durchsucht werden. Ich habe aber eine Ausfertigung vorliegen, bei der der Text zwar markiert und kopiert werden kann. Beim Einfügen sind aber nur "Sonderzeichen" zu sehen. Der Text im PDF kann auch nicht durchsucht werden.

Meine Frage: Gibt es ein Programm, mit dem dieses letztendlich nicht kopierbare Dokument erzeugt wurde?
Danke.
 

Anhänge

  • PDF.pdf
    PDF.pdf
    57,7 KB · Aufrufe: 117
  • Text-wird-markiert-und-kopiert.png
    Text-wird-markiert-und-kopiert.png
    103,3 KB · Aufrufe: 344
  • das-sind-die-kopierten-Zeichen.png
    das-sind-die-kopierten-Zeichen.png
    74,5 KB · Aufrufe: 344
  • Gefällt mir
Reaktionen: madmax2010, Frieder01, Aduasen und eine weitere Person
Mit welchen PDF-Creator es erstellt wurde, ist nicht im Dokument hinterlegt:
1750075379890.png


Daher hilft nur, den Ersteller zu fragen.
 
  • Gefällt mir
Reaktionen: Frieder01
Das Dokument sieht so aus, als sei es durch eine OCR-Software erstellt worden. Man sieht im Dokument auch schon mehrere Erkennungsfehler.

Wenn man nun die vermutlichen Unicode-Zeichen kopiert und in ein ASCII Dokument einfügt, dann können sie teilweise nicht dargestellt werden.

Das wäre jedenfalls meine Vermutung.
 
  • Gefällt mir
Reaktionen: Frieder01 und honky-tonk
Tschuldigung. Ich dachte, es gibt (ein) spez. Programm, mit dem man das Dokument "nicht kopierbar" machen kann.
Das Original ist auf jeden Fall ganz normal kopierbar (mit dem richtigen Text) und auch durchsuchbar. Fragen brauche ich nicht, denn das von mir vorgestellte Ergebnis wurde bewusst gemacht. Ich kann, wenn ich wieder ein PDF-Dokument beantrage, dann einfach mal "durchsuchbares und kopierbares PDF" dazuschreiben. In der Hoffnung, dass ich nach Abs. 2 ein richtiges Dokument erhalte.
 
+1 für unicode und ascii

speicher das txt dokument mal als utf8 oder utf16 und kopiere dann den text rein.
 
  • Gefällt mir
Reaktionen: Frieder01
Sowas kannst Du auch mit Office 365 machen, wenn Du beim sichern angibst, dass das Dokument nicht änderbar sein soll.
 
  • Gefällt mir
Reaktionen: madmax2010 und Frieder01
honky-tonk schrieb:
speicher das txt dokument mal als utf8 oder utf16 und kopiere dann den text rein.
Wenn ich ein leeres Text-Doku unter utf 8 oder 16 leer speichere. Danach aufrufe und den kopierten Text aus dem veröffentlichten PDF einfüge, erhalte ich auch wieder unleserliche Zeichen. Nur dass es andere sind.
 
Aduasen schrieb:
dass das Dokument nicht änderbar sein soll.
Das ist aber sicherlich ähnlich wie beim geschützten PDF-A

Einfach speichern unter auswählen, geschützte Funktion entfernen und der Schutz ist weg.
 
  • Gefällt mir
Reaktionen: Frieder01
Aduasen schrieb:
Sowas kannst Du auch mit Office 365 machen
Muss leider passen. Habe nur LibreOffice. Und bei PDF24 gibt es keine Möglichkeit für nicht kopierbar. Aber ich habs kappiert. PDF wurde einfach entsprechend gespeichert, dass es nicht kopierbar ist.
Ergänzung ()

SpamBot schrieb:
Das ist aber sicherlich ähnlich wie beim geschützten PDF-A
Bei einem "ähnlichen" PDF, das auch nicht kopiert werden kann, habe ich nachsstehende Eigenschaften gefunden. Bedeutet PDF/A "geschütztes Dokument?
Ergänzung ()

SpamBot schrieb:
Einfach speichern unter auswählen, geschützte Funktion entfernen und der Schutz ist weg.
Bin leider in Linux mit einem PDF-Betrachter unterwegs. "Speichern als" bringt nicht die gewünschte Auswahlmöglichkeit
 

Anhänge

  • PDF-Eigenschaften.png
    PDF-Eigenschaften.png
    45,3 KB · Aufrufe: 129
Zuletzt bearbeitet:
in linux gibt's pdftotext damit kann man es mal probieren
 
  • Gefällt mir
Reaktionen: Frieder01
Ich wünsche euch viel Erfolg bei der Lösungsfindung.
Ich bin allerdings etwas beunruhigt wie viele sich tatsächlich ohne zu hinterfragen eine " komisch bearbeitete " pdf aus einem forum ziehen.... egal wie seriös der threadersteller ist.
 
  • Gefällt mir
Reaktionen: Frieder01, Aduasen und Sgt.Seg
da werden schriften eingebettet und die buchstaben einfach wild zufälligen zeichen zu geordnet

sieht dann optisch richtig aus aber für den computer beim kopieren kauderwelsch

musst du raus finden welches zeichen für was steht oder gleich wie ein bild behandeln und per OCR weiter machen
Ergänzung ()

PDF ist eben das Bild Format unter den Dokumenten

PDF weiss auch nicht mehr, was eine Überschrift ist und was ein Absatz. Da wird einfach Text an x,y Koordinaten positioniert, damit es für den Mensch so aussieht. Und wenns eine Tabelle sein soll zeichnet man Linien halt auch noch zwischen rein

Auch bei normalen PDF Dokumenten, kommt da nicht immer sinnvolles bei raus wenn mans kopiert - die Formatierung fehlt in der Kopie, manchmal auch Wörter falsch angeordnet etc.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Frieder01 und rollmoped
Hi
Wenn man sich das Dokument im PDF-XChangeEditor anschaut dann sieht man dass der Text mit eingebettetem Font der eine eigene Codierung verwenden angelegt ist. Und wenn man den enstprechenden Font nicht hat, sieht man halt nur Salat...

Coole Idee mit wenig Aufwand sein Dokument zu schützen. :cool_alt:
1750088149041.png
1750088090471.png
 
  • Gefällt mir
Reaktionen: Frieder01
Ich gebe zu, ich versteh es nicht. Oder kann es sein, dass die verwendeten Schriften in Linux nicht vorhanden sind? Werde es morgen auf einem Windows-Rechner testen.
Aber wie gesagt, ich verstehs (noch) nicht.
Danke für alle Beiträge.
 
Vorweg, ich habe mir das angehaengte Dokument nicht angeschaut.

Was @Merlin352 meint, versuche ich mal folgenderweise zu beschreiben:

In einem Dokument hat jeder Buchstabe einen "digitalen Code". Das ist normalerweise standardisiert. Beispiele fuer diese Standards sind UTF8 oder UTF16, Namen die her ja schon gefallen sind. Ein grosses "A" hat beispielsweise den Code 0041.

Jetzt wurde anscheinend in diesem Dokument kein Standardcode verwendet, sonder irgendetwas anderes. Die Buchstaben haben einen digitalen Code, der in anderen Dokumenten nicht verstanden wird. Ausgedacht, vielleicht hat das grosse "A" im PDF den Code "0815"
Wenn man Text irgendwo kopiert, kopiert man nicht die Buchstaben, man kopiert den digitalen Code der zu den Buchstaben gehoert.
Wenn du also den Text in ein Dokument kopierst, das den Code der im PDF verwendent nicht versteht, kommt nur "Muell" raus, denn zum Code "0815" gibt es keinen Buchstaben.
 
  • Gefällt mir
Reaktionen: rollmoped
@Frieder01 : Die Schriften die ein PDF-Dokument verwendet können auch in der Datei eingebettet werden, so dass sie beim Empfänger nicht vorhanden sein müssen. Anders würde "Portable Document Format" auch keinen Sinn machen, denn wenn der Empänger die Schrift nicht hat, kann es das Dokument nicht mehr so darstellen wie es gewünscht ist.

Und so eine Schrift bedient eigentlich sogar 2 Dinge.. Die Kodierung der einzelnen Schriftzeichen wie @Ranayna das beschrieben hat, das ist die informelle Seite wenn man so will, eben der Text den man kopieren kann.

Das andere ist dann das Aussehen der Schrift aud dem Papier oder auf dem Bildschirm, dazu gibt es dann die verschiedenen Fonts wie bzw "Arial", "Times Roman" usw usw..

Um also den Text als auch das Aussehen korrekt darzustellen muss man beides wissen, die Kodierung und den entsprechenden Font.
 
Wir schweifen jetzt ziemlich ab, weg vom Problem des TE ;)
Aber Schriftarten muessen mitnichten zwingend eingebettet sein. Das ist eine Anforderung von PDF/A, aber nicht bei normalen PDFs. Die koennen auch Schriften nachladen oder auf Systemschriften zurueckgreifen die nicht eingebettet sind. Klappt das nicht, wird dann eine Standardschriftart genommen, die das Dokument dann natuerlich anders aussehen laesst.
Heutzutage ist das unueblich geworden, aber ich hatte in der Vergangenheit auch mal damit zu kaempfen. Insbesondere unser Marketing wollte oft gerne Schriften verwenden die man nicht einbetten durfte, weil die Lizenz das nicht erlaubte. War schwer denen das zu erklaeren, und als die Rechnung die der Anbieter der Schriftart haette aufstellen koennen wurden die Augen gross :P Ja, es gab mal Zeiten wo Schriftarten die heute ueblich sind ziemlich teuer waren.

Die Schriftart ist an sich auch unabhaengig vom Encoding. Die gehoert prinzipiell in den Bereich Formatierung. Es sei denn natuerlich der Ersteller hat rumgetrickst, wie offensichtlich in diesem Fall.
 
Danke @Ranayna und @Merlin352 für die Erklärungen.
Frühere Dokumente obiger Art waren in der Regel kopierbar oder von vornherein schon garnicht markier- und nicht kopierbar. Ich werde in nächster Zeit wieder Dokumente dieser Art anfordern und gleich vermerken, dass sie kopierbar sein sollen. Mal sehen.
Wenn ich's richtig verstanden habe, könnten diese "Fehlkopien" nicht an einem Font liegen, den ich evtl. nicht installiert habe.
Übrigens habe einen Kopierversuch unter Windows gemacht. Funktioniert auch nicht. Sieht allerdings beim markieren des Textes etwas anders aus.
Ich dachte immer, PDF ist einfach.:)
 
Zurück
Oben