Warum wird in pdf "tf" beim kopiren zu einem E?

Niklxs

Newbie
Registriert
Dez. 2023
Beiträge
1
Hallo,
mir ist grad Aufgefallen, dass man beim Kopieren von den beiden Buchstaben "tf" in einer pdf Datei ein E bekommt. Besonders komisch ist auch, dass man t und f nicht einzeln auswählen kann und sie beim Suchen nach den einzelnen Buchstaben nicht aufgetaucht sind. Die Datei hat mein Lehrer gemacht und ich denke mal nicht, dass er da mit Sondercodes oder so arbeitet :D.

Hier noch ein kurzes Demonstationsvideo:


Wenn jemand weis woran das liegen könnte, dann würde ich mich über eine Antwort freuen :)
Mfg. Niklas
 

Anhänge

  • Begriffssammlung_Grundlage Test.pdf
    43,9 KB · Aufrufe: 59
Ohne das genau nachvollziehen zu können, gehe ich davon aus, dass du aus dem PDF nicht direkt was kopieren kannst sondern das da ne Art OCR gemacht wird im Hintergrund. Deshalb kannst du die Buchstaben nicht einzeln auswählen und deshalb wird ein "E" draus beim Einfügen.
 
Es sieht zwar nicht wie ein Scan aus, aber das Fehlerbild passt genau: Hat da jemand Texterkennung drüberlaufen lassen?
Texterkennung ist nicht perfekt (oder kann auch systembedingt Schrott sein).

Dann passen die erkannten Buchstaben, die man beim Kopieren eben auch in die Zwischenablage kopiert (Hier ein "E"), nicht unbedingt zu den Buchstaben, die man sieht (hier "tf").
 
wahrscheinlich handelt es sich bei tf um eine sogenannte Ligatur. Dabei werden hauptsächlich bei Druckerzeugnissen zwei oder mehr Buchstaben aus optischen Gründen zu einem neuen Zeichen verbunden. Dies wird beim kopieren dann nicht richtig übertragen, wenn das Zielfenster diese Ligaturen nicht kennt.

https://de.wikipedia.org/wiki/Ligatur_(Typografie)
 
  • Gefällt mir
Reaktionen: Mickey Cohen, prh, Niklxs und eine weitere Person
Im Dokument wurden auch alle Vorkommen von "ti" durch ":" ersetzt und das sind elf Stück. Das erscheint mir fast zu "zuverlässig" für einen OCR-Fehler.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Niklxs und BFF
Dein Lehrer hat diesen Text in Word verfasst und dann in ein PDF umgewandelt. Dabei hat er ausgewählt, dass die Schrift "eingebettet" werden soll.
Vorteil: Damit wird gewährleistet, dass auf jedem Ausgabegerät die Schrift korrekt dargestellt und gedruckt wird, selbst wenn derjenige die Schrift nicht installiert hat. Alle Informationen bleiben über die eingebettete Schrift im Dokument erhalten.
Nachteil: Der Kopierfehler den du beschrieben hast ^^

Anbei mal die Darstellung, was kopiert wird, wenn die Schrift eingebettet ist. Und eine "überarbeitete" Datei ohne eingebettete Schrift.

Woher ich das weiß, ich erstelle u. a. interaktive und dynamische PDF-Formulare, und kenne daher einige Fehler, die in einem PDF auftauchen können. ;-)

LG
 

Anhänge

  • begriffssammlung_grundlage test_ohne eingebettete schrift.pdf
    38,3 KB · Aufrufe: 42
  • begriffssammlung_grundlage test - bearbeitet.pdf
    48,5 KB · Aufrufe: 43
Zuletzt bearbeitet:
Zurück
Oben