OCR - Texte dabei Vektor umwandeln?

aero

Lieutenant
Registriert
Juni 2008
Beiträge
554
Hallo,

wenn ich Texte über einen Scanner ziehe, kann ich die dann erstellten PDFs mit OCR erkennen lassen. Die Texte bleiben aber nach wie vor aus Pixeln bestehen - anders als bei einem PDF, das aus einer Word-Datei entstanden ist. Bei diesen kann ich ja sehr weit reinzoomen, ohne das die Buchstaben verpixeln. Nun habe ich hier eine Datei, die ganz offensichtlich eingescannt wurde. Aber im Gegensatz zu meinen pixeligen Texten, ist die Schrift nicht verpixelt, egal wie weit man reinzoomt. Ich hoffe, ihr versteht, was ich meine.
Daher meine Frage: Kann man eingescannte texte sozusagen "Vektorisieren"?
 
PDF gescannte Dateien sind Bilder und keine Textdateien. Deshalb kannst Du sie auch nicht OCR bearbeiten.
Wenn eine PDF als Text verarbeitet wurde, ist sie wahrscheinlich auch mit Adobe Acrobat erstellt worden und beinhaltet damit auch reinen Text und nicht Text als Grafik.
Gescannte Textdateien sollte man dann als Tiff speichern, um sie weiter verarbeiten zu können.
 
Ich scanne einen Text. Dieser wird automatisch dabei als PDF gespeichert. Ich öffne die PDF und lasse mit OCR den Text als Text erkennen (z.B. mit Acrobat Pro X). Ergebnis: die PDF enthält eine Bilddaei (der Scan), bei dem der Text erkannt wurde. Problem: Der Text besteht aus Pixeln und nicht Vektoren.
Hoffe, das war verständlicher.

VIele Grüße
aero
 
die PDF enthält eine Bilddaei
Und wo ist nun das Problem, eine Bilddatei bleibt eine Bilddatei und wird dadurch das sie mit OCR gelesen wird nicht zu einer Textdatei, die bearbeitet werden kann. Scanne sie doch als Tiff ein, bearbeite sie und speichere es dann als PDF ab oder übergebe sie an Word und lasse es dann als PDF speichern. Weiss ja nicht mit welchem OCR und welchem PDF Drucker Du arbeitest, der die Daten ins PDF Format abspeichert.
 
Nun ja, du könntest den Text einfach rauskopieren und in ein Office einfügen. Dann hast du halt das Bild nicht mehr im Hintergrund, die Formatierung wird wahrscheinlich zerstört und die Grafiken fallen auch raus.
Trotzdem ist das die einzige Möglichkeit die ich kenne (was nicht heißt, dass es nicht doch eine gibt.)
 
Das wird wohl nicht gehen wenn es bereits eine Bilddatei ist, dann muss man es schon vorher machen.
 
Es geht. Man muss als Option CLEARSCAN auswählen: Acrobat Pro filtert die PDF Datei, wandelt erkannte Buchstabenpixel in Vektoren um und löscht anschließend die Pixel. =)
 
Zurück
Oben