OCR - Texte dabei Vektor umwandeln?

aero · 11. März 2012

Hallo,

wenn ich Texte über einen Scanner ziehe, kann ich die dann erstellten PDFs mit OCR erkennen lassen. Die Texte bleiben aber nach wie vor aus Pixeln bestehen - anders als bei einem PDF, das aus einer Word-Datei entstanden ist. Bei diesen kann ich ja sehr weit reinzoomen, ohne das die Buchstaben verpixeln. Nun habe ich hier eine Datei, die ganz offensichtlich eingescannt wurde. Aber im Gegensatz zu meinen pixeligen Texten, ist die Schrift nicht verpixelt, egal wie weit man reinzoomt. Ich hoffe, ihr versteht, was ich meine.
Daher meine Frage: Kann man eingescannte texte sozusagen "Vektorisieren"?

werkam · 11. März 2012

PDF gescannte Dateien sind Bilder und keine Textdateien. Deshalb kannst Du sie auch nicht OCR bearbeiten.
Wenn eine PDF als Text verarbeitet wurde, ist sie wahrscheinlich auch mit Adobe Acrobat erstellt worden und beinhaltet damit auch reinen Text und nicht Text als Grafik.
Gescannte Textdateien sollte man dann als Tiff speichern, um sie weiter verarbeiten zu können.

aero · 11. März 2012

Ich scanne einen Text. Dieser wird automatisch dabei als PDF gespeichert. Ich öffne die PDF und lasse mit OCR den Text als Text erkennen (z.B. mit Acrobat Pro X). Ergebnis: die PDF enthält eine Bilddaei (der Scan), bei dem der Text erkannt wurde. Problem: Der Text besteht aus Pixeln und nicht Vektoren.
Hoffe, das war verständlicher.

VIele Grüße
aero

werkam · 11. März 2012

die PDF enthält eine Bilddaei

Und wo ist nun das Problem, eine Bilddatei bleibt eine Bilddatei und wird dadurch das sie mit OCR gelesen wird nicht zu einer Textdatei, die bearbeitet werden kann. Scanne sie doch als Tiff ein, bearbeite sie und speichere es dann als PDF ab oder übergebe sie an Word und lasse es dann als PDF speichern. Weiss ja nicht mit welchem OCR und welchem PDF Drucker Du arbeitest, der die Daten ins PDF Format abspeichert.

Radde · 11. März 2012

Nun ja, du könntest den Text einfach rauskopieren und in ein Office einfügen. Dann hast du halt das Bild nicht mehr im Hintergrund, die Formatierung wird wahrscheinlich zerstört und die Grafiken fallen auch raus.
Trotzdem ist das die einzige Möglichkeit die ich kenne (was nicht heißt, dass es nicht doch eine gibt.)

werkam · 11. März 2012

Das wird wohl nicht gehen wenn es bereits eine Bilddatei ist, dann muss man es schon vorher machen.

aero · 27. Januar 2014

Es geht. Man muss als Option CLEARSCAN auswählen: Acrobat Pro filtert die PDF Datei, wandelt erkannte Buchstabenpixel in Vektoren um und löscht anschließend die Pixel. =)

Suche

OCR - Texte dabei Vektor umwandeln?

aero

Lieutenant

werkam

Alter Meckermann

aero

Lieutenant

werkam

Alter Meckermann

Radde

Commodore

werkam

Alter Meckermann

aero

Lieutenant

Ähnliche Themen