Texte als Grafik in PDF Datei => durchsuchbar machen?

Patryn

Cadet 2nd Year
Registriert
Okt. 2006
Beiträge
22
Servus,

ich habe folgendes Anliegen: Ich habe ca. 100 Seiten gedruckten Text (Din A4), den ich gerne in ein PDF einscannen möchte. Nun ist es so, dass es Software gibt, die mir die Seiten via OCR als Text einscannt und dann in das PDF bringt. Das möchte ich aber nicht.

Ich möchte, dass die Texte als Grafik eingescannt werden. Grund: Dadurch ist gewährleistet, dass irgendwelche Wörter nicht oder falsch erkannt werden. Außerdem bleibt das Layout 1:1 erhalten.

Mein Problem: Das Dokument soll auch durchsuchbar sein. Wenn es als Text eingescannt und dann als PDF abgespeichert wird, ist das durchsuchen kein Problem. Aber wie kriegt man es hin, dass ein PDF, das Texte nur Grafiken enthält, trotzdem durchsuchbar ist. Gibt es hierfür Softwarelösungen? Jede Hilfe nehme ich dankbar an!

Bis dann,

Pat
 
@Patryn
Eine Grafik besteht aus Bildpunkten, Texte aus ASCII- Code. Wird ein Text als Bild abgespeichert, so gehen die Textinformationen verloren und werden durch Bildpunkte ersetzt. Imo wäre die Lösung die Texte über eine OCR Software erkennen zu lassen und anschließend das Layout neu zu erstellen. Aber das willst du ja nicht.

Der Adobe Writer stellt afaik eine Funktion zur Verfügung mit welcher ein Inhaltsverzeichnis erstellt wird. So wäre wenigstens die Durchsuchbarkeit der einzelnen PDF-Seiten, nicht aber der (Bild-)Texte, gewährleistet. Nur ein Adobe Writer steht nicht immer zur Verfügung.
 
Scansoft Paperport kann das.
 
Auszug aus dem Produktdatenblatt von PaperPort 11:
PaperPort 11 verwandelt gescannte Unterlagen in Textdateien, die Sie bearbeiten, kopieren und in E-Mails einfügen können.
>Quelle<
http://www.nuance.de/paperport/datasheets/
ftp://ftp.scansoft.com/nuance/datasheets/ds_pp11_de.pdf (1MB DL)

Es ist wohl doch so, das Grafiken nicht nach Textinhalten durchsuchbar gemacht werden können. Ich zweifelte schon...

Und an der zuverlässigen Texterkennung und exakten Beibehaltung des Layouts zweifle ich auch.
 
Ja, das kann Paperport auch aber es kann noch mehr:

Automatische Indexaktualisierung
Jedes gescannte Dokument kann ganz automatisch in den All-in-One-Index aufgenommen werden. Damit wird der Inhalt gescannter Dokumente sofort durchsuchbar.

Suche in Scans, Bild- und PDF-Dateien
Die All-in-One-Suche von PaperPort „liest“ alle Dateien mit dem integrierten OmniPage Search Indexer. Danach können Sie die Dokumente anhand der darin enthaltenen Wörter suchen, auch gescannte Dokumente. Die in OmniPage Search Indexer zum Einsatz kommende Technologie stammt aus ScanSoft OmniPage Professional 15, der weltweit meistverkauften und genauesten Lösung zur Konvertierung von Papier und PDF-Dateien in bearbeitbare und archivierbare Dokumente.
Quelle
 
@dogio1979
Schon klar das PaperPort das kann. Aber es kann das nur, weil es Texte nach dem Scannen erkennt und in Textdateien umwandelt. Mit Grafiken geht das nicht.

Unbestritten ist PaperPort ein leistungsfähiges Programm um Papier-/ PDF-Dokumente digital zu archivieren.
 
Grafiken sind Bilddateien und dafür gibts OCR. Ob er nun intern den Text erkennt und so die Suchfunktion ermöglich ist völlig wurscht, weil das Originaldokument bestehen bleibt.
 
Zurück
Oben