cpt. Nemo schrieb:
@ Scheinweltname
Lies dir doch bitte noch einmal die wenigen Worte meines Beitrages durch. Ich rede keineswegs von "Durchsuchbares pdf-Bild" war bisher nicht die Rede. Ich habe von OCR gesprochen, und in einem vernünftigen Programm dieser Art ist das von mir beschriebene Vorgehen durchaus machbar.

und lies du mal meinen Beitrag: Für den Fall, DASS ich ein durchsuchbares PDF-Bild machen möchte, DANN würde mir deine Vorgehensweise nicht helfen, denn der ge-ocr'te Text wird ja nur unsichtbar über das Bild gelegt. Wenn das Bild aber schwarze Balken hat, dann bleiben die im Bild (denn man sieht beim Lesen ja nur das gescannte Bild; der ocr'te Text versteckt sich auf einer parallelen Ebene). Wenn man den Text nur erkennen und dann als *.doc oder nur den Text als *.pdf ausgibt, dann verschwinden natürlich die schwarzen Balken; aber eben auch das Layout, die Original-Schriftart des Dokuments usf. Wenn jemand Seitenzahlen zitieren können möchte, kann das Probleme machen, wenn Veränderungen im Layout zu Verschiebungen bei den Seiten führen
--> für wissenschaftliche Zwecke nur eingeschränkt sinnvoll.
Und ich benutze seit Jahren Omni Page 16 Professional

. Übrigens: Eine sehr gut funktionierende OCR-Software ist auch in MS Office integriert; Document Imaging mit Namen. Die kann allerdings leider keine durchsuchbaren PDF-Bilder erzeugen. Nur interessant, wenn man wirklich nur an den Text ran will und das Layout keine Rolle spielt.
Ich hab in all den Jahren, in denen ich Scans per ocr in Text umwandele, noch nie ein *.doc oder so draus gemacht, weil das Layout fast immer zumindest ein bisschen kaputt geht. Da mache ich mir lieber durchsuchbare pdf-Bilder. Man kann den Text genauso gut rauskopieren wie aus einem *.doc, kann es wegen des Original-Layout angenehmer lesen und der Inhalt wird für die Windows Search indiziert, sodass man auch IN den pdfs suchen kann.
Durchsuchbare Pdf-Bilder ftw!

(die sind übrigens wissenschaftlicher Standard! Denn die pdf's sollen ja genauso aussehen wie die Veröffentlichungen auf Papier. Auch alle eingescannten, älteren wissenschaftlichen Aufsätze gibt es nur als durchsuchbare pdf-Bilder, die wandelt keiner "nur" in den Text um).
Aus der Omnipage-Hilfe schrieb:
Durchsuchbares PDF-Bild: Dieser PDF-Typ enthält ein Bitmap-Bild eines Dokuments oder einer Grafik mit Textinhalt, der als verborgener Text gespeichert ist. Dieses Format behält das Layout des Originaldokuments unverändert bei und aktiviert für die Dateisuche andere Programme, wie z. B. Adobe Acrobat.Obwohl die Dateien in der Regel größer als PDF-formatierte Text- und Grafikdateien sind, eignet sich das Format aufgrund seiner Funktionen hervorragend für die Archivierung von Dokumenten mit wichtigem Inhalt.