PDF: Farben ändern Schwellenwert

WRod

Newbie
Registriert
Mai 2020
Beiträge
4
Hallo,
ich habe eine PDF-Datei bekommen von einem Text, den ich OCRen möchte. Leider ist er so gescannt, dass die Rückseite duchscheint: Bsp.:
1684955169823.png


Mit GIMP etwa kann man unter Farben das gut bereinigen mit der Funktion "Farben/Schwellenwert".
1684955129120.png


Leider geht das nur für jede Seite einzeln, die entweder als einzelne Bilder oder Ebenen eingelesen werden. Und man muss das dann wieder zurück konvertieren o.ä.

Kennt jemand ein gutes Programm mit dem man solche Aufgaben auch direkt in einer PDF Datei erledigek kann - für alle Seiten einer Datei gemeinsam?

Dank im Voraus
 
Ich nutze PDF-XChange Editor und der kann alles. Allerdings ist dies keine besonders Funktion, daher sollten es viele Programme können.

Das Prinzip dahinter:
1. Text wird erkannt
2. Text und Hintergrund (Farben, Artefakte, etc.) wird separiert
3. Option den Hintergrund auszublenden oder zu löschen wird freigeschaltet

Eine Besonderheit von PDF-XChange Editor ist, dass bei OCR der Text über die PDF als unsichtbarer Text als weitere Ebene gelegt wird. Somit kann man die hintere Ebene, also den sichtbaren Text und Hintergrund löschen.
Den unsichtbaren Text in der obersten Ebene kann man sichtbar machen und hätte damit nicht nur ein bereinigtes Dokument, sondern ein 100 % sauberes, weißes Dokument mit 100 % sauberem, sichtbarem Text. Es wird dann keinen Unterschied mehr zwischen einer nativen Umwandlung mehr geben, wenn man es richtig macht.

Das ist natürlich nur eine Option. Das Programm kann mehr.

Hier ist das erste Video, das ich in der Kürze gefunden habe:

Wie man auf YouTube sehen kann, können dies auch andere Editoren.
Foxit, Adobe, PDF24, etc.
 
Zuletzt bearbeitet:
Hi,

PDF mit Word öffnen wäre eine Möglichkeit. Ein Programm, das spezielle deine Anforderungen entspricht, kenne ich leider nicht.

Also ich kann z. B von einem Text einen Screenshot machen, dann aus der JPEG ein PDF und Word wandelt dies in einen bearbeitbaren Text um.

Edit: zu langsam 🙂
 
Benutz doch direkt ein ocr Scanner oder konvertiere es mit pff24 (sollte auch sowas haben). Damit wird die Schrift als Text erkannt und der Rest verschwindet
ich würde beim nächsten kopieren ein schwarzes Blatt auf das Papier legen, damit wird die Rückseite „absorbiert„
 
Zurück
Oben