halwe
Lt. Commander
- Registriert
- Jan. 2007
- Beiträge
- 1.939
Hallo in die Runde,
ich erhalte öfter pdf-Dateien als "Bilddatei" in schlechter Quali, die ich durchsuchen will. Da habe ich zum Beispiel eine Datei mit 100 Seiten, Tabellen, Schwarz-weiß Bilder, 6 MB groß (hätte ich die Datei selbst erzeugt, hätte sie mit diesem Textumfang wahrscheinlich weniger als 1 MB).
Um sie zu durchsuchen verwendet ich eine OCR Umwandlung, entweder Readiris oder Paperport (kam mit meinem Brother Drucker). In beiden Programmen dauert das OCR eine ganze Weile (5 min) und erzeugt anschließend recht große Dateien (Faktor 3 also hier 16-19 MB).
Nun meine Fragen:
1. Warum werden die Dateien so groß, wo ich doch nur Text hinzufüge. Ich habe den Eindruck, dass beide Programme die Dateien neu rendern, was ja eigentlich unnötig ist. Gibt es OCR-Programme, die das vermeiden?
2. Vielleicht geht es auch einfacher: Gibt es pdf-Reader, die auch bei Bild-pdf-Dateien direkt eine Suche ermöglichen? Also quasi mit On-The-Fly-Ocr?
Danke für euer Mitdenken im Voraus.
ich erhalte öfter pdf-Dateien als "Bilddatei" in schlechter Quali, die ich durchsuchen will. Da habe ich zum Beispiel eine Datei mit 100 Seiten, Tabellen, Schwarz-weiß Bilder, 6 MB groß (hätte ich die Datei selbst erzeugt, hätte sie mit diesem Textumfang wahrscheinlich weniger als 1 MB).
Um sie zu durchsuchen verwendet ich eine OCR Umwandlung, entweder Readiris oder Paperport (kam mit meinem Brother Drucker). In beiden Programmen dauert das OCR eine ganze Weile (5 min) und erzeugt anschließend recht große Dateien (Faktor 3 also hier 16-19 MB).
Nun meine Fragen:
1. Warum werden die Dateien so groß, wo ich doch nur Text hinzufüge. Ich habe den Eindruck, dass beide Programme die Dateien neu rendern, was ja eigentlich unnötig ist. Gibt es OCR-Programme, die das vermeiden?
2. Vielleicht geht es auch einfacher: Gibt es pdf-Reader, die auch bei Bild-pdf-Dateien direkt eine Suche ermöglichen? Also quasi mit On-The-Fly-Ocr?
Danke für euer Mitdenken im Voraus.