(Bild-)PDF nach Text durechsuchen

halwe

Lt. Commander
Registriert
Jan. 2007
Beiträge
1.939
Hallo in die Runde,
ich erhalte öfter pdf-Dateien als "Bilddatei" in schlechter Quali, die ich durchsuchen will. Da habe ich zum Beispiel eine Datei mit 100 Seiten, Tabellen, Schwarz-weiß Bilder, 6 MB groß (hätte ich die Datei selbst erzeugt, hätte sie mit diesem Textumfang wahrscheinlich weniger als 1 MB).
Um sie zu durchsuchen verwendet ich eine OCR Umwandlung, entweder Readiris oder Paperport (kam mit meinem Brother Drucker). In beiden Programmen dauert das OCR eine ganze Weile (5 min) und erzeugt anschließend recht große Dateien (Faktor 3 also hier 16-19 MB).

Nun meine Fragen:
1. Warum werden die Dateien so groß, wo ich doch nur Text hinzufüge. Ich habe den Eindruck, dass beide Programme die Dateien neu rendern, was ja eigentlich unnötig ist. Gibt es OCR-Programme, die das vermeiden?
2. Vielleicht geht es auch einfacher: Gibt es pdf-Reader, die auch bei Bild-pdf-Dateien direkt eine Suche ermöglichen? Also quasi mit On-The-Fly-Ocr?

Danke für euer Mitdenken im Voraus.
 
halwe schrieb:
Vielleicht geht es auch einfacher: Gibt es pdf-Reader, die auch bei Bild-pdf-Dateien direkt eine Suche ermöglichen? Also quasi mit On-The-Fly-Ocr?
Falls du macOS zur Verfügung hast, die Vorschau-App kann das. Also generell Bilder durchsuchen. Habe sogar mal mit Swift ein Script geschrieben, was genau diese OS-Funktionalität genutzt hat, Bilder mit Text im Batch zu verarbeiten und die Texte zu extrahieren. Geht auch super schnell.

https://github.com/tomasfreres/pdf-ocr-text-extractor
 
Zuletzt bearbeitet:
Rein aus Neugier: eine Bild-PDF wird per OCR zu einer Text-PDF die man dann durchsuchen kann, korrekt?
Warum denn von PDF zu PDF und nicht in irgendwas was man auch durchsuchen könnte?
CN8
 
Also wenn ich mit Acrobat gescannte Dokumente in durchsuchbare Bilder umwandle, dann verändert sich die Größe meist nicht nennenswert oder sinkt sogar. Dauert pro Seite so ca. 2-4 Sekunden.
 
unter Windows können das die Powertoys - zumindest für einen gewählten Ausschnitt - bei vielen Seiten eventuell mühsehlig.

chatgpt kann das auch - zumindest bei Bildern. pdf geht bestimmt auch?!
 
Zuletzt bearbeitet:
cumulonimbus8 schrieb:
Rein aus Neugier: eine Bild-PDF wird per OCR zu einer Text-PDF die man dann durchsuchen kann, korrekt?
Nein, normal wird eine unsichtbare Schrift über das Bild gelegt, die kann man dann durchsuchen oder mit der Maus markieren. Das ist gerade bei schlechten Vorlagen (wie hier) sehr sinnvoll, denn so kannst du als Mensch nochmal die Fehl-Erkennungen nachschlagen. Wenn du aber z.B. eine Umwandlung zum Word-Dokument beauftragst, wird das Originalbild normal gelöscht. Viele OCR Programme können auch keine Tabellen erkennen, wenn du da nur den Text untereinander statt nebeneinander hast geht plötzlich jede Menge Bedeutung verloren.
 
  • Gefällt mir
Reaktionen: trb85 und G.O.Tuhls
Hallo zusammen. Danke für die Rückmeldungen. Leider scheint es weder zu Punkt 1 noch zu Punkt 2 eine klare Lösung zu geben. Oder ich bin auf eine "CB-Erfahrungslücke" gestoßen.
Zu den Nebenvorschlägen:
Paperless-ngx ist eine Lösung für ein anderes Problem. In meinem Workflow sind durchsuchbare pdfs das Mittel der Wahl und der Prozess lässt sich anscheinend nur begrenzt optimieren.
ChatGPT meckert, das ihm die Datei zu groß bzw. zu komplex sei.
 
Zurück
Oben