(Bild-)PDF nach Text durechsuchen

halwe · Gestern um 19:00

Hallo in die Runde,
ich erhalte öfter pdf-Dateien als "Bilddatei" in schlechter Quali, die ich durchsuchen will. Da habe ich zum Beispiel eine Datei mit 100 Seiten, Tabellen, Schwarz-weiß Bilder, 6 MB groß (hätte ich die Datei selbst erzeugt, hätte sie mit diesem Textumfang wahrscheinlich weniger als 1 MB).
Um sie zu durchsuchen verwendet ich eine OCR Umwandlung, entweder Readiris oder Paperport (kam mit meinem Brother Drucker). In beiden Programmen dauert das OCR eine ganze Weile (5 min) und erzeugt anschließend recht große Dateien (Faktor 3 also hier 16-19 MB).

Nun meine Fragen:
1. Warum werden die Dateien so groß, wo ich doch nur Text hinzufüge. Ich habe den Eindruck, dass beide Programme die Dateien neu rendern, was ja eigentlich unnötig ist. Gibt es OCR-Programme, die das vermeiden?
2. Vielleicht geht es auch einfacher: Gibt es pdf-Reader, die auch bei Bild-pdf-Dateien direkt eine Suche ermöglichen? Also quasi mit On-The-Fly-Ocr?

Danke für euer Mitdenken im Voraus.

Toms · Gestern um 19:15

halwe schrieb:
Vielleicht geht es auch einfacher: Gibt es pdf-Reader, die auch bei Bild-pdf-Dateien direkt eine Suche ermöglichen? Also quasi mit On-The-Fly-Ocr?

Falls du macOS zur Verfügung hast, die Vorschau-App kann das. Also generell Bilder durchsuchen. Habe sogar mal mit Swift ein Script geschrieben, was genau diese OS-Funktionalität genutzt hat, Bilder mit Text im Batch zu verarbeiten und die Texte zu extrahieren. Geht auch super schnell.

https://github.com/tomasfreres/pdf-ocr-text-extractor

JumpingCat · Gestern um 19:15

halwe schrieb:
On-The-Fly-Ocr

Das ist zu CPU / GPU lastig.

halwe schrieb:
Warum werden die Dateien so groß, wo ich doch nur Text hinzufüge

Weil wohl die Software wohl ungeschickt ist. Eigentlich wird da nur ein Textlayer angehängt.

Paperless-ngx ist keine Lösung für dich?

cumulonimbus8 · Gestern um 19:19

Rein aus Neugier: eine Bild-PDF wird per OCR zu einer Text-PDF die man dann durchsuchen kann, korrekt?
Warum denn von PDF zu PDF und nicht in irgendwas was man auch durchsuchen könnte?
CN8

Moep89 · Gestern um 19:52

Also wenn ich mit Acrobat gescannte Dokumente in durchsuchbare Bilder umwandle, dann verändert sich die Größe meist nicht nennenswert oder sinkt sogar. Dauert pro Seite so ca. 2-4 Sekunden.

dermoritz · Gestern um 20:53

unter Windows können das die Powertoys - zumindest für einen gewählten Ausschnitt - bei vielen Seiten eventuell mühsehlig.

chatgpt kann das auch - zumindest bei Bildern. pdf geht bestimmt auch?!

Thorakon · Gestern um 20:59

cumulonimbus8 schrieb:
Rein aus Neugier: eine Bild-PDF wird per OCR zu einer Text-PDF die man dann durchsuchen kann, korrekt?

Nein, normal wird eine unsichtbare Schrift über das Bild gelegt, die kann man dann durchsuchen oder mit der Maus markieren. Das ist gerade bei schlechten Vorlagen (wie hier) sehr sinnvoll, denn so kannst du als Mensch nochmal die Fehl-Erkennungen nachschlagen. Wenn du aber z.B. eine Umwandlung zum Word-Dokument beauftragst, wird das Originalbild normal gelöscht. Viele OCR Programme können auch keine Tabellen erkennen, wenn du da nur den Text untereinander statt nebeneinander hast geht plötzlich jede Menge Bedeutung verloren.

halwe · Heute um 09:18

Hallo zusammen. Danke für die Rückmeldungen. Leider scheint es weder zu Punkt 1 noch zu Punkt 2 eine klare Lösung zu geben. Oder ich bin auf eine "CB-Erfahrungslücke" gestoßen.
Zu den Nebenvorschlägen:
Paperless-ngx ist eine Lösung für ein anderes Problem. In meinem Workflow sind durchsuchbare pdfs das Mittel der Wahl und der Prozess lässt sich anscheinend nur begrenzt optimieren.
ChatGPT meckert, das ihm die Datei zu groß bzw. zu komplex sei.

Suche

(Bild-)PDF nach Text durechsuchen

halwe

Lt. Commander

Toms

Admiral

JumpingCat

Rear Admiral

cumulonimbus8

Fleet Admiral

Moep89

Admiral

dermoritz

Lt. Commander Pro

Thorakon

Lieutenant

halwe

Lt. Commander

Ähnliche Themen