Scannen mit guter Komprimierung und OCR

halwe

Lt. Commander
Registriert
Jan. 2007
Beiträge
1.566
Da ich öfter Unterlagen wegscanne spielt die Erstellung kompakter und durchsuchbarer pdf-Dokumente eine große Rolle für mich.
Mein Brother AIO hat zwar einen ganz guten Duplex Scanner und solange ich s/w scanne komme ich inklusive Texterkennung auf 50-100 kB je A4-Text-Seite, ein guter Wert für durchsuchbare eingescannte pdf-Dateien. Dafür nutze ich das mitgelieferte ControlCenter von Nuance Paperport.

Auch Farbseiten und Graustufendokumente werden gut und effizient in pdf umgewandelt (Grau 300 dpi 150-1500 kB je A4-Seite je nach Komprimierung). Wenn ich hier OCR einschalte, entsteht jedoch jedes Mal eine um ein mehrfaches größere Datei (hier 2.100 kB je A4-Seite), da ich die Komprimierung im Scannertreiber nicht mehr runterregeln kann. Eine eingescannte durchsuchbare Farbseite braucht bei 300 dpi sogar 7.500 kB. Hier sehe ich Reserven.

Nachträgliches OCR möchte ich vermeiden, da ich dann zum Durchsuchen jede pdf-Datei nach dem Scannen ein zweites Mal anfassen müsste und das OCR nach der Komprimierung sicher auch nicht so gut ist.
Ideal wäre ein Scanner, der für das OCR eine höhere Auflösung verwendet, als für das Einbetten der Grafik in ein pdf-Dokument. Oder der zumindest erst den Text erkennt und danach komprimiert.

Könnt Ihr mir da Tipps geben? Welcher Scanner / AIO oder welches Scanprogramm schaffen die Erzeugung gut komprimierter durchsuchbarer pdf-Dateien nicht nur im s/w-Modus? Was für Werte erhaltet Ihr für eine durchsuchbare Farb- oder Grau-A4-Seite 300 dpi? Ist die Texterkennung ok?

Viele Grüße, Halwe
 
wenn du die bilder nicht für hochglanzprospekt-qualität brauchst, reicht ein bildscannen mit 72 dpi und ocr mit höchster auflösung.
nachträglich kannst du mit diversen pdf-tools die bild-qualität auch runterrechnen lassen. spitzentool wäre das adobe acropro oder die gratistools pdf24 und wie die alle heissen.
 
Das liegt an den Plugins, welche die jeweilige Software des Scanners zum erzeugen von PDFs benutzt. Davon gibt es viele, und die Ergebnisse fallen durchaus unterschiedlich aus. Teilweise unterscheidet sie sich bei verschiedenen Scannermodellen eines Herstellers stark, wenn die mitgelieferte Software dort unterschiedliche Plugins nutzt, die Softwarevarianten aber natürlich alle nicht untereinander kompatibel sind....

Aus eigener Erfahrung (ich arbeite in dem Bereich) kann ich dir nur raten, OCR nie unter 300dpi zu machen. Und am allerbesten bei einer schwarz/weißen Bildquelle.

Vielleicht kannst du die Dateien aber im Nachhinein verkleinern. Such mal nach PDFCreator o.ä.
 
Danke für die schnellen Antworten, Grimba und chrigu. 72 dpi für Texte mit farbigen Illustrationen könnte knapp werden. Insbesondere fürs OCR. 200 dpi sollte aber für grau und farbig reichen, um ein hinreichend klares Druckbild meiner Steuererklärung oder der Krankenkassenbeitragserhöhung zu erhalten.

Aber richtig, ich suche einen Scanner oder ein Scanprogramm, welches eine hohe Auflösung für das OCR verwendet und erst danach die Grafik runterrechnet/komprimiert und in die pdf einbettet. Und das Ganze in einem Arbeitsgang.
Will ich zu viel?
 
Ich glaube so ganz einfach wird das nicht, es gibt sowas, aber dann nicht gerade billig.

OCR ist nämlich so eine Sache....

Grob gesprochen ist es so, dass man, um eine gute OCR zu erreichen, bestimmte optimale Bedingungen erreichen muss.
Die Erreicht man einmal dadurch, dass das Bild entsprechend vorverarbeitet wird, und zum anderen, dass die OCR entsprechend feinjustiert wird.
Das Prinzip "alles in einem Arbeitsschritt" kann daher nur eine möglichst große Menge von guten Ergebnissen liefern, wenn von der Hardware bis zum fertigen PDF "alles nach Plan" läuft. Das macht das Gebilde aber recht engmaschig.
Die mitgelieferte Scansoftware greift mitunter anders auf den Scanner zu als irgendeine Scansoftware über TWAIN & Co. Da das Gerät der Software bekannt ist, kann sie von bestimmten Gegebenheiten beim Scan ausgehen. Die im Zusammenspiel eingesetzte OCR macht sich diese ebenfalls zur Nutze. Die Einstellungen sind dann meist so gewählt, dass sie für das meistwahrscheinliche Dokumentenaufkommen der anvisierten Zielkundschaft optimiert sind. D.h. außerhalb dieser Gefilde die Ergebnisse sich deutlich verschlechtern und man als Nutzer auch keinen Einfluss darauf hat.

Wenn du jetzt eine geräteunabhängige Softwarelösung möchtest, dann musst du sowohl die Vorverarbeitung als auch die Feinjustierung der jeweiligen OCR etc. alles selber machen. Außerdem sind dir dadurch evtl. nur Zugriffe auf die Scannerhardware durch generische Schnittstellen wie TWAIN möglich.

Gesetzter Fall es gibt so ein Programm, dass dir auch noch ermöglicht, dieses alles als Batch zu definieren, die du dann jedesmal einfach durchrattern lassen kannst, Bingo. Aber diese kommen dann meistens vom Hersteller der OCR-Engine. Und die lassen sich das meist fürstlich bezahlen.

Auf der anderen Seite hat dein Scannerhersteller eben bereits alles getan, um "das alles in einem Arbeitsschritt" für dich so schmerzfrei wie möglich zu gestalten. Für umme.

Aber wenn du dir das hier mal angucken möchtest:
https://www.abbyy.com/de-de/finereader/

wobei ich hier nicht weiß, wie das mit dem Automatismus ist.
 
Zuletzt bearbeitet:
Huch, so viele Metainformationen :o Aber trotzdem danke.
Also ich denke auch, dass so etwas zu finden etwas anspruchsvoller ist, wenn es einfach wäre, hätte ich nicht das Forum hier bemüht.
Ansonsten bin ich noch nicht festgelegt: Scan-Programm, Scanner mit mitgelieferter Software, AIO mit Scansoftware - ich bin offen für alles, wenn es gut komprimierte und durchsuchbare pdfs in einem Schritt erzeugt.

Dass das grundsätzlich geht, zeigt mir mein Scanner (übrigens mit einer hervorragenden, nicht zu konfigurierenden OCR). Nur dass der das Komprimieren im OCR-Modus verweigert. So ist das durchsuchbare Speichern von pdfs sehr speicherintensiv, was wiederum die Indizierung ständig auf Tab hält.

Und ja, ich kenne zig Tools, Scanner, und AIOs, die alle grundsätzlich scannen und pdf-Dateien erzeugen.
Ich hoffte nur, hier im Forum könnte ich fremde Erfahrungswerte nachnutzen, um zielgerichtet das finden, was meinen konkret benannten Anforderungen entgegenkommt.
 
Dass er das komprimieren im OCR Modus verweigert liegt daran, dass OCR es gar nicht mag mit komprimierten Bildinhalten zu arbeiten, zumindest jene, die verlustbehaftet komprimiert wurden, wie jpg.

Unter 300dpi s/w tiff würde ich nichts, schon gar nicht Rechnungen, bzw. wichtige Dokumente durch eine OCR schicken. Tiff bietet zwar auch Komprimierung an, aber verlustfreie.

Ich sag ja, der Hersteller sagt dir damit, dass er schon weiß, was gut ist, damit alles auf Knopfdruck funktioniert.
Und dass das ganze automatisiert, so wie du es haben möchtst, richtig viel Geld kostet, hast du ja gesehen.

Also vergleich mal 300€ für die Software und Dokument-Quota pro Monat gegen etwas größere Dateien.
 
Ja richtig, Grimba, unter 300 dpi sollte man kein OCR machen. Auch wenn es in meinem Fall nur darum geht, Suchworte in den Windows Index zu bekommen und Stellen im Dokument zu finden, ohne Anspruch auf Vollständigkeit.
Aber das Scannen und Erkennen in hoher Auflösung schließt technisch nicht aus, dass danach eine Komprimierung stattfindet.
Ohne diese Komprimierung lande ich bei 8 MB/A4 Seite und meine Systeme sind später nur noch am Indizieren der entstehenden Riesendateien.

Und genau davon rede ich von Anfang an. Es ist schön, Grimba, dass du meine Aufgabenstellung mit deine Worten wiederholst. Auch danke für den Link auf den Abby Finereader. Aber ich hoffte, nicht alles selbst testen zu müssen, da ich hier etwas will, was aus gängigen Dokumentationen nicht hervorgeht.

Also noch mal: Kennt hier jemand Tools / Treiber / Geräte, bei denen innerhalb des Scanvorganges die Komprimierung der pdf-Dateien nach dem OCR erfolgt?
 
pdfcreator, acroPro, pdf24 usw... die können die bilder nachträglich auf 72 dpi verkleinern...
 
chrigu schrieb:
pdfcreator, acroPro, pdf24 usw... die können die bilder nachträglich auf 72 dpi verkleinern...

Ja, es sieht wohl so aus, also ob ich das nur mit einer nachträglichen Bearbeitung lösen kann. Schade...
 
Zurück
Oben