Ist OCR eine reine Software Geschichte ?

skyerjoe

Cadet 2nd Year
Registriert
Aug. 2004
Beiträge
16
Hallo

Ich erwäge in nicht allzuferner Zukunft einen Dokumentenscanner zu erwerben und muss feststellen, dass manche Scanner gute Scannperformance haben aber manchmal schlechte OCR Eigenschaften.

Deswegen wollte ich mal nachfragen, ob die Technik OCR rein von der Software gesteuert wird und die Qualität davon abhängt, oder auch im Zusammenspiel mit der Scannerhardware von Bedeutung ist

grüsse skyerjoe
 
Ich kann Dir nicht viel dazu sagen, allerdings war ich damals (zu Zeiten als Flachbettscanner für den Privatgebrauch viel zu teuer waren und man noch Handscanner kaufte) schon von OCR angetan. Zwischenzeitlich hatte ich mich auch immer wieder gefragt, welche Fortschritte hier gemacht wurden und ob es brauchbares auf OpenSource-Basis gibt. Ich hänge mich mal so halb an Deine Frage dran :)

Zu Deiner Frage: Ich glaube, das OCR ist rein softwareseitig.
 
OCR ist reine Software.
Wenn wir davon ausgehen das der Scanner zumindest so gut ist, dass die Software auf Scans auch etwas verwertbares erkennen kann.
Wenn du dir einen Scanner kaufen willst, dann einen CCD. Keinen CIS!
 
Zuletzt bearbeitet:
Je besser die Qualität des Scans, desto einfacher und besser auch die OCR-Erkennung. Es kann sich hier durchaus lohnen einen halbwegs gescheiten Scanner zu verwenden.
E: Es muss nicht der teuerste sein, den man für Geld kaufen kann, aber es sollte auch nicht der billigste sein.
 
Ja und nein. Der OCR Vorgang ist eine reine Software-Funktion, aber je besser der Scan und je besser die CPU des Scanners, desto besser/schneller geht es.
 
Nicht ganz "nur" Softwareseitig.
Wenn der Scanner bescheidene Ergebnisse liefert, so ist nix mit vernuenftiger OCR.

BFF
 
skyerjoe schrieb:
...
Ich erwäge in nicht allzuferner Zukunft einen Dokumentenscanner zu erwerben und muss feststellen, dass manche Scanner gute Scannperformance haben aber manchmal schlechte OCR Eigenschaften. ...
Ein schneller Scanner und zusätzlich eine gute separate OCR-Software wäre eine Alternative, deren Bewertung aber mehr Hirnschmalz erfordert, als die Produkttests von Dokumentscannern zu lesen.
Und ob es dann wirklich schneller geht die Dokumente durch den Super-Duper-Scanner zu jagen und anschließend händisch mit OCR-Software mit hoher Erkennungsrate zu beackern, ist sowieso nicht garantiert.
 
Ich nutze seit Jahren meinen Brother Drucker-AIO, der scannt duplex und bringt auch bei 300 dpi schwarz-weiß oder 200 dpi grau brauchbare Scan-Ergebnisse. Da wurde Nuance Paperport pdf mitgeliefert, das übernimmt das OCR direkt beim Scannen, alle Dokumente werden also direkt als pdf mit durchsuchbarem Text gespeichert. Ich bin bisher mit der Erkennung sehr zufrieden und wüsste nicht, wozu man da noch einen extra Scanner erwerben sollte. Ich kann mir auch nicht vorstellen, dass die Qualität der Scans so sehr unterschiedlich ist, im Zweifelsfall benutzen alle Standard-Wörterbücher bei Unklarheiten.
Ein CCD-Scanner mag wichtig sein im Profibereich, wenn es z. B. um Tiefenschärfe oder Farbechtheit geht, für OCR ist er m. E. nicht erforderlich. Meine Erfahrung: Wenn ich die Buchstaben im gescannten Dokument klar erkennen kann, dann kann das auch die OCR-Software.
 
burglar225 schrieb:
Je besser die Qualität des Scans, desto einfacher und besser auch die OCR-Erkennung.
Ich benutze seit Jahren Finereader als OCR-Software. Die Software fordert mitunter auf, mit einer geringeren Auflösung zu scannen, um die Erkennungsrate zu erhöhen. Das legt nahe, dass Deine Behauptung nicht zutrifft ...
 
Im Endeffekt ist es ja nur eine Mustererkennung. Die Muster werden auf jeden Fall softwareseitig gefüttert. Die Muster-Vergleichs-Logik selbst könnte man auch in Hardware umsetzen, allerdings bezweifle ich, dass sowas gemacht wird.
Aber wäre sicherlich ein schönes kleines Experiment für zu Hause: Ein neuronales Netz mit Buchstaben und/oder Wörtern trainieren und dann über die RTX Tensor Cores das OCR laufen lassen :D
 
Andreas_ schrieb:
Ich benutze seit Jahren Finereader als OCR-Software. Die Software fordert mitunter auf, mit einer geringeren Auflösung zu scannen, um die Erkennungsrate zu erhöhen. Das legt nahe, dass Deine Behauptung nicht zutrifft ...

Das liegt daran, dass mit hoher Auflösung auch mehr Fehler dazukommen und Konturen teils überzeichnet sind. Dreck, Unsauberheiten im Druck pp.
Als Optimum bei reinem Text gelten 300 dpi.
 
  • Gefällt mir
Reaktionen: areiland
Andreas_ schrieb:
Ich benutze seit Jahren Finereader als OCR-Software. Die Software fordert mitunter auf, mit einer geringeren Auflösung zu scannen, um die Erkennungsrate zu erhöhen. Das legt nahe, dass Deine Behauptung nicht zutrifft ...
Ich arbeite selbst auch mit der Abbyy-OCR. Zwar ist mir das so noch nicht passiert, ist allerdings plausibel, da die OCR-Engine sonst quasi "den Wald vor lauter Bäumen nicht sieht". Wichtig ist hier aber auch, dass Scanqualität bitte nicht mit Scanauflösung gleichzusetzen ist. Du kannst mit zwei verschiedenen Geräten mit 300dpi scannen, aber völlig unterschiedliche Qualitäten erreichen.
 
burglar225 schrieb:
[...] Du kannst mit zwei verschiedenen Geräten mit 300dpi scannen, aber völlig unterschiedliche Qualitäten erreichen.

Genau das ist der Punkt.
Ich mache es mit Adobe. Wichtiger als die reine Auflösung ist, wie das Schriftbild ist, dass es nicht unscharf eingescannt ist usw.
 
arktom schrieb:
Genau das ist der Punkt.
Ich mache es mit Adobe. Wichtiger als die reine Auflösung ist, wie das Schriftbild ist, dass es nicht unscharf eingescannt ist usw.
Genau das habe ich jetzt schon zwei Mal mit unterschiedlichen Worten erklärt...
 
Die Auflösung kann sehr wohl wichtig sein. Bei kleinen Schriftgrößen, oder bei Sprachen wie Altgriechisch nützen auch gute Scanergebnisse nicht allein. Da sollte man nicht mit 200 dpi oder weniger scannen.
Als Scanner nutze ich seit Jahren gebrauchte oder geerbte Scanner, nicht teurer rals 9€, z.Zt. einen Epson Perfection 2400 Photo. Reicht vollkomen. Als habe ich OCR Finereader 14, mit der auch direkt eingescannt wird.
Jetzt warte ich nur nach auf die neuen 12/18C-Ryzen, FR skaliert schon seit Jahren recht gut.
 
halwe schrieb:
Ich nutze seit Jahren meinen Brother Drucker-AIO, der scannt duplex und bringt auch bei 300 dpi schwarz-weiß oder 200 dpi grau brauchbare Scan-Ergebnisse.

Hallo Halwe,

Benutzt du den nur sporadisch oder auch für deinen kompletten Briefverkehr.
Welchen AIO hast du zzt. ?

grüsse skyerjoe
 
Der MFC-J4710DW ist mein "Hauptdrucker" (80%) weil klein, A3-Druck und direkt am Schreibtisch platzierbar. Den gibt es aber inzwischen nicht mehr, man müsste sich die Nachfolgemodelle anschauen.
Habe aber inzwischen noch einen Laserdrucker-AIO mit ähnlicher Funktionalität, auch OCR (HP MFP 477) für den offiziellen Schriftverkehr. Der steht aber im Nachbarraum (viel größer) und hat natürlich nicht dieses Nuance Paperport zur pdf-Bearbeitung an Bord.
 
KnolleJupp schrieb:
OCR ist reine Software.
Wenn wir davon ausgehen das der Scanner zumindest so gut ist, dass die Software auf Scans auch etwas verwertbares erkennen kann.
Wenn du dir einen Scanner kaufen willst, dann einen CCD. Keinen CIS!

Hallo zusammen!

CCD spielt doch vorwiegend nur dann eine Rolle, wenn das zu scannende Objekt nicht plan aufliegt. Wie z.B. ein aufgeschlagenes Buch, welches gescannt werden soll. Oder?

Ansonsten denke ich auch, dass der Scanner (z.B. im Bereich Auflösung / DPI) und die Software wichtig sind.

Gruß Andi
 
Ich habe jetzt mal ( inspiriert durch halwe) erstmal meinen AIO "Brother MFC-J4510DW"
dafür benutzt ein paar Seiten zu scannen und ich habe erstmal One Note benutzt um einen Eindruck von den OCR-Erkennungsmöglichkeiten zu kriegen.

Ergebnis ist, dass er nicht alles richtig erfasst, aber ist das eigentlich nötig ?
Ich kann mir ja 2 oder 3 Suchbegriffe aussuchen oder ?

Hat jemand zu dem Thema Erfahrungen ?

Update: Habe es mal mit dem Adobe Acrobat Prof. versucht, dass klappt wunderbar, bloss ist das Prog. für den Zweck ein bisschen teuer.

grüsse
 
Zuletzt bearbeitet:
Zurück
Oben