Volltextsuche für Scans

ludwigm

Ensign
Registriert
Jan. 2016
Beiträge
184
Hallo,
kann jemand eine Software empfehlen mit der eine Volltextsuche in Scans, die auf der Festplatte in einem Ordner (mit Unterordnern) abgespeichert sind, ermöglicht?
Software wie ecoDMS erfordert es, dass die Dateien ins Programm importiert werden müssen. So hat man entweder die Dateien nur in ecoDMS oder zweifach vorhanden.
 
  • Gefällt mir
Reaktionen: SmooTwo
Es gibt massig tesseract basierte OCR software. Die erkennt allen text in deinen dokumenten und integriert den text korrekt in die dokumente, oder speichert sie in eine getrennte textdatei.
 
  • Gefällt mir
Reaktionen: redjack1000, ludwigm, PHuV und eine weitere Person
Ich bin nicht so sehr vom Fach. Ich frage mich aber, und hoffe das geht klar, ob mit dieser Volltextsuche auch Dokumente ind Form eines Pdf-Scans gemeint sind.

Ich musste für meinen Arbeitgeber mal eine Datei mit über 100 Seiten Text nach ganz bestimmten Ziffer-Codes durchgehen und das war ne Sau Arbeit. Gibt es ein Programm, das mir diese Arbeit erleichtert hätte, und wenn ja, welches?

Beste Grüße
 
Copernic Desktop Search, allerdings kostet das OCR-Plugin gut.
Ich habe mal Acrobat 2017 in der EDU-Version gekauft, darüber mache ich immer OCR, daher brauche ich das Plug-In für Copernic nicht.

Mehrere Dateien durchsuchen kann man aber eben auch mit Acrobat.
 
Viele PDF Reader haben Suchfunktionen aber ob die zu 100 Prozent treffen ist das Problem

Ob die nun Adobe ... Sumatra oder foxit heißen
 
Oder deine Scansoftware hat bereits eine Option für durchsuchte pdf Dateien.
 
Sofern der Scan kein eingebetteten Textlayer hat muss dieser erst durch eine OCR Software (haben viele PDF Reader integriert, es gibt Tesseract basierte Lösungen etc) angelegt werden. Wichtig ist das dieser je nach Scan Qualität nicht zu 100% funktioniert und Fehler haben wird.
 
  • Gefällt mir
Reaktionen: ludwigm und SmooTwo
M-X schrieb:
Sofern der Scan kein eingebetteten Textlayer hat muss dieser erst durch eine OCR Software (haben viele PDF Reader integriert, es gibt Tesseract basierte Lösungen etc) angelegt werden. Wichtig ist das dieser je nach Scan Qualität nicht zu 100% funktioniert und Fehler haben wird.

Welche Software kann das z.B.? Gibt es auch kostenlose?
Ist es dann so, dass ausgehend von einer Datei scan.pdf die Software den Textlayer erstellt und der Datei hinzufügt und als scan.pdf die ursprüngliche Datei überschreibt?
Mit welchen Programmen (vllt sogar Windows Bordmitteln) kann man die Volltextsuche dann durchführen?
 
und einfach die PDF in Edge geöffnet und mal geschaut ob die Lupe den Text findet den man sucht ?

dann gibts sogar zeichen auf dem Scrollbalken wo und die anzahl wie oft es gefunden wird ..

Austesten sollte man einfach ..

1672503985698.png
 
Aus Neugier…

Was effektiv OCR-Fähiges muss ich denn unbedingt scannen um es dann »vom Rücken durch die Brust ins Auge« indexierfähig, also durchsuchfähig, zu machen?
Das müssen Massen sein, dass ich per Index durchsuchen lassen muss, statt vorher, wenn ich scanne, mit Ordnung (deswegen heißen die Dinger Ordner) dem effektiv vorzubeugen.
Habe ich denn einen Papier-»Müllberg« geerbt den ich digitalisieren muss, und dann noch indexierfähig? Dann sollte ich wirklich größer einsteigen.

Mir kommt es so vor, dass man sich erst ein Problem schafft um es dann mühsam zu lösen. Oder eben man muss tatsächlich groß einsteigen.

CN8
 
xxMuahdibxx schrieb:
und einfach die PDF in Edge geöffnet und mal geschaut ob die Lupe den Text findet den man sucht ?
Ich möchte ja in mehreren Dokumenten suchen
cumulonimbus8 schrieb:
Mir kommt es so vor, dass man sich erst ein Problem schafft um es dann mühsam zu lösen. Oder eben man muss tatsächlich groß einsteigen.

Man kann nie die Ordner so anlegen, dass alles immer gleich zu finden ist, denn jede Datei muss einmal zugeordnet werden. In DMS ist es ja teilweise üblich gar keine oder ganz wenige Ordner zu verwenden und nur noch über die Volltextsuche zu suchen. z.B. ecoDMS.
 
Tja - und wie bekommt man nun die Scans in das DMS? Die Katze beißt sich in den Schwanz.

Offen wäre woher all dieses Scans kommen… Ich haue keinen Stapel Papier(e) in einen automatische Einzug und ›gebe Feuer‹ um dann mit chaotischen Namen erst Unordnung (aka Chaos) zu erzugen, statt Kosmos indem ich vorher eingreife und dirigiere. 😉

CN8
 
Ich verstehe dich nicht ganz. Du wirst doch auch mal Rechnungen pp. bekommen.
Bei mir gibt es recht viel Schriftverkehr, du weißt ja auch nicht, wie er sein Leben führt.

Ich handhabe es mit Ordnerstrukturen, Dateinamen, OCR (!) und Copernic.

Grüße
 
Wie du selbst sagst - die PDFs die da so in die Welt geschickt werden sind besserer Digitalmüll(*): »Ja nicht durchsuchbar, da könnte man ja was rauskopieren!«. Und dann bleibt nur der Weg über OCR.

Ich habe nichts gegen PDF-Rechnungen e.t.c. Aber eventuell bin ich eben doof. Alles was in ein Kapitel gehört liegt in Ordnern. (Dateisystem oder Mail…) Und mit Metainformationen finde ich dadurch was ich brauche(*) - weil das auch sehr selten vorkommt. Ohne Metaindex, ohne durchsuchbare Kopien. Wobei ich OCR eh nicht in dem Maße traue wie es hier erforderlich wäre.

CN8

(*) Besonders gut ist darin eine staatlilche Stelle die dann auf Papierbriefe umsteigt - die sich zu 95% als effektiv inhaltslos erweisen. Rückverfolgung eines Falles? Aussichtslos.
 
cumulonimbus8 schrieb:
Tja - und wie bekommt man nun die Scans in das DMS?

So gut wie jedes DMS hat einen Import und/oder koennen vom Scanner direkt gefuettert werden.
Die Verschlagwortung kann manuell oder halt automatisch passieren.
 
  • Gefällt mir
Reaktionen: arktom
Zurück
Oben