Volltextsuche über Dokumentenarchiv

/root

Lt. Commander
Registriert
Okt. 2007
Beiträge
1.285
Hallo,

Seit einigen Jahren verwahre ich den Großteil meiner privaten Dokumente digital.
Bin damit grundsätzlich sehr zufrieden, eine Feature fehlt mir jedoch: Volltextsuche über mein ganzes Archiv.

Habe auch eine Zeit lang überlegt ein DMS einzusetzen, aber bin zum Entschluss gekommen dass das einfach Overkill ist für den Bedarf einer Privatperson.

Habt ihr einen Vorschag wie ich (halbwegs performant) ein Archiv mit mehreren hundert Dokumenten durchsuchen kann?
Erfahrungswerte eventuell?
Adobe Acrobat DC und Foxit können das angeblich, aber das dürfte wohl nicht indiziert sein und ob das dann sinnvoll ist.
Dokumente liegen auf einer SSD mit i7-4790k CPU + Win10 also an der Hardware Performance sollte es nicht scheitern.

Der nächste Punkt ist dass meine OCR PDFs mit Adobe Acrobat Zertifikatsverschlüsselung geschützt sind, müsste also vermutlich auch mein Archiv umstellen d.h. will ich mir das vorher genau überlegen.


LG
 
Nun ja, warum sicherst Du nicht deine Dokumente im .docx-Format ? Dann kannst Du sie doch einfach in jeder Richtung durchsuchen !
 
Zuletzt bearbeitet:
Wenn man ein Dokumente einscannt ist das Umwandeln in DOCX doch eher unpraktisch, oder?
Geht das überhaupt und wie? OCR Unterstützung?
 
ICh setze dafür Seafile in der Pro-Version ein. Ist für 3 USer kostenlos und man kann eine Volltextsuche über Elastic Search aktivieren. Wie es auf Windows funktioniert kann ich dir allerdings nicht sagen da ich einen Linuxserver habe. Ist zwar eher eine Cloud-Collaboration Software. Aber für mich tuts das.
 
/root schrieb:
Wenn man ein Dokumente einscannt ist das Umwandeln in DOCX doch eher unpraktisch, oder?
Geht das überhaupt und wie? OCR Unterstützung?

Nö, die meisten PDF-Programme (Nitro Reader / PDF-Annotator etc.) speichern geöffnete PDF-Datein auch als MS-Word-Word-Dateien ab; ein PDF-Programm ist aber gar nicht mal nötig, denn MS-WORD öffnet auch PDF-Dateien, die man dann als .docx abspeichern kann; einfacher gehts wohl kaum !
 
Wenn man ein Dokumente einscannt ist das Umwandeln in DOCX doch eher unpraktisch, oder?
Geht das überhaupt und wie? OCR Unterstützung?
2. allem was OCR ist traue ich nicht weil mich Ergebnisse davon überzeugen.
1. kann ich durchus nach DOC oder DOCX scannen - was OCR implementiert.
0. Bilder kann ich keiner Textsuche unterwerfen.

Warum habe ich so einen Datenbestand (Datenwust) den ich nach irgendwas global durchsuchen müsste. Wer Ordnung (Ordner…) hält ist zu faul zum Suchen.
Wenn ich OCR vertraue (ich nicht… → PDF als Bild, wohl oder übel) dann sollte ich Rechnungen scanne dann landen die in einem Ordnerast den ich mit Primitiven Tools wie FileLocatorLite angehen kann. Mehr wäre für mich der Eingangs besagte Overkill. Und was müsste ich so oft suchen?

CN8
 
Also Jungs, mal ehrlich, ein Dokumentenarchiv als .docx ablegen, nur damit man es durchsuchen kann?
Ich scanne alles mit Paperport (ein Programm, dass den Brother AIOs in der Light Variante beigelegt wird). Damit kann man dann beim Scannen oder auch nachträglich OCR über die pdfs laufen lassen und sie werden indexierbar. Praktischerweise liefert Paperport auch einen "PDF Professional Filter" mit, der dann in die Windows Indexierung eingebunden wird.
Diese sollte aber auch ohne diesen Filter indexieren können, indem der Adobe-Standard-Filter eingesetzt und in der Indexierung auf Inhaltssuche eingestellt wird.
Für 64bit Systeme muss man da wohl noch einen extra Filter von Adobe herunterladen, "PDFFilter64Setup.msi".

Viele Grüße, Halwe
 
@ halwe

Was hast Du denn für ein Problem mit .docx ? Es geht hier ja auch offensichtlich um private Dokomente, die vermutlich auch mit Word erstellt werden. Jedenfalls hat der TE zu keinem Zeitpunkt gesagt, dass es sich bei seinem Archiv vorwiegend um PDFs handelt. Wenn dem aber so wäre, wäre es wahrscheinlich vernünftiger, gleich zum ADOBE Reader zu greifen, denn sich mit Schriftenerkennungsprogrammen rumzuärgern, wäre ja noch mal ein ganz anderes Thema !
 
Zuletzt bearbeitet:
Ich verwende OCR von Adobe Acrobat und das funktioniert ausgezeichnet! Man kann sich ziemlich drauf verlassen das alles als Text in den Metadaten vorhanden ist, für die Suche auf jedenfall ausreichend. Aber selbst wenn OCR Text schlechte wäre ist es immer noch besser als gar nichts weil nach einem Bild kann man nicht suchen.

Momentan halte ich sehr wohl Ordnung über die Ordnerstruktur, es haben sich nur mittlerweile schon über 800 Dokumente angesammelt und da wird es langsaman unübersichtlich, zum Beispiel: liegt der Vertrag über die Haushaltsversicherung jetzt im Ordner "Versicherungen" oder "Wohnen"? Da würde ich einfach gerne nach einem Schlagwort suchen und fertig.

Mein Dokumentenarchiv besteht zu 90% aus PDFs, wenn es keinen guten Grund gibt würde ich gerne dabei bleiben.

Ich würde ja sofort eine Adobe Acrobat DC nehmen aber die Preise sind ja abartig :freak:
Momentan verwende ich eine gecrackte Version, das möchte ich aber loswerden, schon alleine wegen der Sicherheitsupdates.

Ich habe beim Googeln die Suchfunktion "Suchen in" entdeckt vom Acrobat, damit kann man mehrere PDFs in einem Ordner durchsuchen, das dauert bei mir ca 1 Minute über alle Dokumente. Eigentlich auch OK. Durch die Zertifikatsverschlüsselung muss ich auch kein Passwort eintippen bei jedem Dokumente, das geht transparent.

Foxit PhantomPDF wäre auch noch eine alternative, aber auch nicht gratis. Von der Software weiß ich auch nicht ob OCR so gut funktioniert.
 
Zuletzt bearbeitet:
/root schrieb:
Ich habe beim Googeln die Suchfunktion "Suchen in" entdeckt vom Acrobat, damit kann man mehrere PDFs in einem Ordner durchsuchen, das dauert bei mir ca 1 Minute über alle Dokumente. Eigentlich auch OK. Durch die Zertifikatsverschlüsselung muss ich auch kein Passwort eintippen bei jedem Dokumente, das geht transparent.
Und die Windows-Indexierung kriegst du nicht zum Laufen? Woran hapert es? Was steht bei pdf in den Indexierungseinstellungen?

Mein Archiv auf dem NAS hat 11.000 Dateien, meist pdf inkl. OCR, so wie sie der Scanner liefert, da wäre die eingebaute pdf-Suche ein lahmes Pferd.
 
Hab gerade die Windows Suche getestet: hat nichts gefunden in meinem verschlüsselten PDF Dokument

control.exe srchadmin.dll gestartet und unter Dateitypen stand bei PDF "Der registrierte iFilter wurde nicht gefunden"
Scheint wohl das 64 Bit Problem zu sein
=> PDF iFilter von Adobe runtergeladen und installiert
=> Fehler ist weg

Hab jetzt auch die Option "verschlüsselte Dateien indizieren" aktiviert, sonst wird der Indexierer wohl nicht an den Inhalt der PDFs kommen?
Index wird gerade neu erstellt, werde dass dann testen
 
Verschlüsselte pdfs habe ich aus, befürchte, dass er mich sonst nach Schlüsseln fragt, während er indiziert.
Die Funktion der Indizierung habe ich getestet, indem ich erst mal nur ein kleines Verzeichnis eingetragen habe und diese Inhaltssuche getestet habe.
Netzwerklaufwerke muss man wohl als Offlinekopien einrichten, damit der sie durchsuchst.
 
Wie wäre es, wenn Du Deine Dateien einmal mit formatierten Dateinamen versehen würdest ?

Meine Dateinamen gebe ich vor dem Abspeichern immer das Format < Datum.Inhalt >

i.d.: 2017-07-29-01.Volltextsuche im Forum

Mit der Suche im Windows Dateimanager finde ich eigentlich immer völlig problemlos und schnell, das, wonach ich suche !
 
Windows Indizierung hat leider nicht geklappt, ich befürchte mit Zertifikatsverschlüsselung kommt der nicht zurecht :(

Meine Dateinamen gebe ich vor dem Abspeichern immer das Format < Datum.Inhalt >
Mache ich jetzt auch schon, funktioniert nicht schlecht aber nach einigen Jahren weiss man oft nicht mehr genau wie man was benannt hat und wo es überhaupt enthalten sein soll d.h. Volltextsuche ist einfach praktischer
 
Ich lege meine Dokumente auch immer themenspezifisch ab, also zum Beispiel im Ordner Privat mit Unterordnern beispielsweise Briefwechsel, Bilder, Videos und dann weitere Unterordner beispielsweise in Briefwechsel die Ungterordner A bis Z usw. und unter A dann zum Beipiel für die Briefempfänger wiederum Unterordner mit den verschiedenen Namen usw.usf. !

Ich habe meine heute kaum mehr zählbaren Dokumente so seit zwei Jahrzehnten aufgebaut und habe im Grunde kaum mal ein Problem, die schnell wiederzufinden, wobei mir, wie gesagt, der Windows Explorer auch meist ausreicht, zumal ich meine Dateien fast alle im Word-Fomat speichere und der Windows Explorer dann ja sogar Inhalte durchsuchen kann.
 
Was heißt Zertifikatsverschlüsselung?
Hast du mal probiert ein einzelnes Verzeichnis mit einfachen pdfs zu indizieren? In den Indexierungseinstellungen (Systemsteuerung) kannst du ja alles einstellen.

Wenn die anderen irgendwie verschlüsselt sind, könntest du sie immer noch auf den pdf-Drucker deines Vertrauens ziehen und quasi umcoden.

Und, Dateinamen, bei einer echten Dokumentenablage ist die Inhaltssuche eben ein wichtiges Feature. So hübsch sprechende Dateinamen und Ordnerstrukturen sind, die ich auch verwende, manchmal sucht man in den Kontoauszügen nach eine Buchung oder in den Abrechnungen nach einen Betrag. Selbst primitives OCR eingescannter Dokumente ist da meist schon völlig ausreichend.
 
Ja klar, das kann man aber einfacher machen: der Nitro-PDF Reader (kostenlos downloaden) und anderee Programm geben unkompliziert PDF Dateinen als einfach editierbare Textdateien aus. Man sollte ja immer bedenken, dass der TE hier keine vollprofessionelle Lösung sucht !
 
Zuletzt bearbeitet:
halwe schrieb:
Was heißt Zertifikatsverschlüsselung?
Die PDFs werden mit einem Zertifikat ver- und entschlüsselt das im Windows Zertifikatsspeicher liegt (siehe adobe link)
Hat den Vorteil das die Verschlüsselung vollkommen transparent für mich passiert, ich öffne ein PDF und brauche kein Passwort eintippen. Man muss nur einmalig das Zertifikat importieren am PC.

Falls sich eine bessere Lösung bietet kann ich die PDFs einfach über die Acrobat Software entschlüsseln/umwandeln (Aktionsassistent).

Bezüglich Nitro-PDF Reader: Wie genau hilft mir die Textausgabe von PDFs? Ohne Indizierung durchsuchen kann ich ja mit Acrobat und Foxit.

Unverschlüsselte PDFs indizieren hat funktioniert! Gerade getestet. Nur leider möchte ich in dieser Form meine Dokumente nicht in die Cloud schieben :(

Eventuell ist die einfachste Lösung für mich diese simple Durchsuch-Funktion, ist zwar leider nicht indiziert aber irgendwie gehen mir die Ideen aus.
 
Ja, ok, cloud. ...
Ich bin seeehr zurückhaltend, was das angeht.

Ich habe auf dem NAS Laufwerk die ggf. mobil benötigten Verzeichnisse gekennzeichnet und synce die per MyPhoneExplorer im WLAN auf die Speicherkarte des Handy.
 
Zurück
Oben