Pfad mit vielen PDFs durchsuchen

melloo

Lieutenant
Registriert
Jan. 2007
Beiträge
531
Moin,

ich möchte bis zu 500 PDF-Dateien gleichzeitig durchsuchen. Die erweiterte Suche im Acrobat Reader ist mehr als langsam. Die Anzeige von PDF und Stelle in der PDF, in der das gesuchte Wort auftaucht, sagt mir jedoch zu.

Welche Programme benutzt ihr für so eine Aufgabe? Vorschläge?

Grüße
 
Mar1u5 schrieb:
Der Windows Explorer kann PDFs durchsuchen
Die Suche ist zwar schnell, jedoch werden mir nur die Dateien angezeigt, in denen das gesuchte Wort vorkommt. Keine Vorschau, keine Angabe der Stelle. Heißt alle PDFs öffnen und nochmal durchsuchen. Umständlich.

@cartridge_case, Windwos 10 ist auf einer SSD installiert, der Ordner mit den PDFs liegt auf einem Server und dort auf einer HDD.

Sicherlich eine ordentliche Aufgabe. Die Windows-Suche ist allerdings fix, von daher gibt es doch sicherlich ein Programm, das zusätzlich noch eine kleine Vorschau der Trefferstellen anzeigt.
 
Ich empfehle Agent Ransack
Agent Ransack.png
 
  • Gefällt mir
Reaktionen: c9hris
Vielleicht für deinen usecase zu umständlich:
Eine Möglichkeit wäre ein kleines DMS lokal zu installieren und als Suchtool zu zweckentfremden. Ich habe mal eine zeitlang mit der kostenlosen Variante von bitfarm rumprobiert allerdings aus anderen Gründen. Es dauert zwar ein wenig, bis die PDFs eingelesen sind, aber die Texterkennung war überraschend gut und extrem schnell.
 
@cartridge_case, gerade mal den Test via Acrobat Reader gemacht:

Suche auf HDD im Netzwerk: 6 min
Suche auf OS-SSD: 6 min

Kein Unterschied.

@Demon_666, nette Idee, aber zu umständlich.
 
@Ponderosa, superschnelle Suche (24 Sekunden), detaillierte Auflistung der Stellen, in denen das gesuchte Wort auftaucht, allerdings kein direkter Sprung zu der Textstelle möglich. Vielleicht finde ich die Einstellung auch nicht ;).

Alle Tests habe ich mit ca. 40 PDFs durchgeführt. Entspricht um die 130 MB.
 
Zuletzt bearbeitet:
Der Foxit Reader ist deutlich schneller und super zu bedienen. Auf die Masse an PDFs gesehen aber immer noch recht langsam. Vielleicht muss ich mich damit einfach abfinden.

1:30 min (lokal)
1:40 min (Server)

pseudopseudonym, gibt's nicht für Windows10.
 
  • Gefällt mir
Reaktionen: cartridge_case
melloo schrieb:
detaillierte Auflistung der Stellen, in denen das gesuchte Wort auftaucht, allerdings kein direkter Sprung zu der Textstelle möglich.
Etwas umständlich vielleicht Ja.
Ich habe hier in .pdf nach Windows Rechnern gesucht.
Das wurde zb. Jörg Schieb.pdf gefunden. Da klickt man in Agent Ransack die .pdf an und sie öffnet sich in Foxit Reader (oder anderen) und gibt nur nochmal in Suche "Windows-Rechner" ein.
Agent Ransack Schieb Windows.png
 
Eine schnelle Suche so vieler pdfs geht am Besten über deren Einbeziehung in die Indexierung der Windows Suche.
Wenn das im Netzwerklaufwerk nicht geht, kannst du die "Offline-Kopie" aktivieren (rechte Maustaste auf Verzeichnis und "immer offline verfügbar"), dann klappts auch mit dem Index, da in einer lokalen Synchronkopie gesucht wird.
Die Vorschau ist im Windows-Explorer bzw. im Suchergebnisfenster schon eingebaut und wird über Alt-P aufgerufen.
 
Danke dafür. Entspricht dann ja dem Vorgehen bei der Windows-Suche. Ist nicht das, was ich suche. Danke trotzdem :).

Bzgl. SSD-/HDD-Geschwindigkeit: Kann es mir auch nicht erklären. Vielleicht eine softwareseitige Bremse?

Werde vorerst den Foxit Reader nutzen. Halte den Thread jedoch im Auge, falls jemand eine schnellere Lösung vorschlägt ;).

Ich danke euch.
Ergänzung ()

halwe, eine offline Kopie ist nicht gewünscht. Möchte den Ordner bzw. die PDFs im Netzwerk durchsuchen. Die Windows Suche funktioniert wie gesagt sehr schnell.
In der Vorschau im Explorer kann ich nichts suchen. Dafür müsste ich die Datei wieder öffnen. Auch wenn eine Suche in der Explorer-Vorschau möglich ist, wären es wieder zwei Schritte (1. Suche im Ordner, 2. Suche in der Datei). Bei Acrobat und Foxit Reader ist das eleganter gelöst.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: cartridge_case
melloo schrieb:
Entspricht dann ja dem Vorgehen bei der Windows-Suche.
Nicht ganz, denn mit der normalen Windows-Suche kannst du keine Netzwerklaufwerke indizieren und wirst deshalb bei den pdf's immer lange Wartezeiten haben. Über die "Offline-Kopie" kriegst du das Suchergebnis quasi sofort, wenn du die Offline-Kopien in die Indizierung einbeziehst. Vom Handling des Verzeichnisses merkst du ansonsten keinen Unterschied.

Überigens: Der Reader macht auch eine eigene Indizierung. Ich merke das daran, dass Dateien, die ich einmal durchsucht hatte, beim nächsten Mal viel schnelle durchsucht werden.
 
  • Gefällt mir
Reaktionen: melloo
halwe schrieb:
Überigens: Der Reader macht auch eine eigene Indizierung. Ich merke das daran, dass Dateien, die ich einmal durchsucht hatte, beim nächsten Mal viel schnelle durchsucht werden.
Tatsache. Bei einem erneuten Lauf wurden die Suchergebnisse sehr schnell ausgespruckt. Für neu hinzugefügte PDFs brauchte der Acrobat Reader dann wieder deutlich mehr Zeit.

Bei Gelegenheit mal testen, ob die Indizierung auch für alle Benutzer des PCs gilt. Das wäre noch das i-Tüpfelchen :).
 
Noch ein Hinweis:
Sofern der Reader, den du nutzt, das nicht automatisch macht: Alle pdfs sollten mindestens aus durchsuchbaren Bildern (so nennt das Adobe, meine ich mich zu erinnern). Reine Bild-PDFs fallen normalerweise bei solchen Durchsuchungsaktionen systembedingt raus.
Aber vielleicht sind ja alle Quell-PDFs textdurchsuchbar.
 
Zurück
Oben