Wie große Textdatei nach mehreren Kriterien durchsuchen und analysieren?

Bitte entschuldige die späte Antwort, ich war beruflich verhindert.

Danke für Deine Arbeit!

Bei mir sieht es so aus:

Code:
~/Schreibtisch/edit-wiki-dump/bin $ ./edit-wiki-dump -d data/
Daten-Verzeichnis '/home/andy_m4/Projekte/Programmierung/racket/edit-wiki-dump/data/' nicht gefunden.
  context...:
   edit-wiki-dump: [running body]
   loop

Was habe ich falsch gemacht?
 
Jetzt kann ich das Programm starten:

Code:
./edit-wiki-dump -d /home/shortrange/Schreibtisch/edit-wiki-dump/2/edit-wiki-dump/bin/ -i dewiki-20170201-pages-articles-multistream.xml 
Importiere 'dewiki-20170201-pages-articles-multistream.xml' ...
Import Wiki-Page: Alan Smithee
Import Wiki-Page: Actinium
Import Wiki-Page: Ang Lee
Import Wiki-Page: Anschluss (Soziologie)
Import Wiki-Page: Anschlussfähigkeit
Import Wiki-Page: Aussagenlogik
Import Wiki-Page: Autopoiese
Import Wiki-Page: A.A.
Import Wiki-Page: Liste von Autoren/A

etc. pp.

Die XML-Datei ist 1 GB groß und lädt jetzt schon ziemlich lange, vielleicht hätte ich eine kleinere Datei zum Testen verwenden sollen...
Auf jeden Fall kann ich sehen, das in dem entsprechenden Arbeitsordner die ursprüngliche XML-Datei aufgesplittet wird, sodass jede Seite (page) jetzt eine eigene XML-Datei hat. Stimmt das soweit?

PS: Aktuell sind es 81.400 Objekte in dem Arbeitsordner.
Ergänzung ()

Jetzt sind alle Seiten geladen. Der Ordner enthält jetzt insgesamt 83.435 Objekte. Die Suche nach dem Begriff "Test" hat 21508 Ergebnisse gebracht. Und mein X Server ist abgestürzt...

Ok, ich werde den Test nachher mit einer kleineren Datei nochmal probieren.

Vielen herzlichen Dank auf jeden Fall! Du hast mir wirklich einen großen Gefallen getan.
 
Zuletzt bearbeitet:
shortrange schrieb:
Auf jeden Fall kann ich sehen, das in dem entsprechenden Arbeitsordner die ursprüngliche XML-Datei aufgesplittet wird, sodass jede Seite (page) jetzt eine eigene XML-Datei hat. Stimmt das soweit?
Ja.

shortrange schrieb:
PS: Aktuell sind es 81.400 Objekte in dem Arbeitsordner.
Das ist ne Menge. Soviel hatte ich selbst bei einem großen Test nicht zusammen.

shortrange schrieb:
Jetzt sind alle Seiten geladen. Der Ordner enthält jetzt insgesamt 83.435 Objekte. Die Suche nach dem Begriff "Test" hat 21508 Ergebnisse gebracht. Und mein X Server ist abgestürzt...
An dem X-Server-Absturz sollte ich unschuldig sein.
 
Zurück
Oben