Hallo.
Ich schreibe gerade meine Masterarbeit (Uni, Angewandte Informatik), welche ich diesen Monat abgeben werde.
Meine Aufgabe bestand u.a. darin, einige Algorithmen zu entwickeln, um bestimmte Informationen aus größeren Datenquellen zu extrahieren.
Die Datenquellen liegen mir als JSON und CSV vor, können aber in jedes beliebige Format konvertiert werden.
Auf meine Testdaten, die eher klein sind, lassen sich die Algorithmen erfolgreich anwenden, mein PC bekommt allerdings schon Probleme, wenn ich die Daten auf 300 Zeilen erhöhe. Nach mehreren Minuten wird er sehr langsam, bis er sich sogar aufhängt. Sinnvolles Testen mit unterschiedlichen Parametern wird somit unmöglich. Besonders, wenn man berücksichtigt, dass die realen Daten über 100.000 Zeilen lang sind.
Mit meinem Betreuer haben wir meine Algorithmen bereits begutachtet und etwas verbessert. Auch alleine habe ich bereits mehrere Wochen damit verschwendet, sie noch effizienter zu implementieren. Wirklich geholfen hat es nicht.
Die Zeit drängt allerdings. Nun mache ich mir Sorgen, dass ich nicht viel zur Evaluation schreiben werde, was das wichtigste Kapitel meiner Thesis darstellt.
Nur 300 Zeilen zu evaluieren macht wenig Sinn, wenn die realen Daten über 100.000 Zeilen haben.
Klar, man könnte die Algorithmen wochenlang verbessern und evtl. über Multithreading nachdenken, dies war jedoch nicht Teil meiner Aufgabe und am Anfang auch noch nicht ersichtlich.
PS: Es handelt sich um mehrere Funktionen mit verschachtelten Schleifen, die jeweils über die ganzen Daten laufen. Da es eine Webanwendung ist, kann es nur im Browser ausgeführt werden.
Hat jemand einen Tipp? Es wäre nämlich schade, an der Performance zu scheitern.
Danke!
Ich schreibe gerade meine Masterarbeit (Uni, Angewandte Informatik), welche ich diesen Monat abgeben werde.
Meine Aufgabe bestand u.a. darin, einige Algorithmen zu entwickeln, um bestimmte Informationen aus größeren Datenquellen zu extrahieren.
Die Datenquellen liegen mir als JSON und CSV vor, können aber in jedes beliebige Format konvertiert werden.
Auf meine Testdaten, die eher klein sind, lassen sich die Algorithmen erfolgreich anwenden, mein PC bekommt allerdings schon Probleme, wenn ich die Daten auf 300 Zeilen erhöhe. Nach mehreren Minuten wird er sehr langsam, bis er sich sogar aufhängt. Sinnvolles Testen mit unterschiedlichen Parametern wird somit unmöglich. Besonders, wenn man berücksichtigt, dass die realen Daten über 100.000 Zeilen lang sind.
Mit meinem Betreuer haben wir meine Algorithmen bereits begutachtet und etwas verbessert. Auch alleine habe ich bereits mehrere Wochen damit verschwendet, sie noch effizienter zu implementieren. Wirklich geholfen hat es nicht.
Die Zeit drängt allerdings. Nun mache ich mir Sorgen, dass ich nicht viel zur Evaluation schreiben werde, was das wichtigste Kapitel meiner Thesis darstellt.
Nur 300 Zeilen zu evaluieren macht wenig Sinn, wenn die realen Daten über 100.000 Zeilen haben.
Klar, man könnte die Algorithmen wochenlang verbessern und evtl. über Multithreading nachdenken, dies war jedoch nicht Teil meiner Aufgabe und am Anfang auch noch nicht ersichtlich.
PS: Es handelt sich um mehrere Funktionen mit verschachtelten Schleifen, die jeweils über die ganzen Daten laufen. Da es eine Webanwendung ist, kann es nur im Browser ausgeführt werden.
Hat jemand einen Tipp? Es wäre nämlich schade, an der Performance zu scheitern.
Danke!