Falc410
Vice Admiral
- Registriert
- Juni 2006
- Beiträge
- 6.902
Wahrscheinlich das falsche Forum aber auch mit Google, Stackoverflow etc komme ich gerade nicht viel weiter.
Ich habe große (5-10GB) CSV Dateien die ich einlesen und in einer Datenbank ablegen möchte. Hierfür habe ich mir mal ein Python Script geschrieben als Proof-of-Concept mit Django. Ich muss ungefähr 60.000 Zeilen pro Sekunde verarbeiten können.
Bei jeder Zeile passiert zuerst ein Query ob das Object schon in der Datenbank ist, wenn nicht, dann wird es angelegt (Insert), andernfalls wird es geladen, die Werte werden erhöht und das Objekt mit einem Update wieder zurück. Pro Zeile befinden sich 2 Objekte, d.h. ich habe insgesamt 4 Datenbankoperationen pro Zeile - somit wäre ich sogar eher bei 200k Inserts / Updates pro Sekunde.
Nun habe ich aber keine Ahnung mit was ich das am Schluss umsetzen soll. Insgesamt rechne ich später mit max 250.000.000 Objekten in der Datenbank.
Zählt das schon als Big Data?
Wahrscheinlich nicht. Wie dem auch sei, ich hätte gerne etwas was ich über mein Python Script (multi-threaded) befüllen kann. Mit MySQL hab ja schon Probleme mit Locking etc. Hatte auch an Sachen wie InfluxDB gedacht. Jemand eine Idee?
Ich habe große (5-10GB) CSV Dateien die ich einlesen und in einer Datenbank ablegen möchte. Hierfür habe ich mir mal ein Python Script geschrieben als Proof-of-Concept mit Django. Ich muss ungefähr 60.000 Zeilen pro Sekunde verarbeiten können.
Bei jeder Zeile passiert zuerst ein Query ob das Object schon in der Datenbank ist, wenn nicht, dann wird es angelegt (Insert), andernfalls wird es geladen, die Werte werden erhöht und das Objekt mit einem Update wieder zurück. Pro Zeile befinden sich 2 Objekte, d.h. ich habe insgesamt 4 Datenbankoperationen pro Zeile - somit wäre ich sogar eher bei 200k Inserts / Updates pro Sekunde.
Nun habe ich aber keine Ahnung mit was ich das am Schluss umsetzen soll. Insgesamt rechne ich später mit max 250.000.000 Objekten in der Datenbank.
Zählt das schon als Big Data?