Datenbank ist eine Möglichkeit, aber in heutzutage nicht unbedingt immer das erste Mittel der Wahl.Mindfork schrieb:Nun, so wie ich es den Aussagen hier entnehme wird es eine Option sein müssen. Die Herausforderung ist halt, dass wir das mit Minimalaufwand betreiben, da die Excel-Dateierstellung nebenbei läuft zwischen meinen anderen Aufgaben. Zumal ich bei Excel zumindest ein gewisses Grundverständnis habe und bei allem anderen absolut von 0 anfangen muss - wie Python.
Erst mal die Frage: von welchen Datenmengen reden wir bei den Rohdaten, Anzahl Spalten/Zeilen?
Grundsätzlich ist Excel irgendwann nicht mehr geeignet wenn die Datenmengen zu groß werden.
Deine Formeln sind KI generiertes „Kauderwelsch“. Funktioniert, aber schwer lesbar und entsprechend schlecht händisch zu optimieren. Aber man sieht in den Formeln sehr viel Logik („wenn“ Funktion) und viele Konvertierungen auf Textebene, dass ist tödlich für die Performance.
Wenn man in Excel bleiben will, dann ist der erste Schritt für die Aufbereitung der Rohdaten PowerQuery (integriertes Tool in Excel) zu nutzen, dort kann man filtern, Datentypen ändern, konvertieren, usw.
Der Vorteil ist, dass diese Funktionen dann pro Datensatz nur einmal beim Import ausgeführt werden. Excel Formeln werden oft wiederholt bei jeder Neuberechnung ausgeführt. PowerQuery ist auch leistungsfähiger und kann offiziell bis zu einer Million Zeilen importieren (inoffiziell sogar mehr).
Ausserdem kann man PowerQuery Abfragen später auch auf eine SQL Datenbank migrieren.
PowerQuery ist auch die Basis für Power BI, die Desktop Version davon ist kostenlos. Der Umstieg von Excel auf PowerBI ist anstrengend, weil ganz anderes Konzept. PowerBI eignet sich auch nicht für alles, wenn es darum geht sehr unregelmäßige Tabellen mit sehr dynamischen Inhalten aufzubereiten, ist Excel flexibler. Für Fortgeschrittene bietet sich PowerBI „dax“ Formelsprache an, allerdings ist die recht gewöhnungsbedürftig und mit DAX Formeln kann man Stunden verbringen….
Wenn Du den Code aber sowieso mit KI erstellst, kannst Du auch Python und Pandas verwenden. Gängige KIs erstellen recht guten Python Code, den kann man dann auch debuggen und profilen (analysieren wo die Rechenzeit verbraucht wird, und dann gezielt dort optimieren). Das ist der generelle Vorteil wenn man „richtige“ Programmiersprachen verwendet, man hat Tools um den Code zu analysieren, zu verstehen und Fehler zu finden. Excel oder DAX Formeln sind oft nur durch zeitaufwendiges Trial and Error zu debuggen.
PowerQuery nutzt dann übrigens (sowohl in Excel wie in PowerBI) eine weitere Formelsprache (PowerM Query). Wenn man dann vielleicht irgendwann noch einen SQL Server im Hintergrund hat, hat man fünf Sprachen (SQL, PowerM, DAX, Excel, VBA) wenn man den Microsoft Tool „Zoo“ benutzt. In meinem letzten kam dann noch PowerShell dazu, um die externen Daten in eine Azure SQL Datenbank zu füllen.
Da ist Python/Pandas wesentlich weniger fragmentiert.