Bei der Logdateianalyse wird die Logdatei eines Zeitraumes nach bestimmten Kriterien untersucht. Je nach Art und Umfang der Aufzeichnung der Logdatei kann man daraus verschiedene Schlüsse ziehen.
Inhaltsverzeichnis |
Bei aktuellen Computersystemen werden die unterschiedlichsten Systeme mitprotokolliert. Am häufigsten dürfte sicher die Analyse von Webserver-Logdateien sein, dicht gefolgt von Firewall-Logdateien.
Neben der Auswertung einzelner Dateien existiert quasi als Königsdisziplin die Korrelation unterschiedlicher Logdateien, insbesondere zur Fehleranalyse. Dabei ist es wichtig, dass die beteiligten Systeme alle Logeinträge mit einem Zeitstempel versehen und darüber hinaus die Uhren dieser Systeme nahezu synchron gehen. Hier empfiehlt sich der Einsatz eines Netzwerkzeitprotokolls wie NTP.
Beispiel für eine Korrelation von Logdateien und -einträgen wäre die Verbindung von Firewall-Logdatei und Routerlogdateien sowie Accountingdaten auf einem von einem Cracker kompromittierten System.
Die interpretierten Statistiken ermöglichen es, den Aufbau und die Struktur der Internetseite zu optimieren. Sie sind Grundlage für Benutzerfreundlichkeitsanalysen oder liefern Aussagen über den Erfolg einer Marketingaktion. Mit einer Analyse der Logdateien kann man ansatzweise Webcontrolling betreiben.
Das Hauptproblem der Logdateianalyse bei Webserver-Logdateien, ist die Tatsache, dass HTTP ein zustandsloses Protokoll ist. Das heißt, jede Anfrage eines Clients nach einer Webseite (oder jeder einzelnen darin vorkommenden Grafik usw.), ist für den Webserver eine eigenständige Aktion. Klickt sich der Benutzer durch eine Website, hat der Webserver keinerlei Kenntnis, dass der Benutzer gerade schon eine Seite abgerufen hat.
Um trotzdem ein zustandsbehaftetes HTTP zu ermöglichen, wird bei dynamisch erzeugten Webseiten gelegentlich beim ersten Aufruf des Benutzers eine so genannte Session-ID vergeben, die der Client dann bei den folgenden Anfragen immer mitsendet. Dies kann über einen Cookie oder einen an jeden URI zusätzlich angehängten Parameter erfolgen, wobei ein Cookie jedoch nicht in der Logdatei sichtbar ist und eine gesonderte Programmierung für die Logdateianalyse benötigt. Falls ein Cookie gesetzt werden kann (ist vom Client abhängig), ist auch eine spätere Wiedererkennung möglich, sofern der Cookie in der Zwischenzeit nicht verändert bzw. gelöscht wurde. Ansonsten können nur rein statistische Aussagen über die (wahrscheinlichen) Wiederkehrer einer Seite getroffen werden. Dies ist dann z.B. durch Kombinationen von gleicher IP-Adresse, Bildschirmauflösung, übereinstimmenden Plugins, usw. annähernd möglich, genau ist diese Methode aber nicht. Allerdings gibt es Untersuchungen zu Techniken, wie man einzelne Rechner anhand ihrer individuellen Gangungenauigkeit der Systemuhr wiedererkennen kann.
Eine andere im HTTP vorhandene Möglichkeit, einen Benutzer zu identifizieren, ist die Verwendung der IP-Adresse. Diese kann jedoch für viele unterschiedliche Benutzer dieselbe sein, wenn diese einen Proxyserver, Network Address Translation oder Ähnliches verwenden. Sie sind daher nur mit größter Vorsicht zu verwenden, da eine IP-Adresse nicht mit einem Benutzer gleichzusetzen ist.
Oftmals hat der Betreiber einer Webseite jedoch keinen Zugriff auf die Logdatei des Webservers, sodass häufig versucht wird, mittels Zählpixeln dennoch eine statistische Auswertung zu ermöglichen. Hierzu werden kleine unsichtbare (1×1 Pixel, transparent) Bilder in die Webseite eingebunden, die auf einem Webserver abgelegt werden, dessen Logdatei man auswerten kann.
Erweiterte Informationen, wie beispielsweise die Bildschirmauflösung oder eine Liste von installierten Webbrowser-Plugins werden auch gerne gewünscht, sind jedoch nicht in einer Logdatei enthalten. Diese Informationen werden dann üblicherweise mittels einer Client-seitigen Skriptsprache ermittelt, und ebenfalls mittels Zählpixel separat geloggt.
Datenschutztechnisch gibt es im Bereich der Erfassung von Zugriffen in Logdateien zur Zeit keine klare Richtung: Das LG Berlin (AZ 23 S 3/07) hat entschieden, dass die dauerhafte Speicherung von vollständigen IPs unzulässig ist. Andere möchten Webserver-Dienste unter den §11 III Telemediengesetz fassen. Damit würden die eingeschränkten Datenschutzregeln gelten und weitgehende Privilegien für den Dienstbetreiber des Webservers gelten.