- Logfile-Analyse
-
Bei der Logdateianalyse wird die Logdatei eines Zeitraumes nach bestimmten Kriterien untersucht. Je nach Art und Umfang der Aufzeichnung der Logdatei kann man daraus verschiedene Schlüsse ziehen.
Inhaltsverzeichnis
Unterschiedliche Arten von Logdateien
Bei aktuellen Computersystemen werden die unterschiedlichsten Systeme mitprotokolliert. Am häufigsten dürfte sicher die Analyse von Webserver-Logdateien sein, dicht gefolgt von Firewall-Logdateien.
Korrelation von Logdateien
Neben der Auswertung einzelner Dateien existiert quasi als Königsdisziplin die Korrelation unterschiedlicher Logdateien, insbesondere zur Fehleranalyse. Dabei ist es wichtig, dass die beteiligten Systeme alle Logeinträge mit einem Zeitstempel versehen und darüber hinaus die Uhren dieser Systeme nahezu synchron gehen. Hier empfiehlt sich der Einsatz eines Netzwerkzeitprotokolls wie NTP.
Beispiel für eine Korrelation von Logdateien und -einträgen wäre die Verbindung von Firewall-Logdatei und Routerlogdateien sowie Accountingdaten auf einem von einem Cracker kompromittierten System.
Analyse von Webserver-Logdateien
Die interpretierten Statistiken ermöglichen es, den Aufbau und die Struktur der Internetseite zu optimieren. Sie sind Grundlage für Benutzerfreundlichkeitsanalysen oder liefern Aussagen über den Erfolg einer Marketingaktion. Mit einer Analyse der Logdateien kann man ansatzweise Webcontrolling betreiben.
Einige mögliche Fragestellungen
- Wie lauten IP-Adresse und Hostname des Nutzers?
- Welchen Browser hat er genutzt?
- Auf welcher Seite stand der Link, mit dem der Nutzer auf die Seite gekommen ist?
- Welche Suchmaschine und welche Suchwörter hat er genutzt?
- Wie lange blieb er auf der Website?
- Wie viele Seiten ruft er dabei auf?
- Auf welcher Seite hat er die Website verlassen?
- Welche Ergänzungsmodule hat er installiert?
- Welches Betriebssystem nutzt er?
- Welche Internetseiten hat Mitarbeiter Mustermann während der Arbeitszeit besucht? (hier muss in der Regel der Betriebsrat einbezogen werden)
Probleme bei der Analyse
Das Hauptproblem der Logdateianalyse bei Webserver-Logdateien, ist die Tatsache, dass HTTP ein zustandsloses Protokoll ist. Das heißt, jede Anfrage eines Clients nach einer Webseite (oder jeder einzelnen darin vorkommenden Grafik usw.), ist für den Webserver eine eigenständige Aktion. Klickt sich der Benutzer durch eine Website, hat der Webserver keinerlei Kenntnis, dass der Benutzer gerade schon eine Seite abgerufen hat.
Um trotzdem ein zustandsbehaftetes HTTP zu ermöglichen, wird bei dynamisch erzeugten Webseiten gelegentlich beim ersten Aufruf des Benutzers eine so genannte Session-ID vergeben, die der Client dann bei den folgenden Anfragen immer mitsendet. Dies kann über einen Cookie oder einen an jeden URI zusätzlich angehängten Parameter erfolgen, wobei ein Cookie jedoch nicht in der Logdatei sichtbar ist und eine gesonderte Programmierung für die Logdateianalyse benötigt. Falls ein Cookie gesetzt werden kann (ist vom Client abhängig), ist auch eine spätere Wiedererkennung möglich, sofern der Cookie in der Zwischenzeit nicht verändert bzw. gelöscht wurde. Ansonsten können nur rein statistische Aussagen über die (wahrscheinlichen) Wiederkehrer einer Seite getroffen werden. Dies ist dann z.B. durch Kombinationen von gleicher IP-Adresse, Bildschirmauflösung, übereinstimmenden Plugins, usw. annähernd möglich, genau ist diese Methode aber nicht. Allerdings gibt es Untersuchungen zu Techniken, wie man einzelne Rechner anhand ihrer individuellen Gangungenauigkeit der Systemuhr wiedererkennen kann.
Eine andere im HTTP vorhandene Möglichkeit, einen Benutzer zu identifizieren, ist die Verwendung der IP-Adresse. Diese kann jedoch für viele unterschiedliche Benutzer dieselbe sein, wenn diese einen Proxyserver, Network Address Translation oder Ähnliches verwenden. Sie sind daher nur mit größter Vorsicht zu verwenden, da eine IP-Adresse nicht mit einem Benutzer gleichzusetzen ist.
Oftmals hat der Betreiber einer Webseite jedoch keinen Zugriff auf die Logdatei des Webservers, sodass häufig versucht wird, mittels Zählpixeln dennoch eine statistische Auswertung zu ermöglichen. Hierzu werden kleine unsichtbare (1×1 Pixel, transparent) Bilder in die Webseite eingebunden, die auf einem Webserver abgelegt werden, dessen Logdatei man auswerten kann.
Erweiterte Informationen, wie beispielsweise die Bildschirmauflösung oder eine Liste von installierten Webbrowser-Plugins werden auch gerne gewünscht, sind jedoch nicht in einer Logdatei enthalten. Diese Informationen werden dann üblicherweise mittels einer Client-seitigen Skriptsprache ermittelt, und ebenfalls mittels Zählpixel separat geloggt.
Datenschutztechnisch gibt es im Bereich der Erfassung von Zugriffen in Logdateien zur Zeit keine klare Richtung: Das LG Berlin (AZ 23 S 3/07) hat entschieden, dass die dauerhafte Speicherung von vollständigen IPs unzulässig ist. Andere möchten Webserver-Dienste unter den §11 III Telemediengesetz fassen. Damit würden die eingeschränkten Datenschutzregeln gelten und weitgehende Privilegien für den Dienstbetreiber des Webservers gelten.
Programme zur Logdateianalyse einer Website
- freie Software (Open Source)
- kostenlose Programme
- HTTP LogStat
- Funnel Web Analyzer
- PrimaWebtools
- Web Entry Miner WEM
- kommerzielle Anbieter/Programme
- aconon® Web-Controlling
- APAGO®
- CounterLabs®
- ECONDA
- EXAConsult MBIS
- Intares-MQS Web Mining
- LFApro
- Mescalero
- NetMind
- NetTracker
- netUpdater® LIVE
- SAS® Web Analytics
- ShopStat
- W3 Statistics (kostenlose Version erhältlich)
- WiredMinds
- WebReflow (kostenlose Version erhältlich)
- WebSpy
- WebTrends
- Produkt-Verzeichnisse
- deutschsprachig auf web-analytics.org
- englischsprachig von Terry Lund
Einzelnachweise
Literatur
- Bensberg, Frank: „Web Log Mining als Instrument der Marketingforschung – Ein systemgestaltender Ansatz für internetbasierte Märkte.“ Wiesbaden 2001 – ISBN 3-8244-7309-7
- Heindl, Eduard: Logfiles richtig nutzen. Webstatistiken erstellen und auswerten. Galileo Press 2003, Bonn – ISBN 3-89842-401-4
- Kimball, R. / Merz, R.: The Data Webhouse Toolkit. New York et al. 2000.
- Lutzky, C. / Teichmann, M.-H.: Logfiles in der Marktforschung: Gestaltungsoptionen für Analysezwecke. Jahrbuch der Absatz- und Verbrauchsforschung, 48. Jahrgang, 2002, Seiten 295–317.
- Massand, B. / Spiliopolou, M.: Web Usage Analysis and User Profiling. Berlin et al. 2000.
Weblinks
Wikimedia Foundation.