Logfile-Analyse

Aus EvaluationInfosysteme

Wechseln zu: Navigation, Suche

Die Logfile-Analyse ist eine spezielle Methode der Beobachtung des Verhaltens von Internet-Nutzern. Die Nutzungsprotokolle eines WWW-Servers werden detailliert ausgewertet.

Inhaltsverzeichnis

[Bearbeiten] 1 Beschreibung

Darstellung eines Logfiles

[Bearbeiten] 1.1 Technische Grundlagen

HTTP-Server (Webserver) können sämtliche an sie gestellten Anfragen (Requests) protokollieren. Folgende Daten können dabei immer aufgezeichnet werden:

  • URL der abgerufenen Datei
  • Datum
  • Uhrzeit
  • Adresse des anfragenden Systems

Folgende Angaben werden vom anfragenden System nur optional geliefert und können von diesem verändert worden sein:

  • Referrer (Quelle, von der auf die angefragte Datei verwiesen wurde, vgl. Wikipedia-Artikel)
  • Angaben über den Rechner des Benutzers
    • Name und Version des Browsers
    • Betriebssystem

HTTP ist ein zustandloses (stateless) Protkoll, das heißt, es wird keine persistente Verbindung etabliert, sondern für jede Anfrage eine neue Verbindung aufgebaut. Enthält die HTML-Seite Bilder, Objekte, externe Stylesheet- oder Script-Dateien, stellt der Browser also für jede dieser Dateien eine eigene Anfrage, bei der die HTML-Datei der Referrer ist.

HTTP-Server wie Apache oder MS Internet Information Server protokollieren alle Anfragen in sogenannten Log-Dateien. Dabei handelt es sich um einfache Textdateien, die von jedem beliebigen Texteditor dargestellt werden können.

[Bearbeiten] 1.2 Beispiel eines Logfiles

Nachfolgend eine Zeile aus einem Apache-Logfile:

127.0.0.1 - martin [10/Dec/2002:14:45:37 -0700] "GET /background.gif HTTP/1.0" 200 2326
  • 127.0.0.1 - IP-Adresse des Benutzers
  • - Nicht verfügbare Angabe. Hier: Der unzuverlässige RFC 1413-Code
  • martin - User-Kennung, nur in benutzergeschützten Bereichen der Webseite bestimmbar
  • [10/Dec/2002:14:45:37 -0700] - Datum, Uhrzeit und Zeitverschiebung zur GMT
  • "GET /background.gif HTTP/1.0" - Abruf der angegebenen Datei unter Verwendung der angegebenen HTTP-Version
  • 200 - HTTP-Statuscode, 200 für "OK"
  • 2326 - Übertragene Datenmenge in Byte

Eine Zeile kann nach der Angabe zur Datenmenge weitere Angaben über Referrer und zum Rechner des Benutzers enthalten:

"http://www.wikipedia.org/" Mozilla/5.0 (X11; U; Linux i686; de-DE;rv:1.7.5)

[Bearbeiten] 1.3 Abgrenzung zu Web Analytics

Bei der Logfile-Analyse werden grundsätzlich zunächst nur die vom Server aufgezeichneten Daten verwendet, mit den weiter unten geschilderten Unzulänglichkeiten. Web Analytics (auch Web Controlling genannt) (vgl. Wikipedia-Artikel (neues Fenster)) gehen darüber hinaus und verwenden zusätzlich Client-basierte Verfahren wie Pixel-Grafiken oder Cookies.

[Bearbeiten] 1.4 Analysesoftware

Das Angebot an Analysewerkzeugen ist ausgesprochen umfangreich und reicht von kostenlosen Programmen zur reinen Logfile-Analyse bis hin zu Enterprise-Lösungen im Bereich Web Analytics zu Preisen im sechsstelligen Euro-Bereich.

Eine umfangreichere Auflistung liefert der Wikipedia-Artikel (neues Fenster).

[Bearbeiten] 2 Anwendungsbereich

Logfiles lassen sich auf vielfältige Weise auswerten. Während sich einige Werte direkt aus den Logfiles ablesen oder errechnen lassen, erfordern andere vorab Entscheidungen oder Interpretationen.

[Bearbeiten] 2.1 Einfache Auswertungsmöglichkeiten

  • Hit: Anforderung einer Datei auf dem Webserver, also HTML-Seiten, Bilder, CSS-Dateien, PDF-Dokumente etc. Die Anzahl der Hits sagt noch nichts über die Anzahl der Besucher aus.
  • Seitenaufruf: Hier werden lediglich die Seiten selbst und nicht ihre zugehörigen Objekte betrachtet.
  • Transfervolumen: Die übertragene Datenmenge ist leicht messbar, aber wenig aussagekräftig.
  • Besuchszeit: Hier ist besonders die Zusammenfassung zu Tages-, Wochen- oder Monatsrhythmen interessant.
  • Besucherquellen: Die Referrerangabe ermöglicht es nachzuvollziehen, welche Seiten auf das eigene Angebot verweisen.
  • Suchterme: Die Referrerangabe enthält bei Suchmaschinen auch die verwendeten Suchterme. Dies ist besonders im Hinblick auf eine mögliche Suchmaschinenoptimierung interessant.
  • Meistaufgerufene Seiten: Eine Sortierung in Form von Ranglisten ermöglicht die Definition zukünftiger inhaltlicher Schwerpunkte.
  • Downloads: Durch eine Einschränkung der Betrachtung auf Dateitypen (z.B. PDF), lässt sich ablesen, wie gut derartige Angebote angenommen werden.

[Bearbeiten] 2.2 Erweiterte Auswertungsmöglichkeiten

  • Sitzung (auch Session, Visit oder Besuch): Dabei wird eine Folge von Seitenaufrufen durch einen Besucher als ein zusammenhängender Nutzungsvorgang betrachtet. Definiert wird ein solcher Nutzungsvorgang durch den Einstieg auf einer beliebigen Seite und das Verlassen des Angebots. Sitzungen lassen sich nicht direkt aus Logfiles ablesen, man kann sie nur mit einer gewissen Wahrscheinlichkeit aus der zeitlichen Nähe verschiedener Seitenaufrufe interpretieren. Aus den unten genannten Problemen wird meist ein Timeout (gebräuchlich sind 30 Minuten) definiert, nach dem Zugriffe desselben Nutzers als neue Sitzung betrachtet werden.
  • Seiten pro Sitzung: Betrachtet wird dabei die Anzahl der Seiten, die ein Nutzer pro Sitzung aufruft. Der gemessene Wert ist interpretationsbedürftig: Zeugt eine hoher Wert von einem starken Interesse, oder eher davon, dass der Nutzer die gewünschte Information nicht gefunden hat?
  • Verweildauer: Dies ist die Zeitspanne, in der der Nutzer eine bestimmte Seite betrachtet. Analysetechnisch definiert sie sich durch den Abstand zwischen dem Aufruf einer Seite und dem einer weiteren Seite. Wie intensiv sich der Nutzer in dieser Zeit mit der Seite auseinander gesetzt hat oder ob er sich zwischenzeitlich mit anderen Dingen beschäftigt hat, lässt sich nicht sagen. Im Rahmen der prinzipiell geringen Aussagekraft dieses Messwertes ist eine hohe Verweildauer positiv.
  • Einstiegsseiten: Durch Auswertung der Referrer lässt sich feststellen, welche Seiten besonders häufig als Einstiegspunkt dienen.
  • Ausstiegsseiten: Die Seiten, an denen Benutzer das Angebot verlassen, sind schwierig zu identifzieren, da das Aufrufen eines externen Links oder das Schließen des Browserfensters nicht im Logfile dokumentiert wird.
  • Besucher: Auch die Anzahl der tatsächlichen Besucher ist ohne weitere serverseitige Techniken nicht feststellbar. Ein einfaches Zählen verschiedener IP-Adressen ist aufgrund der unten geschilderten Probleme nicht sinnvoll.
  • Besucherherkunft: Mittels des Domain Name Systems (DNS) lassen sich die IP-Adressen der Besucher in URLs auflösen und so anhand der Top Level Domains (z.B. .de) die Herkunft der Besucher grob bestimmen.

Vor allem dann, wenn Interviews aus Zeit- und Kostengründen nicht möglich sind und es sich um eine weitgehend homogene Gruppe handelt, um systematische Ausfälle zu vermeiden. Die Zielgruppe muß durch das Vorhandensein einer aktuellen Adressdatei erreichbar sein und ein gewisses Vorwissen zum Untersuchungsgegenstand vorliegen. Zu den sonstigen Motiven für die Wahl der schriftlichen Befragungsform gehören die räumliche Verteilung der Zielgruppe, das Thema (muß für die Befragten von Bedeutung sein), der Umfang der Befragung (sollte eher kurz sein) und die Zielsetzungen.

[Bearbeiten] 3 Vorteile der Methode

  • Keine aktive Mitarbeit der Seitenbesucher erforderlich
  • Effiziente Verwendung ohnehin gesammelter Daten
  • Analysesoftware ist kostenlos verfügbar
  • Gute Grundlage weiterer und zielgerichteter Untersuchungen

[Bearbeiten] 4 Probleme und Grenzen der Methode

[Bearbeiten] 4.1 Ungenaue Ergebnisse bei Verwendung von Cache- oder Proxyservern

Cache-Server werden von Internet Service Providern, Firmen und Netzbetreibern eingesetzt, um das Datenaufkommen zu verringern und Internetseiten schneller an den Endnutzer auszuliefern. Dabei werden Webseiten, die ein Nutzer aufruft, auf dem Cache-Server gespeichert und anschließend bei Bedarf an weitere Besucher ausgeliefert, so dass diese nicht mehr auf den Original-Web-Server, sondern nur noch auf den Cache-Server zugreifen.

Auch die gängigen Browser richten in ihrer Standardkonfiguration einen Cache-Speicher auf der Festplatte ein. Je nach Konfiguration prüfen sie bei erneutem Aufruf durch den Nutzer den Server auf Aktualisierungen (dann erfolgt exakt eine Anfrage), oder sie stellen die Seite komplett aus dem Cache dar (es erfolgt keine Anfrage an den Server).

Für Web-Server ist also nicht ersichtlich, wie viele Zugriffe durch Cache-Server oder den Browser-Cache abgefangen werden.

[Bearbeiten] 4.2 Referrer-Spam

Wenn Referrer-Angaben (vgl. Wikipedia-Artikel, neues Fenster) online publiziert werden - etwa bei Blogs - ist es für Suchmaschinen-Spammer interessant, dort aufzutauchen, in der Hoffnung, dass diese Angaben von Suchmaschinen für ein positives Ranking der beworbenen Seite verwendet werden.

Lösungsansatz: Unter Verwendung des Rewrite-Moduls von Apache den Zugriff für typische Referrer-Seiten verbieten.

[Bearbeiten] 4.3 Unterscheidung mehrerer Anfragender nicht immer möglich

IP-Masquerading und Network Address Translation (NAT) erlauben es, mehrere Rechner, die jeweils über eine eigene interne IP-Adresse verfügen, unter einer gemeinsamen externen IP-Adresse an das Internet anzubinden. Verbreitet sind solche Verfahren bei Hochschul- und Firmennetzen, inzwischen aber in Form von DSL-Routern auch bei Privathaushalten. Dabei kann der Server nicht mehr eindeutig die verschiedenen Nutzer zählen, da mehrere Nutzer mit derselben IP-Adresse auf den Server zugreifen können.

[Bearbeiten] 4.4 Gemeinsam genutzte Rechner

Erfolgt der Zugriff aus öffentlichen Rechnerpools wie beispielsweise Internet-Cafes oder Hochschulen, lässt sich nicht erkennen, ob Nutzer A nach einer Pause erneut weiterarbeitet oder inzwischen Nutzer B am Rechner sitzt.

Lösungsansatz: Mit geeigneten statistischen Methoden lässt sich dieser Effekt nahezu glätten.

[Bearbeiten] 4.5 Weitere Probleme

  • Verfälschung durch automatische Abfragen
    Webcrawler (Spider, Robots) der verschiedenen Suchmaschinen verfälschen durch ihre automatisierten Seitenzugriffe die Statistik. Da Crawler in der Regel über eine entsprechende Kennung verfügen (etwa "Googlebot"), können sie bei der Auswertung berücksichtigt werden.
  • Eigene Zugriffe - beispielsweise zum Überprüfen vorgenommener Änderungen - werden mitgezählt
  • Da Benutzer die Zurück-Funktion des Browsers verwenden und die Seite dann meist aus dem Cache aufgebaut wird, ist eine Verfolgung von Klickpfaden mit einer Logfile-Analyse nicht möglich.

[Bearbeiten] 5 Zeitlicher Aufwand

Eine Visualisierung vorhandener Logfiles ist mit den genannten Werkzeugen schnell und unkompliziert durchführbar.

[Bearbeiten] 6 Budget

Eine vergleichsweise große Anzahl kostenloser Programme zur Auswertung von Logfiles steht bereit. Kommerzielle Werkzeuge bieten meist einen größeren Funktionsumfang.

[Bearbeiten] 7 Personal

[Bearbeiten] 8 Sonstiges

[Bearbeiten] 9 Exemplarische Projekte

[Bearbeiten] 10 Quellen

Persönliche Werkzeuge