m2w2 Trees Banner

pfeilchenAnalyse der Logfiles Ihres Internet-AuftrittspfeilchenBackpfeilchenm2w2.de
Related Documents

pfeilchenEine kleine technische Information vorab, die sich zunächst auch ignorieren können, wenn Sie Ihnen zu technisch ist: Die hier dargestellten Informationen verdeutliche ich am Beispiel des großen deutschen Webhosting Providers 1&1 (siehe hierzu auch "Related Documents" auf der rechten Seite). Jedoch sei vorab gesagt, dass diese Informationen in ähnlicher Weise genauso für viele andere Webhosting Provider gelten, die den sehr häufig verwendeten Apache Webserver verwenden und ihren Kunden wie im Folgenden beschrieben die Webserver Logfiles zur Verfügung stellen.

pfeilchenJeder Webhosting Kunde von 1und1 hat die Möglichkeit, die Zugriffsstatistiken (Logfiles) seiner Website einzusehen und zu analysieren. Beispiel: Sie betreiben die Website http://m2w2.de. Sie möchten wissen, wie welche Seiten Ihres Internetauftritts wann von wem besehen werden. Die URL zum Einsehen Ihrer Zugriffsstatistiken lautet beim gegebenen Beispiel http://m2w2.de/logs. Der Besuch dieser Logs-Seite fördert einerseits Informationen zutage, die Aufschluss darüber geben, "wer" die Website besucht hat, andererseits darüber, was zugegriffen wurde. Alle Dateitypen außer Java-Klassen (*.class), Javascript-Dateien (*.js), Style Sheets (*.css), Include- und Konfigurationsdateien (*.inc, *.cnf, *.conf) sowie Bilder (BMP, GIF, JPEG, PNG, TIF, WMF) werden aufgeführt. Dies kann jedoch schon eine ganz schöne Einschränkung sein.

pfeilchenSie sind also nicht in der Lage, zu sehen, "wer" genau was angesehen hat. Genau das aber ist es, was sich vor allem Gewerbetreibende wünschen, denn für Sie können dies sehr wertvolle Informationen sein. Dieser Artikel zeigt Ihnen eine nicht 100%ig komfortable, aber pragmatische und vor allem kostenlose Möglichkeit, an genau diese Informationen zu gelangen.

pfeilchenIn der folgenden Darstellung sehen Sie einen Auszug aus einer oben genannten, von 1und1 aufbereiteten Logs-Seite wie Sie sie zu sehen bekommen, wenn sie das /logs Verzeichnis Ihrer Website wie oben beschrieben aufrufen. Die Darstellung zeigt, "wer" auf die Website zugegriffen hat. Natürlich zeigt sie nicht Namen von natürlichen Personen oder Firmennamen an (auch wenn sich das manche sicher wünschen), sondern sie zeigt die Namen der Rechner, die auf die Website zugegriffen haben. Diese Namen werden einem Rechner meist bei der Einwahl ins Internet vom jeweiligen Internet Service Provider zugeteilt.

Beispielsweise können Sie sehen, dass ein Benutzer des Rechners mit dem Namen p50834dd2.dip0.t-ipconnect.de 32 mal auf die Website zugegriffen hat (rote Ellipse), oder Sie können unter anderem indirekt auch ersehen, dass der Suchroboter der Suchmaschine Google mit dem Namen crawler14.googlebot.com vermutlich den Inhalt der Seite in seinen Suchindex aufgenommen oder diesen aktualisiert hat (gelbe Ellipse). Soviel zum Thema "wer".

pfeilchenNun zum Thema "was": Die folgende Darstellung zeigt, welche Dateien Ihrer Website wie oft aufgerufen wurden:

Dieser Teil des Logfiles ist insofern interessant als dass Sie sehen können, dass beispielweise eine große Anzahl der Besucher Ihrer Seite ein bestimmtes PDF-File direkt und in größerer Zahl abrufen (gelbe Ellipse), während eine viel kleinere Anzahl die Titelseite Ihrer Website abruft (rote Ellipse). Soviel zum Thema "was".

pfeilchenJedoch haben die beiden Informationen "wer" und "was" losgelöst voneinander nur einen relativ geringen Informationsgehalt. Interessanter wäre es doch, herausfinden zu können, wer auf was zugegriffen hat. Vor Wochen fragte ich mich, was wohl ein Mitarbeiter der Regulierungsbehörde für Telekommunikation und Post auf meiner Website wollte, denn ich stellte einen Zugriff des Rechners gatekeeper.regtp.de auf meine Website fest. Inzwischen weiß ich es (darf es aus Gründen des Datenschutzes aber nicht preisgeben). Wie habe ich das herausgefunden? Nun, ein ehemaliger Studienkollege machte mich darauf aufmerksam, dass 1und1 ja größtenteils Open Source Software einsetzt. Das bedeutete, dass es höchstwahrscheinlich der Apache Webserver ist, der von 1und1 eingesetzt wird. Da der Apache Webserver von sich aus eigentlich schon Logfiles produziert, die es sehr wohl ermöglichen, zu sehen, wer auf was zugegriffen hat, mussten wir nur herausfinden, wo diese Logfiles, wenn überhaupt, abgelegt sind. Der Verdacht lag nahe, dass sie auch im /logs Verzeichnis liegen. Und genau so ist es auch.

pfeilchenWie gelange ich an die Apache Logfiles?
Sie benötigen die Zugangsdaten zu Ihrem /logs-Verzeichnis, also Ihren Benutzernamen und Ihr Passwort. Sie müssen dann mittels des FTP-Protokolls auf Ihr /logs-Verzeichnis zugreifen. Beispiel: Nehmen wir an, Ihr Benutzername sei "username" und ihre Website hieße m2w2.de. Öffnen Sie ein Fenster in Ihrem Lieblingsbrowser und geben Sie ein: ftp://username@www.m2w2.de/logs. Geben Sie in dem Fensterchen, das dann aufpoppt, Ihr Passwort ein und schon haben Sie Zugriff auf alle Dateien in Ihrem /logs-Verzeichnis. Laden Sie dann alle Dateien, deren Namen auf .gz enden, in ein Verzeichnis auf Ihrer Festplatte herunter. Es handelt sich hierbei um gezippte Textdateien. Entpacken Sie sie mit Ihrer Lieblings-UnZip-Software. In den entpackten Textdateien können Sie nun mit einem Texteditor Ihrer Wahl nachsehen, von welcher IP-Adresse welche Datei Ihrer Website aufgerufen wurde. Diese Ansicht ist auch nicht auf bestimmte Dateitypen beschränkt.

pfeilchenWas bringen mir IP-Adressen? Was bringen mir Hostnamen?
In den von 1und1 bereit gestellten Logfiles haben wir, wie ganz oben gesehen, nur Hostnamen zur Verfügung. Diese sind insofern geschickt, als dass sie Sie neugierig machen. In meinem Logfile stand (nur ein gestelltes Beispiel), dass der Hostname gatekeeper.regtp.de auf meine Website zugegriffen hätte. Die Domain regtp.de steht für die besagte Regulierungsbehörde für Telekommunikation und Post. In den Logfiles, die Sie sich nun aber per FTP heruntergeladen haben, tauchen nur IP-Adressen auf. Sie müssen also den Hostnamen in eine IP-Adresse "übersetzen". Öffnen Sie hierzu eine "MS-DOS Eingabeaufforderung" und geben Sie (für das Beispiel mit gatekeeper.regtp.de) ein: nslookup gatekeeper.regtp.de. Sie werden die Antwort erhalten: Addresses: 217.111.27.41, 217.111.27.40. Diese zwei IP-Adressen sind die Adressen, die Sie nun in den gezippten Logfiles suchen müssen, um zu erfahren, welche Dateien auf Ihrer Website von diesen Adressen zugegriffen wurden. In der Zeile, die Sie finden werden, könnten dann vielleicht in Anführungszeichen beispielsweise auftauchen: "GET /studies.html". Dies würde genau genommen bedeuten, dass jemand den Rechner, der zum Zeitpunkt des Zugriffs den Hostnamen gatekeeper.regtp.de trug und der befugt ist, diesen Rechner direkt oder indirekt zu benutzen, die Seite studies.html auf Ihrer Website aufgerufen hat.

pfeilchenMuss ich erst alle .gz-Files entpacken? Muss ich jedes File einzeln durchforsten?
Nein. Sie können sich auch Software installieren, die einerseits die gepackten Files selbst durchsucht und andererseits in der Lage ist, mehrere oder gar alle Dateien, die sie angeben, auf einen Rutsch zu durchsuchen. Angenommen alle .gz-Dateien liegen in einem Verzeichnis und Sie benutzen das Betriebssystem Linux oder Sie haben sich unter Windows die sogenannte Cygwin-Umgebung und das dafür installierbare Kommando zgrep installiert. Sie können nun veranlassen, mit einem einzigen Befehl alle .gz-Files nach Zeilen, die Ihr gewünschtes Suchmuster enthalten, zu durchsuchen und anzeigen zu lassen. Als Einstieg dient der Befehl zgrep 217.111.27.41 *.gz. Sollten Ihnen zu viele Zeilen ausgespuckt werden, die beispielsweise den Zugriff auf die Datei meincss.css zeigen, filtern Sie diese Zeilen einfach weg und ersetzen Sie den Befehl durch zgrep 217.111.27.41 *.gz | grep -v meincss.css.

pfeilchenLesen Sie in naher Zukunft hier, welche Frechheiten durch das Aufzeichnen und Auswerten von solchen Logfiles noch möglich sind und was Sie tun können, um Ihre Spuren beim Surfen im Internet etwas unkenntlicher zu machen.

pfeilchenThe Cygwin-Environment
A Linux-like environment for Windows

pfeilchenThe Apache Webserver
A Webserver for almost any platform

pfeilchenMarkus' 1und1 Shop
Das Angebot von 1und1 und dessen Partnern