Eine
kleine technische Information vorab, die sich zunächst auch
ignorieren können, wenn Sie Ihnen zu technisch ist: Die hier
dargestellten Informationen verdeutliche ich am Beispiel des großen
deutschen Webhosting Providers 1&1 (siehe hierzu auch "Related
Documents" auf der rechten Seite). Jedoch sei vorab gesagt,
dass diese Informationen in ähnlicher Weise genauso für
viele andere Webhosting Provider gelten, die den sehr häufig
verwendeten Apache Webserver verwenden und ihren Kunden wie im Folgenden
beschrieben die Webserver Logfiles zur Verfügung stellen.
Jeder
Webhosting Kunde von 1und1 hat die Möglichkeit, die Zugriffsstatistiken
(Logfiles) seiner Website einzusehen und zu analysieren. Beispiel:
Sie betreiben die Website http://m2w2.de. Sie möchten wissen,
wie welche Seiten Ihres Internetauftritts wann von wem besehen werden.
Die URL zum Einsehen Ihrer Zugriffsstatistiken lautet beim gegebenen
Beispiel http://m2w2.de/logs. Der Besuch dieser Logs-Seite fördert
einerseits Informationen zutage, die Aufschluss darüber geben,
"wer" die Website besucht hat, andererseits
darüber, was zugegriffen wurde. Alle Dateitypen
außer Java-Klassen (*.class), Javascript-Dateien (*.js), Style
Sheets (*.css), Include- und Konfigurationsdateien (*.inc, *.cnf,
*.conf) sowie Bilder (BMP, GIF, JPEG, PNG, TIF, WMF) werden aufgeführt.
Dies kann jedoch schon eine ganz schöne Einschränkung
sein.
Sie
sind also nicht in der Lage, zu sehen, "wer"
genau was angesehen hat. Genau das aber ist es, was sich
vor allem Gewerbetreibende wünschen, denn für Sie können
dies sehr wertvolle Informationen sein. Dieser Artikel zeigt Ihnen
eine nicht 100%ig komfortable, aber pragmatische und vor allem kostenlose
Möglichkeit, an genau diese Informationen zu gelangen.
In
der folgenden Darstellung sehen Sie einen Auszug aus einer oben
genannten, von 1und1 aufbereiteten Logs-Seite wie Sie sie zu sehen
bekommen, wenn sie das /logs Verzeichnis Ihrer Website wie oben
beschrieben aufrufen. Die Darstellung zeigt, "wer"
auf die Website zugegriffen hat. Natürlich zeigt sie nicht
Namen von natürlichen Personen oder Firmennamen an (auch wenn
sich das manche sicher wünschen), sondern sie zeigt die Namen
der Rechner, die auf die Website zugegriffen haben. Diese Namen
werden einem Rechner meist bei der Einwahl ins Internet vom jeweiligen
Internet Service Provider zugeteilt.
Beispielsweise können Sie sehen, dass ein Benutzer des Rechners
mit dem Namen p50834dd2.dip0.t-ipconnect.de 32 mal auf die Website
zugegriffen hat (rote Ellipse), oder Sie können unter anderem
indirekt auch ersehen, dass der Suchroboter der Suchmaschine Google
mit dem Namen crawler14.googlebot.com vermutlich den Inhalt der
Seite in seinen Suchindex aufgenommen oder diesen aktualisiert hat
(gelbe Ellipse). Soviel zum Thema "wer".
Nun
zum Thema "was": Die folgende Darstellung
zeigt, welche Dateien Ihrer Website wie oft aufgerufen wurden:
Dieser Teil des Logfiles ist insofern interessant als dass Sie sehen
können, dass beispielweise eine große Anzahl der Besucher
Ihrer Seite ein bestimmtes PDF-File direkt und in größerer
Zahl abrufen (gelbe Ellipse), während eine viel kleinere Anzahl
die Titelseite Ihrer Website abruft (rote Ellipse). Soviel zum Thema
"was".
Jedoch
haben die beiden Informationen "wer" und "was"
losgelöst voneinander nur einen relativ geringen Informationsgehalt.
Interessanter wäre es doch, herausfinden zu können, wer
auf was zugegriffen hat. Vor Wochen fragte ich mich, was
wohl ein Mitarbeiter der Regulierungsbehörde für Telekommunikation
und Post auf meiner Website wollte, denn ich stellte einen Zugriff
des Rechners gatekeeper.regtp.de auf meine Website fest. Inzwischen
weiß ich es (darf es aus Gründen des Datenschutzes aber
nicht preisgeben). Wie habe ich das herausgefunden? Nun, ein ehemaliger
Studienkollege machte mich darauf aufmerksam, dass 1und1 ja größtenteils
Open Source Software einsetzt. Das bedeutete, dass es höchstwahrscheinlich
der Apache Webserver ist, der von 1und1 eingesetzt wird. Da der
Apache Webserver von sich aus eigentlich schon Logfiles produziert,
die es sehr wohl ermöglichen, zu sehen, wer auf was zugegriffen
hat, mussten wir nur herausfinden, wo diese Logfiles, wenn überhaupt,
abgelegt sind. Der Verdacht lag nahe, dass sie auch im /logs Verzeichnis
liegen. Und genau so ist es auch.
Wie
gelange ich an die Apache Logfiles?
Sie benötigen die Zugangsdaten zu Ihrem /logs-Verzeichnis,
also Ihren Benutzernamen und Ihr Passwort. Sie müssen dann
mittels des FTP-Protokolls auf Ihr /logs-Verzeichnis zugreifen.
Beispiel: Nehmen wir an, Ihr Benutzername sei "username"
und ihre Website hieße m2w2.de. Öffnen Sie ein Fenster
in Ihrem Lieblingsbrowser und geben Sie ein: ftp://username@www.m2w2.de/logs.
Geben Sie in dem Fensterchen, das dann aufpoppt, Ihr Passwort ein
und schon haben Sie Zugriff auf alle Dateien in Ihrem /logs-Verzeichnis.
Laden Sie dann alle Dateien, deren Namen auf .gz enden, in ein Verzeichnis
auf Ihrer Festplatte herunter. Es handelt sich hierbei um gezippte
Textdateien. Entpacken Sie sie mit Ihrer Lieblings-UnZip-Software.
In den entpackten Textdateien können Sie nun mit einem Texteditor
Ihrer Wahl nachsehen, von welcher IP-Adresse welche Datei Ihrer
Website aufgerufen wurde. Diese Ansicht ist auch nicht auf bestimmte
Dateitypen beschränkt.
Was
bringen mir IP-Adressen? Was bringen mir Hostnamen?
In den von 1und1 bereit gestellten Logfiles haben wir, wie ganz
oben gesehen, nur Hostnamen zur Verfügung. Diese sind insofern
geschickt, als dass sie Sie neugierig machen. In meinem Logfile
stand (nur ein gestelltes Beispiel), dass der Hostname gatekeeper.regtp.de
auf meine Website zugegriffen hätte. Die Domain regtp.de steht
für die besagte Regulierungsbehörde für Telekommunikation
und Post. In den Logfiles, die Sie sich nun aber per FTP heruntergeladen
haben, tauchen nur IP-Adressen auf. Sie müssen also den Hostnamen
in eine IP-Adresse "übersetzen". Öffnen Sie
hierzu eine "MS-DOS Eingabeaufforderung" und geben Sie
(für das Beispiel mit gatekeeper.regtp.de) ein: nslookup
gatekeeper.regtp.de. Sie werden die Antwort erhalten: Addresses:
217.111.27.41, 217.111.27.40. Diese zwei IP-Adressen sind
die Adressen, die Sie nun in den gezippten Logfiles suchen müssen,
um zu erfahren, welche Dateien auf Ihrer Website von diesen Adressen
zugegriffen wurden. In der Zeile, die Sie finden werden, könnten
dann vielleicht in Anführungszeichen beispielsweise auftauchen:
"GET /studies.html". Dies würde
genau genommen bedeuten, dass jemand den Rechner, der zum Zeitpunkt
des Zugriffs den Hostnamen gatekeeper.regtp.de trug und der befugt
ist, diesen Rechner direkt oder indirekt zu benutzen, die Seite
studies.html auf Ihrer Website aufgerufen hat.
Muss
ich erst alle .gz-Files entpacken? Muss ich jedes File einzeln durchforsten?
Nein. Sie können sich auch Software installieren, die einerseits
die gepackten Files selbst durchsucht und andererseits in der Lage
ist, mehrere oder gar alle Dateien, die sie angeben, auf einen Rutsch
zu durchsuchen. Angenommen alle .gz-Dateien liegen in einem Verzeichnis
und Sie benutzen das Betriebssystem Linux oder Sie haben sich unter
Windows die sogenannte Cygwin-Umgebung und das dafür installierbare
Kommando zgrep installiert. Sie können nun veranlassen, mit
einem einzigen Befehl alle .gz-Files nach Zeilen, die Ihr gewünschtes
Suchmuster enthalten, zu durchsuchen und anzeigen zu lassen. Als
Einstieg dient der Befehl zgrep 217.111.27.41 *.gz.
Sollten Ihnen zu viele Zeilen ausgespuckt werden, die beispielsweise
den Zugriff auf die Datei meincss.css zeigen, filtern Sie diese
Zeilen einfach weg und ersetzen Sie den Befehl durch zgrep
217.111.27.41 *.gz | grep -v meincss.css.
Lesen
Sie in naher Zukunft hier, welche Frechheiten durch das Aufzeichnen
und Auswerten von solchen Logfiles noch möglich sind und was
Sie tun können, um Ihre Spuren beim Surfen im Internet etwas
unkenntlicher zu machen.
|
The
Cygwin-Environment
A
Linux-like environment for Windows
The
Apache Webserver
A
Webserver for almost any platform
Markus'
1und1 Shop
Das
Angebot von 1und1 und dessen Partnern

|