Schluß mit Slurp

Also mir ging das ja lange genug auf den Senkel, nun ist Schluß! Aber von vorne…

Zahlen sind im Netz Schall und Rauch, also nichts, was auch nur irgendwie greifbar ist. Zugriffe, Visite, Pageimpressions, Incoming Links, Seitenaufrufe, … … Wer zählt hat eine Zahl, der andere zählt was anderes, und Alexa sagt uns noch ganz andere Dinge über uns. Eines ist allen gemein: Das unterschiedliche Ergebnis.

Ich vergleich ab und an mal die Auswertung meines Hosters mit denen von Google Analystics mit denen von Blogscout mit denen des Plugins Semmelstatz … alles sehr interessant und alle unterschiedlich. Und auch kein Wunder.

Die Frage nach der Währung im Netz, den Zugriffen, ist nämlich so, als gäbe es noch kein einheitliches Geldmittel sondern noch Muscheln, dem Zahlungsmittel früherer Tage. Die einen sind größer, die anderen kleiner, die anderen gefälscht, die anderen wertlos. Und so ist die Frage nach den Zugriffen letztendlich eine nicht zu lösende Gleichung, bei der auf der einen Seite alles steht was reinkommt (so denn alles erfasst wird), also jeder Aufruf, und davon abgezogen wird alles, was offensichtlich die Daten verfälscht (also falsch sind sie nicht, aber irreführend). Man stelle sich das so vor: Ein User kommt rein und sieht sich eine Seite bei dir an. In den Logs steht dann nicht 1 User, sondern da steht, dass eine IP vielleicht 30 Daten geladen/angefordert hat. Das sind dann Texte, Bilder, CSS-Dateien etc. pp.. Doch da geht es schon los. Ist das 1 User gewesen? Oder teilen sich gerade mehrere User, wie in vielen Büros, gemeinsam 1 IP, also sind es in Wirklichkeit 5 User? – Oder was ist, wenn die im Büro einen Cache haben? Dann werden nur die Dateien nachgeladen, die noch nicht im Cache sind. Wie viele User und wie viele Seiten haben die nun gesehen? … …

Zahlen sind eine Währung, die nichts wert ist.

Aber das nur eingeschoben. Dazu kommen nämlich noch die Suchrobots und Spider. Die durchsuchen für x Suchmaschinen deine Website und verursachen da einen Rummel, das ist kaum zu glauben. Otto-Normal-Nutzer kriegt das gar nicht mit, aber die Traffic-und Server-Last durch diese kleinen Tierchen ist gigantisch. Und! Und sie verfälschen die Daten.
Da steht dann z.B. bei mir im Blog: 25 User online (siehe Sidebar). Doch tatsächlich sind es dann 10 und 15 Spider. Die Zahl der User online beziehe ich im Übrigen über das Plugin Semmelstatz (tolles Teil!!) und dort kann man Spider ausfiltern. Nur – und da hab ich die Kurve! – eben nicht „Slurp„, einen Spider von Inktomi, der aber, wenn ich so ein bisschen quer lese im Netz, mittlerweile für Yahoo! auf Jagd geht. Der lässt sich nicht ausfiltern und kommt z.T. gleich mit 15 IP-Adressen auf einmal angerauscht.

Nun ist Schluß damit! Hoffe ich…

Meine robots.txt wurde aktualisiert und sieht nun so aus:

User-agent: Googlebot
Disallow:

User-agent: Slurp
Disallow: /

Das ist zwar eine eindeutige Bevorzugung des Googlebot (ein Disallow ohne Angabe bedeutet „alles ist erlaubt“), aber Slurp nervt einfach immens. Und das denke nicht nur ich so (und viele andere Stellen im Netz…).

Mal sehen, ob es wirkt.