Bösen Bots den Kampf ansagen!

Lioman — Tue, 28 Apr 2009 13:24:00 +0200

Beim Test der Statistik-Plugins ist mir aufgefallen, dass sich doch einiges an Bots, Robots und Spidern auf diesem Blog rumtreibt. Da man nicht bei allen weiß, wer sich dahinter verbirgt und was sie mit den gewonnenen Daten so treiben, habe ich mich entschlossen “böse Bots” auszusperren. Doch was ist ein böser Bot?

Sie haben alle eigentlich eines gemeinsam: sie achten nicht die robots.txt und probieren eventuell sich noch zu verschleiern.

In der robots.txt kann man gezielt Seiten vom Spidern ausschließen, weil man da zum Beispiel Kontaktdaten hat, die nicht durch jede Suchmaschine gefunden werden soll. Ein “böser” Bot sucht aber oft genau nach solchen Seiten und achtet deshalb nicht auf die robots.txt.

Wenn aber ein Bot nicht darauf hört, brauch man ihn gar nicht erst verbieten. Man muss radikaler vorgehen und den entsprechenden durch die .htaccess aussperren. Genau da setzt Spider-Trap an. Man fügt ein kleines Bild mit Link auf seiner Startseite ein und verbietet deren crawling durch die robots.txt.

Die Arbeit übernimmt ein PHP-Skript dass man auf seinen Webspace installieren muss. Man bekommt es hier und auf dieser Seite ist die Installation hinreichend erklärt.

Die Falle ist gestellt und wenn nun ein Crawler diesen Link verbotenerweise aufruft, wandert sein User-Agent und seine IP schnurstracks in die Blacklist und die .htaccess. In Zukunft bekommt der entsprechende Spider nur noch eine Fehlerseite zu sehen. Damit sich aber niemand versehentlich aussperrt, kann man sich auf dieser selbst wieder freischalten. Einem Bot ist das nicht möglich, da er über den CAPTCHA-Code stolpern würde.

Hoffen wir das es hilft.

Ein weiteres Projekt mit ähnlichen Zielen ist Bot-Trap welches auch vom inzwischen eingestellten Dissalow vorgeschlagen wurde. Allerdings muss man sich aufwendig anmelden. :-(

Und hier nochmal der Link, um das Projekt zu unterstützen:
:arrow: 

Liomans Blog - robots.txt

Bösen Bots den Kampf ansagen!