Liomans Blog - robots.txthttps://lioman.de/42 ist die Antwort – aber wie lautet die Frage?Tue, 28 Apr 2009 13:24:00 +0200Bösen Bots den Kampf ansagen!https://lioman.de/2009/04/boesen-bots-kampf-ansagen/<p>Beim Test der Statistik-Plugins ist mir aufgefallen, dass sich doch einiges an Bots, Robots und Spidern auf diesem Blog rumtreibt. Da man nicht bei allen weiß, wer sich dahinter verbirgt und was sie mit den gewonnenen Daten so treiben, habe ich mich entschlossen &#8220;böse Bots&#8221; auszusperren. Doch was ist ein böser&nbsp;Bot?</p> <p>Sie haben alle eigentlich eines gemeinsam: sie achten nicht die <a class="reference external" href="http://de.wikipedia.org/wiki/Robots%20Exclusion%20Standard">robots.txt</a> und probieren eventuell sich noch zu&nbsp;verschleiern.</p> <p>In der robots.txt kann man gezielt Seiten vom Spidern ausschließen, weil man da zum Beispiel Kontaktdaten hat, die nicht durch jede Suchmaschine gefunden werden soll. Ein &#8220;böser&#8221; Bot sucht aber oft genau nach solchen Seiten und achtet deshalb nicht auf die&nbsp;robots.txt.</p> <p>Wenn aber ein Bot nicht darauf hört, brauch man ihn gar nicht erst verbieten. Man muss radikaler vorgehen und den entsprechenden durch die <a class="reference external" href="http://de.wikipedia.org/wiki/Htaccess">.htaccess</a> aussperren. Genau da setzt <a class="reference external" href="http://www.spider-trap.de/">Spider-Trap</a> an. Man fügt ein kleines Bild mit Link auf seiner Startseite ein und verbietet deren crawling durch die&nbsp;robots.txt.</p> <p>Die Arbeit übernimmt ein <span class="caps">PHP</span>-Skript dass man auf seinen Webspace installieren muss. Man bekommt es <a class="reference external" href="http://www.spider-trap.de/download.html">hier</a> und auf <a class="reference external" href="http://www.spider-trap.de/Installation-2.html">dieser Seite</a> ist die Installation hinreichend&nbsp;erklärt.</p> <p>Die Falle ist gestellt und wenn nun ein Crawler diesen Link verbotenerweise aufruft, wandert sein User-Agent und seine <a class="reference external" href="http://de.wikipedia.org/wiki/Internet%20Protocol"><span class="caps">IP</span></a> schnurstracks in die Blacklist und die .htaccess. In Zukunft&nbsp; bekommt der entsprechende Spider nur noch eine Fehlerseite zu sehen. Damit sich aber niemand versehentlich aussperrt, kann man sich auf dieser selbst wieder freischalten. Einem Bot ist das nicht möglich, da er über den <a class="reference external" href="http://de.wikipedia.org/wiki/Captcha"><span class="caps">CAPTCHA</span></a>-Code stolpern&nbsp;würde.</p> <p>Hoffen wir das es&nbsp;hilft.</p> <p>Ein weiteres Projekt mit ähnlichen Zielen ist <a class="reference external" href="http://www.bot-trap.de">Bot-Trap</a> welches auch vom inzwischen eingestellten Dissalow vorgeschlagen wurde. Allerdings muss man sich aufwendig anmelden.&nbsp;:-(</p> <div class="line-block"> <div class="line">Und hier nochmal der Link, um das Projekt zu unterstützen:</div> <div class="line">:arrow: <a class="reference external image-reference" href="http://www.spider-trap.de"><img alt="image0" src="http://www.spider-trap.de/images/no-badbot.gif" /></a></div> <div class="line"><br /></div> </div> LiomanTue, 28 Apr 2009 13:24:00 +0200tag:lioman.de,2009-04-28:/2009/04/boesen-bots-kampf-ansagen/DigitalBotCrawlerrobots.txtSpamSpider