Liomans Blog - Crawler

pageLogger Boterkennung verbessern

Lioman — Tue, 24 Nov 2009 14:04:00 +0100

Ich habe schon über die Statistiksoftware pageLogger berichtet und bin auch bisher damit zufrieden. Allerdings stellte ich fest, dass die Bot-Erkennungsliste etwas mager ist.

Im Verzeichnis PAGELOGGER/includes/robots liegt die Datei robots.txt. Sie ist gefüllt mit RegEx - also kleinen Textschnipseln die in einem User Agent auftauchen können - und einer Erklärung die dann im Frontend auftaucht.

Bsp:

gaisbot/#Gaisbot
 geckobot#GeckoBot
 gencrawler#GenDoor
 gigabaz/#GigaBaz
 gigabot#GigaBot
 googlebot#Googlebot
 griffon#navi.ocn.ne.jp

Doch 271 Bots sind etwas wenig sind doch mehrere Tausende inzwischen bekannt. Es sind zwar nicht alle wichtig und einige kommen sicher sehr selten auf einem kleinen Blog vorbei. trotzdem ist es sinnvoll die Liste ein wenig zu erweitern.

Ich habe mir verschiedene Listen im Netz angeschaut und sie dann mit ein paar Konsolenbefehlen zusammengefügt. Dann noch eine kleine Reinigung der Liste von Hand und nun werden ganze 871 Spider unterstützt.

Wer sie möchte kann sie hier herunterladen und in sein pageLoggerinstallation einfügen.

PS: Bei mir ging dies nicht über pageLogger direkt. Ich habe die Datei per FTP hochgeladen.

Bösen Bots den Kampf ansagen!

Lioman — Tue, 28 Apr 2009 13:24:00 +0200

Beim Test der Statistik-Plugins ist mir aufgefallen, dass sich doch einiges an Bots, Robots und Spidern auf diesem Blog rumtreibt. Da man nicht bei allen weiß, wer sich dahinter verbirgt und was sie mit den gewonnenen Daten so treiben, habe ich mich entschlossen “böse Bots” auszusperren. Doch was ist ein böser Bot?

Sie haben alle eigentlich eines gemeinsam: sie achten nicht die robots.txt und probieren eventuell sich noch zu verschleiern.

In der robots.txt kann man gezielt Seiten vom Spidern ausschließen, weil man da zum Beispiel Kontaktdaten hat, die nicht durch jede Suchmaschine gefunden werden soll. Ein “böser” Bot sucht aber oft genau nach solchen Seiten und achtet deshalb nicht auf die robots.txt.

Wenn aber ein Bot nicht darauf hört, brauch man ihn gar nicht erst verbieten. Man muss radikaler vorgehen und den entsprechenden durch die .htaccess aussperren. Genau da setzt Spider-Trap an. Man fügt ein kleines Bild mit Link auf seiner Startseite ein und verbietet deren crawling durch die robots.txt.

Die Arbeit übernimmt ein PHP-Skript dass man auf seinen Webspace installieren muss. Man bekommt es hier und auf dieser Seite ist die Installation hinreichend erklärt.

Die Falle ist gestellt und wenn nun ein Crawler diesen Link verbotenerweise aufruft, wandert sein User-Agent und seine IP schnurstracks in die Blacklist und die .htaccess. In Zukunft bekommt der entsprechende Spider nur noch eine Fehlerseite zu sehen. Damit sich aber niemand versehentlich aussperrt, kann man sich auf dieser selbst wieder freischalten. Einem Bot ist das nicht möglich, da er über den CAPTCHA-Code stolpern würde.

Hoffen wir das es hilft.

Ein weiteres Projekt mit ähnlichen Zielen ist Bot-Trap welches auch vom inzwischen eingestellten Dissalow vorgeschlagen wurde. Allerdings muss man sich aufwendig anmelden. :-(

Und hier nochmal der Link, um das Projekt zu unterstützen:
:arrow: 

Eine freie Suche

Lioman — Mon, 27 Apr 2009 12:58:00 +0200

Viele sind wahrscheinlich mit folgenden Begriffen vertraut: Verteiltes Rechnen und P2P. Wenn man diese beiden Techniken kombiniert und noch einen Crawler und eine Suchmaske hinzufügt erhält man die perfekte Internetsuchmaschine. Sie ist von keinem Unternehmen kontrollierbar, durch Dezentralität vor Ausfällen und Angriffen sicher, kostenlos, quelloffen und eine Zensur ist nicht möglich.

Soweit die Theorie. Die Praxis liefert die Suchmaschine YaCy - Yet another Cyberspace.

Unter yacy.net läd man sich den Client runter, der - Dank Java - auf allen gängigen OS läuft.

Unter Linux verläuft die Installation problemlos. Einfach entpacken und das Skript startYACY.sh starten.

Das war es schon nun kann man den Weltweiten Index nutzen und dazu beitragen indem man eigene Crawler losschickt oder über einen Proxy crawlt. Eine umfassende Wiki zur Konfiguration des Clients findet man hier.

Doch das ganze hat leider auch Nachteile.

Mit älteren und schwächeren Rechnern hat man Probleme, da die JVM ordentlich Sprit frisst und der Crawler dann das ganze System in die Knie zwingt. Man kann zwar den benutzten Arbeitsspeicher kontrollieren nur wird damit der Client auch langsamer.

Da es gar keinen zentralen Index gibt und kein Trust-Modell dauert die Suche etwas länger (kontaktieren anderer Peers) und das System ist anfällig für Spammer. Und der größte Nachteil: Es gibt keine Zentrale Suchmaske, es ist und bleibt damit eine Nischenlösung, wer will denn erst Clients starten und rumkonfigurieren wenn er nur mal schnell ein Kochrezept raussuchen möchte.

Fazit: Interessanter Ansatz aber für Otto-Normalverbraucher zu unpraktikabel.

Alternative: Wikia Search (freier Index, Offen, Bewertung der Ergebnisse, zwar kein P2P aber mit GrubNG kann man auch dazu beitragen