Liomans Blog - Crawlerhttps://lioman.de/42 ist die Antwort – aber wie lautet die Frage?Tue, 24 Nov 2009 14:04:00 +0100pageLogger Boterkennung verbessernhttps://lioman.de/2009/11/pagelogger-boterkennung-verbessern/<p><strong>Ich habe schon über die Statistiksoftware pageLogger berichtet und bin auch bisher damit zufrieden. Allerdings stellte ich fest, dass die Bot-Erkennungsliste etwas mager&nbsp;ist.</strong></p> <p>Im Verzeichnis <span class="caps">PAGELOGGER</span>/includes/robots liegt die Datei robots.txt. Sie ist gefüllt mit RegEx - also kleinen Textschnipseln die in einem <a class="reference external" href="http://de.wikipedia.org/wiki/User%20Agent">User Agent</a> auftauchen können - und einer Erklärung die dann im Frontend&nbsp;auftaucht.</p> <p>Bsp:</p> <pre class="literal-block"> gaisbot/#Gaisbot geckobot#GeckoBot gencrawler#GenDoor gigabaz/#GigaBaz gigabot#GigaBot googlebot#Googlebot griffon#navi.ocn.ne.jp </pre> <p>Doch 271 Bots sind etwas wenig sind doch mehrere Tausende inzwischen bekannt. Es sind zwar nicht alle wichtig und einige kommen sicher sehr selten auf einem kleinen Blog vorbei. trotzdem ist es sinnvoll die Liste ein wenig zu&nbsp;erweitern.</p> <p>Ich habe mir verschiedene Listen im Netz angeschaut und sie dann mit ein paar Konsolenbefehlen zusammengefügt. Dann noch eine kleine Reinigung der Liste von Hand und nun werden ganze 871 <a class="reference external" href="http://de.wikipedia.org/wiki/Webcrawler">Spider</a>&nbsp;unterstützt.</p> <p>Wer sie möchte kann sie <tt class="docutils literal">hier</tt> herunterladen und in sein pageLoggerinstallation&nbsp;einfügen.</p> <p><span class="caps">PS</span>: Bei mir ging dies nicht über pageLogger direkt. Ich habe die Datei per <a class="reference external" href="http://de.wikipedia.org/wiki/File%20Transfer%20Protocol"><span class="caps">FTP</span></a>&nbsp;hochgeladen.</p> LiomanTue, 24 Nov 2009 14:04:00 +0100tag:lioman.de,2009-11-24:/2009/11/pagelogger-boterkennung-verbessern/DigitalBotsCrawlerDownloadPageLoggerRegexrobotsStatistikBösen Bots den Kampf ansagen!https://lioman.de/2009/04/boesen-bots-kampf-ansagen/<p>Beim Test der Statistik-Plugins ist mir aufgefallen, dass sich doch einiges an Bots, Robots und Spidern auf diesem Blog rumtreibt. Da man nicht bei allen weiß, wer sich dahinter verbirgt und was sie mit den gewonnenen Daten so treiben, habe ich mich entschlossen &#8220;böse Bots&#8221; auszusperren. Doch was ist ein böser&nbsp;Bot?</p> <p>Sie haben alle eigentlich eines gemeinsam: sie achten nicht die <a class="reference external" href="http://de.wikipedia.org/wiki/Robots%20Exclusion%20Standard">robots.txt</a> und probieren eventuell sich noch zu&nbsp;verschleiern.</p> <p>In der robots.txt kann man gezielt Seiten vom Spidern ausschließen, weil man da zum Beispiel Kontaktdaten hat, die nicht durch jede Suchmaschine gefunden werden soll. Ein &#8220;böser&#8221; Bot sucht aber oft genau nach solchen Seiten und achtet deshalb nicht auf die&nbsp;robots.txt.</p> <p>Wenn aber ein Bot nicht darauf hört, brauch man ihn gar nicht erst verbieten. Man muss radikaler vorgehen und den entsprechenden durch die <a class="reference external" href="http://de.wikipedia.org/wiki/Htaccess">.htaccess</a> aussperren. Genau da setzt <a class="reference external" href="http://www.spider-trap.de/">Spider-Trap</a> an. Man fügt ein kleines Bild mit Link auf seiner Startseite ein und verbietet deren crawling durch die&nbsp;robots.txt.</p> <p>Die Arbeit übernimmt ein <span class="caps">PHP</span>-Skript dass man auf seinen Webspace installieren muss. Man bekommt es <a class="reference external" href="http://www.spider-trap.de/download.html">hier</a> und auf <a class="reference external" href="http://www.spider-trap.de/Installation-2.html">dieser Seite</a> ist die Installation hinreichend&nbsp;erklärt.</p> <p>Die Falle ist gestellt und wenn nun ein Crawler diesen Link verbotenerweise aufruft, wandert sein User-Agent und seine <a class="reference external" href="http://de.wikipedia.org/wiki/Internet%20Protocol"><span class="caps">IP</span></a> schnurstracks in die Blacklist und die .htaccess. In Zukunft&nbsp; bekommt der entsprechende Spider nur noch eine Fehlerseite zu sehen. Damit sich aber niemand versehentlich aussperrt, kann man sich auf dieser selbst wieder freischalten. Einem Bot ist das nicht möglich, da er über den <a class="reference external" href="http://de.wikipedia.org/wiki/Captcha"><span class="caps">CAPTCHA</span></a>-Code stolpern&nbsp;würde.</p> <p>Hoffen wir das es&nbsp;hilft.</p> <p>Ein weiteres Projekt mit ähnlichen Zielen ist <a class="reference external" href="http://www.bot-trap.de">Bot-Trap</a> welches auch vom inzwischen eingestellten Dissalow vorgeschlagen wurde. Allerdings muss man sich aufwendig anmelden.&nbsp;:-(</p> <div class="line-block"> <div class="line">Und hier nochmal der Link, um das Projekt zu unterstützen:</div> <div class="line">:arrow: <a class="reference external image-reference" href="http://www.spider-trap.de"><img alt="image0" src="http://www.spider-trap.de/images/no-badbot.gif" /></a></div> <div class="line"><br /></div> </div> LiomanTue, 28 Apr 2009 13:24:00 +0200tag:lioman.de,2009-04-28:/2009/04/boesen-bots-kampf-ansagen/DigitalBotCrawlerrobots.txtSpamSpiderEine freie Suchehttps://lioman.de/2009/04/ein-freie-suche/<p>Viele sind wahrscheinlich mit folgenden Begriffen vertraut: <a class="reference external" href="http://de.wikipedia.org/wiki/Verteiltes%20Rechnen">Verteiltes Rechnen</a> und <a class="reference external" href="http://de.wikipedia.org/wiki/Peer-to-Peer"><span class="caps">P2P</span></a>. Wenn man diese beiden Techniken kombiniert und noch einen <a class="reference external" href="http://de.wikipedia.org/wiki/Crawler">Crawler</a> und eine Suchmaske hinzufügt erhält man die perfekte Internetsuchmaschine. Sie ist von keinem Unternehmen kontrollierbar, durch Dezentralität vor Ausfällen und Angriffen sicher, kostenlos, quelloffen und eine Zensur ist nicht&nbsp;möglich.</p> <p>Soweit die Theorie. Die Praxis liefert die Suchmaschine YaCy - <strong>Y</strong>et <strong>a</strong>nother <strong>Cy</strong>berspace.</p> <p>Unter <a class="reference external" href="http://yacy.net">yacy.net</a> läd man sich den Client runter, der - Dank Java - auf allen gängigen <a class="reference external" href="http://de.wikipedia.org/wiki/Betriebssystem"><span class="caps">OS</span></a>&nbsp;läuft.</p> <p>Unter Linux verläuft die Installation problemlos. Einfach entpacken und das Skript <em>startYACY.sh</em>&nbsp;starten.</p> <p>Das war es schon nun kann man den Weltweiten Index nutzen und dazu beitragen indem man&nbsp; eigene Crawler losschickt oder über einen Proxy crawlt. Eine umfassende Wiki zur Konfiguration des Clients findet man <a class="reference external" href="http://www.yacy-websuche.de/wiki/index.php/De:Start">hier</a>.</p> <p>Doch das ganze hat leider auch&nbsp;Nachteile.</p> <p>Mit älteren und schwächeren Rechnern hat man Probleme, da die <span class="caps">JVM</span> ordentlich Sprit frisst und der Crawler dann das ganze System in die Knie zwingt. Man kann zwar den benutzten Arbeitsspeicher kontrollieren nur wird damit der Client auch&nbsp;langsamer.</p> <p>Da es gar keinen zentralen Index gibt und kein Trust-Modell dauert die Suche etwas länger (kontaktieren anderer Peers) und das System ist anfällig für Spammer. Und der größte Nachteil: Es gibt keine Zentrale Suchmaske, es ist und bleibt damit eine Nischenlösung, wer will denn erst Clients starten und rumkonfigurieren wenn er nur mal schnell ein Kochrezept raussuchen&nbsp;möchte.</p> <p>Fazit: Interessanter Ansatz aber für Otto-Normalverbraucher zu&nbsp;unpraktikabel.</p> <p>Alternative: <a class="reference external" href="http://search.wikia.com/">Wikia Search</a> (freier Index, Offen, Bewertung der Ergebnisse, zwar kein <span class="caps">P2P</span> aber mit GrubNG kann man auch dazu&nbsp;beitragen</p> LiomanMon, 27 Apr 2009 12:58:00 +0200tag:lioman.de,2009-04-27:/2009/04/ein-freie-suche/DigitalOpen SourceCrawlerGoogleIndexP2PSuchmaschineverteiltes RechnenYacy