Liomans Blog - robotshttps://lioman.de/42 ist die Antwort – aber wie lautet die Frage?Tue, 24 Nov 2009 14:04:00 +0100pageLogger Boterkennung verbessernhttps://lioman.de/2009/11/pagelogger-boterkennung-verbessern/<p><strong>Ich habe schon über die Statistiksoftware pageLogger berichtet und bin auch bisher damit zufrieden. Allerdings stellte ich fest, dass die Bot-Erkennungsliste etwas mager&nbsp;ist.</strong></p> <p>Im Verzeichnis <span class="caps">PAGELOGGER</span>/includes/robots liegt die Datei robots.txt. Sie ist gefüllt mit RegEx - also kleinen Textschnipseln die in einem <a class="reference external" href="http://de.wikipedia.org/wiki/User%20Agent">User Agent</a> auftauchen können - und einer Erklärung die dann im Frontend&nbsp;auftaucht.</p> <p>Bsp:</p> <pre class="literal-block"> gaisbot/#Gaisbot geckobot#GeckoBot gencrawler#GenDoor gigabaz/#GigaBaz gigabot#GigaBot googlebot#Googlebot griffon#navi.ocn.ne.jp </pre> <p>Doch 271 Bots sind etwas wenig sind doch mehrere Tausende inzwischen bekannt. Es sind zwar nicht alle wichtig und einige kommen sicher sehr selten auf einem kleinen Blog vorbei. trotzdem ist es sinnvoll die Liste ein wenig zu&nbsp;erweitern.</p> <p>Ich habe mir verschiedene Listen im Netz angeschaut und sie dann mit ein paar Konsolenbefehlen zusammengefügt. Dann noch eine kleine Reinigung der Liste von Hand und nun werden ganze 871 <a class="reference external" href="http://de.wikipedia.org/wiki/Webcrawler">Spider</a>&nbsp;unterstützt.</p> <p>Wer sie möchte kann sie <tt class="docutils literal">hier</tt> herunterladen und in sein pageLoggerinstallation&nbsp;einfügen.</p> <p><span class="caps">PS</span>: Bei mir ging dies nicht über pageLogger direkt. Ich habe die Datei per <a class="reference external" href="http://de.wikipedia.org/wiki/File%20Transfer%20Protocol"><span class="caps">FTP</span></a>&nbsp;hochgeladen.</p> LiomanTue, 24 Nov 2009 14:04:00 +0100tag:lioman.de,2009-11-24:/2009/11/pagelogger-boterkennung-verbessern/DigitalBotsCrawlerDownloadPageLoggerRegexrobotsStatistik