<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Liomans Blog &#187; Regex</title>
	<atom:link href="http://www.lioman.de/tag/regex/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.lioman.de</link>
	<description>42 ist die Antwort - aber wie lautet die Frage?</description>
	<lastBuildDate>Fri, 11 May 2012 09:45:30 +0000</lastBuildDate>
	<language>de</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.2</generator>
		<item>
		<title>pageLogger Boterkennung verbessern</title>
		<link>http://www.lioman.de/2009/11/pagelogger-boterkennung-verbessern/</link>
		<comments>http://www.lioman.de/2009/11/pagelogger-boterkennung-verbessern/#comments</comments>
		<pubDate>Tue, 24 Nov 2009 13:04:29 +0000</pubDate>
		<dc:creator>Lioman</dc:creator>
				<category><![CDATA[Allgemein]]></category>
		<category><![CDATA[Internet]]></category>
		<category><![CDATA[Bots]]></category>
		<category><![CDATA[Crawler]]></category>
		<category><![CDATA[Download]]></category>
		<category><![CDATA[PageLogger]]></category>
		<category><![CDATA[Regex]]></category>
		<category><![CDATA[robots]]></category>
		<category><![CDATA[Statistik]]></category>

		<guid isPermaLink="false">http://www.lioman.de/?p=1144</guid>
		<description><![CDATA[<p>Ich habe schon über die Statistiksoftware pageLogger berichtet und bin auch bisher damit zufrieden. Allerdings stellte ich fest, dass die Bot-Erkennungsliste etwas mager ist. Im Verzeichnis PAGELOGGER/includes/robots liegt die Datei robots.txt. Sie ist gefüllt mit RegEx &#8211; also kleinen Textschnipseln &#8230; <a href="http://www.lioman.de/2009/11/pagelogger-boterkennung-verbessern/">Continue reading <span class="meta-nav">&#8594;</span></a></p><p>Zum Blog: <a href=http://www.lioman.de/?utm_source=feed&utm_medium=feed&utm_campaign=feed>www.lioman.de </a>
<img src="http://lioman.bplaced.net/piwik/piwik.php?idsite=1&rec=1action_name=Feed" style="border:0" alt="" />
</p>]]></description>
			<content:encoded><![CDATA[<p><strong>Ich habe schon über die Statistiksoftware pageLogger berichtet und bin auch bisher damit zufrieden. Allerdings stellte ich fest, dass die Bot-Erkennungsliste etwas mager ist. </strong></p>
<p>Im Verzeichnis PAGELOGGER/includes/robots liegt die Datei robots.txt. Sie ist gefüllt mit RegEx &#8211; also kleinen Textschnipseln die in einem <a id="aptureLink_uSmbtpQ9Up" href="http://de.wikipedia.org/wiki/User%20Agent">User Agent</a> auftauchen können &#8211; und einer Erklärung die dann im Frontend auftaucht.</p>
<p>Bsp:</p>
<pre>gaisbot/#Gaisbot
 geckobot#GeckoBot
 gencrawler#GenDoor
 gigabaz/#GigaBaz
 gigabot#GigaBot
 googlebot#Googlebot
 griffon#navi.ocn.ne.jp</pre>
<p>Doch 271 Bots sind etwas wenig sind doch mehrere Tausende inzwischen bekannt. Es sind zwar nicht alle wichtig und einige kommen sicher sehr selten auf einem kleinen Blog vorbei. trotzdem ist es sinnvoll die Liste ein wenig zu erweitern.</p>
<p>Ich habe mir verschiedene Listen im Netz angeschaut und sie dann mit ein paar Konsolenbefehlen zusammengefügt. Dann noch eine kleine Reinigung der Liste von Hand und nun werden ganze 871 <a id="aptureLink_IjQnLogNQ7" href="http://de.wikipedia.org/wiki/Webcrawler">Spider</a> unterstützt.</p>
<p>Wer sie möchte kann sie <code>&lt;a href="/wp-content/uploads/robots.zip"&gt;hier&lt;/a&gt;</code> herunterladen und in sein pageLoggerinstallation einfügen.</p>
<p>PS: Bei mir ging dies nicht über pageLogger direkt. Ich habe die Datei per <a id="aptureLink_jS04CNONNQ" href="http://de.wikipedia.org/wiki/File%20Transfer%20Protocol">FTP</a> hochgeladen.
<ul class='related_post'>
<li><a href='http://www.lioman.de/2010/11/blogstatistik-wieder-umgestellt/' title='Blogstatistik wieder umgestellt'>Blogstatistik wieder umgestellt</a></li>
<li><a href='http://www.lioman.de/2009/11/statistiktool-pagelogger/' title='Statistiktool: PageLogger'>Statistiktool: PageLogger</a></li>
<li><a href='http://www.lioman.de/2011/12/jahresrueckblick-2011/' title='Jahresrückblick 2011'>Jahresrückblick 2011</a></li>
<li><a href='http://www.lioman.de/2011/04/ubuntu-11-04-ist-drausen/' title='Ubuntu 11.04 ist draußen'>Ubuntu 11.04 ist draußen</a></li>
</ul>
<p>Zum Blog: <a href=http://www.lioman.de/?utm_source=feed&utm_medium=feed&utm_campaign=feed>www.lioman.de </a>
<img src="http://lioman.bplaced.net/piwik/piwik.php?idsite=1&rec=1action_name=Feed" style="border:0" alt="" />
</p>]]></content:encoded>
			<wfw:commentRss>http://www.lioman.de/2009/11/pagelogger-boterkennung-verbessern/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>

