<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Liomans Blog &#187; Crawler</title>
	<atom:link href="http://www.lioman.de/tag/crawler/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.lioman.de</link>
	<description>42 ist die Antwort - aber wie lautet die Frage?</description>
	<lastBuildDate>Tue, 07 Feb 2012 15:52:34 +0000</lastBuildDate>
	<language>de</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.1</generator>
<xhtml:meta xmlns:xhtml="http://www.w3.org/1999/xhtml" name="robots" content="noindex" />
		<item>
		<title>pageLogger Boterkennung verbessern</title>
		<link>http://www.lioman.de/2009/11/pagelogger-boterkennung-verbessern/</link>
		<comments>http://www.lioman.de/2009/11/pagelogger-boterkennung-verbessern/#comments</comments>
		<pubDate>Tue, 24 Nov 2009 13:04:29 +0000</pubDate>
		<dc:creator>Lioman</dc:creator>
				<category><![CDATA[Allgemein]]></category>
		<category><![CDATA[Internet]]></category>
		<category><![CDATA[Bots]]></category>
		<category><![CDATA[Crawler]]></category>
		<category><![CDATA[Download]]></category>
		<category><![CDATA[PageLogger]]></category>
		<category><![CDATA[Regex]]></category>
		<category><![CDATA[robots]]></category>
		<category><![CDATA[Statistik]]></category>

		<guid isPermaLink="false">http://www.lioman.de/?p=1144</guid>
		<description><![CDATA[<p>Ich habe schon über die Statistiksoftware pageLogger berichtet und bin auch bisher damit zufrieden. Allerdings stellte ich fest, dass die Bot-Erkennungsliste etwas mager ist. Im Verzeichnis PAGELOGGER/includes/robots liegt die Datei robots.txt. Sie ist gefüllt mit RegEx &#8211; also kleinen Textschnipseln &#8230; <a href="http://www.lioman.de/2009/11/pagelogger-boterkennung-verbessern/">Continue reading <span class="meta-nav">&#8594;</span></a></p><p>Zum Blog: <a href=http://www.lioman.de/?utm_source=feed&utm_medium=feed&utm_campaign=feed>www.lioman.de </a>
<img src="http://lioman.bplaced.net/piwik/piwik.php?idsite=1&rec=1action_name=Feed" style="border:0" alt="" />
</p>]]></description>
			<content:encoded><![CDATA[<p><strong>Ich habe schon über die Statistiksoftware pageLogger berichtet und bin auch bisher damit zufrieden. Allerdings stellte ich fest, dass die Bot-Erkennungsliste etwas mager ist. </strong></p>
<p>Im Verzeichnis PAGELOGGER/includes/robots liegt die Datei robots.txt. Sie ist gefüllt mit RegEx &#8211; also kleinen Textschnipseln die in einem <a id="aptureLink_uSmbtpQ9Up" href="http://de.wikipedia.org/wiki/User%20Agent">User Agent</a> auftauchen können &#8211; und einer Erklärung die dann im Frontend auftaucht.</p>
<p>Bsp:</p>
<pre>gaisbot/#Gaisbot
 geckobot#GeckoBot
 gencrawler#GenDoor
 gigabaz/#GigaBaz
 gigabot#GigaBot
 googlebot#Googlebot
 griffon#navi.ocn.ne.jp</pre>
<p>Doch 271 Bots sind etwas wenig sind doch mehrere Tausende inzwischen bekannt. Es sind zwar nicht alle wichtig und einige kommen sicher sehr selten auf einem kleinen Blog vorbei. trotzdem ist es sinnvoll die Liste ein wenig zu erweitern.</p>
<p>Ich habe mir verschiedene Listen im Netz angeschaut und sie dann mit ein paar Konsolenbefehlen zusammengefügt. Dann noch eine kleine Reinigung der Liste von Hand und nun werden ganze 871 <a id="aptureLink_IjQnLogNQ7" href="http://de.wikipedia.org/wiki/Webcrawler">Spider</a> unterstützt.</p>
<p>Wer sie möchte kann sie <code><a href="/wp-content/uploads/robots.zip">hier</a></code> herunterladen und in sein pageLoggerinstallation einfügen.</p>
<p>PS: Bei mir ging dies nicht über pageLogger direkt. Ich habe die Datei per <a id="aptureLink_jS04CNONNQ" href="http://de.wikipedia.org/wiki/File%20Transfer%20Protocol">FTP</a> hochgeladen.
<ul class='related_post'>
<li><a href='http://www.lioman.de/2010/11/blogstatistik-wieder-umgestellt/' title='Blogstatistik wieder umgestellt'>Blogstatistik wieder umgestellt</a></li>
<li><a href='http://www.lioman.de/2009/11/statistiktool-pagelogger/' title='Statistiktool: PageLogger'>Statistiktool: PageLogger</a></li>
<li><a href='http://www.lioman.de/2011/12/jahresrueckblick-2011/' title='Jahresrückblick 2011'>Jahresrückblick 2011</a></li>
<li><a href='http://www.lioman.de/2011/04/ubuntu-11-04-ist-drausen/' title='Ubuntu 11.04 ist draußen'>Ubuntu 11.04 ist draußen</a></li>
</ul>
<p>Zum Blog: <a href=http://www.lioman.de/?utm_source=feed&utm_medium=feed&utm_campaign=feed>www.lioman.de </a>
<img src="http://lioman.bplaced.net/piwik/piwik.php?idsite=1&rec=1action_name=Feed" style="border:0" alt="" />
</p>]]></content:encoded>
			<wfw:commentRss>http://www.lioman.de/2009/11/pagelogger-boterkennung-verbessern/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Bösen Bots den Kampf ansagen!</title>
		<link>http://www.lioman.de/2009/04/boesen-bots-kampf-ansagen/</link>
		<comments>http://www.lioman.de/2009/04/boesen-bots-kampf-ansagen/#comments</comments>
		<pubDate>Tue, 28 Apr 2009 11:24:45 +0000</pubDate>
		<dc:creator>Lioman</dc:creator>
				<category><![CDATA[Allgemein]]></category>
		<category><![CDATA[Internet]]></category>
		<category><![CDATA[Bot]]></category>
		<category><![CDATA[Crawler]]></category>
		<category><![CDATA[robots.txt]]></category>
		<category><![CDATA[Spam]]></category>
		<category><![CDATA[Spider]]></category>

		<guid isPermaLink="false">http://www.lioman.de/?p=514</guid>
		<description><![CDATA[<p>Beim Test der Statistik-Plugins ist mir aufgefallen, dass sich doch einiges an Bots, Robots und Spidern auf diesem Blog rumtreibt. Da man nicht bei allen weiß, wer sich dahinter verbirgt und was sie mit den gewonnenen Daten so treiben, habe &#8230; <a href="http://www.lioman.de/2009/04/boesen-bots-kampf-ansagen/">Continue reading <span class="meta-nav">&#8594;</span></a></p><p>Zum Blog: <a href=http://www.lioman.de/?utm_source=feed&utm_medium=feed&utm_campaign=feed>www.lioman.de </a>
<img src="http://lioman.bplaced.net/piwik/piwik.php?idsite=1&rec=1action_name=Feed" style="border:0" alt="" />
</p>]]></description>
			<content:encoded><![CDATA[<p>Beim Test der Statistik-Plugins ist mir aufgefallen, dass sich doch einiges an Bots, Robots und Spidern auf diesem Blog rumtreibt. Da man nicht bei allen weiß, wer sich dahinter verbirgt und was sie mit den gewonnenen Daten so treiben, habe ich mich entschlossen &#8220;böse Bots&#8221; auszusperren. Doch was ist ein böser Bot?</p>
<p>Sie haben alle eigentlich eines gemeinsam: sie achten nicht die <a id="aptureLink_Qt4TJdNhXo" href="http://de.wikipedia.org/wiki/Robots%20Exclusion%20Standard">robots.txt</a> und probieren eventuell sich noch zu verschleiern.</p>
<p>In der robots.txt kann man gezielt Seiten vom Spidern ausschließen, weil man da zum Beispiel Kontaktdaten hat, die nicht durch jede Suchmaschine gefunden werden soll. Ein &#8220;böser&#8221; Bot sucht aber oft genau nach solchen Seiten und achtet deshalb nicht auf die robots.txt.</p>
<p>Wenn aber ein Bot nicht darauf hört, brauch man ihn gar nicht erst verbieten. Man muss radikaler vorgehen und den entsprechenden durch die <a id="aptureLink_RzsnKADYgy" href="http://de.wikipedia.org/wiki/Htaccess">.htaccess</a> aussperren. Genau da setzt <a title="Spider Trap" href="http://www.spider-trap.de/" target="_blank">Spider-Trap</a> an. Man fügt ein kleines Bild mit Link auf seiner Startseite ein und verbietet deren crawling durch die robots.txt.</p>
<p style="text-align: center;">
<p>Die Arbeit übernimmt ein PHP-Skript dass man auf seinen Webspace installieren muss. Man bekommt es <a title="Download Spider-trap" href="http://www.spider-trap.de/download.html" target="_blank">hier</a> und auf <a title="Installation Spider-Trap" href="http://www.spider-trap.de/Installation-2.html" target="_blank">dieser Seite</a> ist die Installation hinreichend erklärt.</p>
<p>Die Falle ist gestellt und wenn nun ein Crawler diesen Link verbotenerweise aufruft, wandert sein User-Agent und seine <a id="aptureLink_SzP7so5pmz" href="http://de.wikipedia.org/wiki/Internet%20Protocol">IP</a> schnurstracks in die Blacklist und die .htaccess. In Zukunft  bekommt der entsprechende Spider nur noch eine Fehlerseite zu sehen. Damit sich aber niemand versehentlich aussperrt, kann man sich auf dieser selbst wieder freischalten. Einem Bot ist das nicht möglich, da er über den <a id="aptureLink_GwPf9BHkcs" href="http://de.wikipedia.org/wiki/Captcha">CAPTCHA</a>-Code stolpern würde.</p>
<p>Hoffen wir das es hilft.</p>
<p>Ein weiteres Projekt mit ähnlichen Zielen ist <a href="http://www.bot-trap.de" target="_blank">Bot-Trap</a> welches auch vom inzwischen eingestellten <a href="http://disallow.de/blog/2006/07/05/disallow-ist-tot/" target="_blank">Dissalow</a> vorgeschlagen wurde. Allerdings muss man sich aufwendig anmelden. <img src='http://www.lioman.de/wp-includes/images/smilies/icon_sad.gif' alt=':-(' class='wp-smiley' /> </p>
<p>Und hier nochmal der Link, um das Projekt zu unterstützen:<br />
 <img src='http://www.lioman.de/wp-includes/images/smilies/icon_arrow.gif' alt=':arrow:' class='wp-smiley' />  <!--Beginn Code --> <a href="http://www.spider-trap.de"><img src="http://www.spider-trap.de/images/no-badbot.gif" border="0" alt="" /></a><br />
<!--End Code -->
<ul class='related_post'>
<li><a href='http://www.lioman.de/2010/11/neuer-spamfilter-antispambee/' title='Neuer Spamfilter: AntispamBee'>Neuer Spamfilter: AntispamBee</a></li>
<li><a href='http://www.lioman.de/2010/11/spammer-sehen-weniger/' title='Spammer sehen weniger'>Spammer sehen weniger</a></li>
<li><a href='http://www.lioman.de/2010/11/21-spammer/' title='#21 Spammer'>#21 Spammer</a></li>
<li><a href='http://www.lioman.de/2009/11/lobende-spammer/' title='Lobende Spammer'>Lobende Spammer</a></li>
</ul>
<p>Zum Blog: <a href=http://www.lioman.de/?utm_source=feed&utm_medium=feed&utm_campaign=feed>www.lioman.de </a>
<img src="http://lioman.bplaced.net/piwik/piwik.php?idsite=1&rec=1action_name=Feed" style="border:0" alt="" />
</p>]]></content:encoded>
			<wfw:commentRss>http://www.lioman.de/2009/04/boesen-bots-kampf-ansagen/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Eine freie Suche</title>
		<link>http://www.lioman.de/2009/04/ein-freie-suche/</link>
		<comments>http://www.lioman.de/2009/04/ein-freie-suche/#comments</comments>
		<pubDate>Mon, 27 Apr 2009 10:58:12 +0000</pubDate>
		<dc:creator>Lioman</dc:creator>
				<category><![CDATA[Internet]]></category>
		<category><![CDATA[PC und Technik]]></category>
		<category><![CDATA[Crawler]]></category>
		<category><![CDATA[google]]></category>
		<category><![CDATA[Index]]></category>
		<category><![CDATA[open source]]></category>
		<category><![CDATA[P2P]]></category>
		<category><![CDATA[Suchmaschine]]></category>
		<category><![CDATA[verteiltes Rechnen]]></category>
		<category><![CDATA[Yacy]]></category>

		<guid isPermaLink="false">http://www.lioman.de/?p=502</guid>
		<description><![CDATA[<p>Viele sind wahrscheinlich mit folgenden Begriffen vertraut: Verteiltes Rechnen und P2P. Wenn man diese beiden Techniken kombiniert und noch einen Crawler und eine Suchmaske hinzufügt erhält man die perfekte Internetsuchmaschine. Sie ist von keinem Unternehmen kontrollierbar, durch Dezentralität vor Ausfällen &#8230; <a href="http://www.lioman.de/2009/04/ein-freie-suche/">Continue reading <span class="meta-nav">&#8594;</span></a></p><p>Zum Blog: <a href=http://www.lioman.de/?utm_source=feed&utm_medium=feed&utm_campaign=feed>www.lioman.de </a>
<img src="http://lioman.bplaced.net/piwik/piwik.php?idsite=1&rec=1action_name=Feed" style="border:0" alt="" />
</p>]]></description>
			<content:encoded><![CDATA[<p>Viele sind wahrscheinlich mit folgenden Begriffen vertraut: <a id="aptureLink_cq0zC9GHuA" href="http://de.wikipedia.org/wiki/Verteiltes%20Rechnen">Verteiltes Rechnen</a> und <a id="aptureLink_jw5l5SYdF6" href="http://de.wikipedia.org/wiki/Peer-to-Peer">P2P</a>. Wenn man diese beiden Techniken kombiniert und noch einen <a id="aptureLink_5TijUuYgPi" href="http://de.wikipedia.org/wiki/Crawler">Crawler</a> und eine Suchmaske hinzufügt erhält man die perfekte Internetsuchmaschine. Sie ist von keinem Unternehmen kontrollierbar, durch Dezentralität vor Ausfällen und Angriffen sicher, kostenlos, quelloffen und eine Zensur ist nicht möglich.</p>
<p>Soweit die Theorie. Die Praxis liefert die Suchmaschine YaCy &#8211; <strong>Y</strong>et <strong>a</strong>nother <strong>Cy</strong>berspace.</p>
<p>Unter <a title="YaCy" href="http://yacy.net" target="_blank">yacy.net</a> läd man sich den Client runter, der &#8211; Dank Java &#8211; auf allen gängigen <a id="aptureLink_xBjrRctWP7" href="http://de.wikipedia.org/wiki/Betriebssystem">OS</a> läuft.</p>
<p>Unter Linux verläuft die Installation problemlos. Einfach entpacken und das Skript <em>startYACY.sh</em> starten.</p>
<p>Das war es schon nun kann man den Weltweiten Index nutzen und dazu beitragen indem man  eigene Crawler losschickt oder über einen Proxy crawlt. Eine umfassende Wiki zur Konfiguration des Clients findet man <a title="Yacy Wiki" href="http://www.yacy-websuche.de/wiki/index.php/De:Start" target="_blank">hier</a>.</p>
<p style="text-align: center;">
<p>Doch das ganze hat leider auch Nachteile.</p>
<p>Mit älteren und schwächeren Rechnern hat man Probleme, da die JVM ordentlich Sprit frisst und der Crawler dann das ganze System in die Knie zwingt. Man kann zwar den benutzten Arbeitsspeicher kontrollieren nur wird damit der Client auch langsamer.</p>
<p>Da es gar keinen zentralen Index gibt und kein Trust-Modell dauert die Suche etwas länger (kontaktieren anderer Peers) und das System ist anfällig für Spammer. Und der größte Nachteil: Es gibt keine Zentrale Suchmaske, es ist und bleibt damit eine Nischenlösung, wer will denn erst Clients starten und rumkonfigurieren wenn er nur mal schnell ein Kochrezept raussuchen möchte.</p>
<p>Fazit: Interessanter Ansatz aber für Otto-Normalverbraucher zu unpraktikabel.</p>
<p>Alternative: <a title="Wikia Search" href="http://search.wikia.com/" target="_blank">Wikia Search</a> (freier Index, Offen, Bewertung der Ergebnisse, zwar kein P2P aber mit <a title="GrubNG" href="http://www.grub.org/?q=en/project" target="_blank">GrubNG</a> kann man auch dazu beitragen
<ul class='related_post'>
<li><a href='http://www.lioman.de/2010/01/google-cn-ohne-zensur/' title='Google.cn ohne Zensur'>Google.cn ohne Zensur</a></li>
<li><a href='http://www.lioman.de/2009/11/mal-wieder-statistik/' title='Mal wieder Statistik'>Mal wieder Statistik</a></li>
<li><a href='http://www.lioman.de/2009/06/gruene-suche/' title='Grüne Suche'>Grüne Suche</a></li>
<li><a href='http://www.lioman.de/2009/06/wikia-search-tot/' title='Wikia Search tot'>Wikia Search tot</a></li>
</ul>
<p>Zum Blog: <a href=http://www.lioman.de/?utm_source=feed&utm_medium=feed&utm_campaign=feed>www.lioman.de </a>
<img src="http://lioman.bplaced.net/piwik/piwik.php?idsite=1&rec=1action_name=Feed" style="border:0" alt="" />
</p>]]></content:encoded>
			<wfw:commentRss>http://www.lioman.de/2009/04/ein-freie-suche/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>

