Liomans Blog

42 ist die Antwort - aber wie lautet die Frage?

Tag: Statistik (page 2 of 4)

Konsolentipps #003: GoogleNgram-Dateien runterladen

Bei Commandlinefu habe ich einen Befehl entdeckt, wie man die Daten des wirklich interessanten Tool GoogleNgram runterladen kann.
Möchte man nicht gleich alle, sondern nur die in einer bestimmten Sprache, auf den heimischen Rechner ziehen möchte hilft folgender Befehl:

Nun wird der komplette Datensatz in Deutsch runtergeladen. Möchte man andere Sprachen haben muss man sich die Links auf der Ngram-Datasetseite anschauen und die beiden “ger” durch die gewünschte Sprache ersetzen (z.B. “fra” für Französisch)

Flattr this!

Jahresrückblick 2010 – was die Suche sagt

Die Zeit der Jahresrückblicke ist im vollen Gange. Überall tauchen im Fernsehen Laberbacken Talkmaster auf und Redaktionen verpacken alles was in diesem Jahre passiert ist neu in kleinen Filmchen, damit diese ausgiebig bequatscht werden.

Je nach Sendezeit und Sender ist es ein gewaltiger Qualitätssprung nach oben in langweilige Sinnlosigkeit. Interessanter ist das was Google uns bietet. Was wurde im letzten Jahr gesucht und besucht. Das tolle: Niemand filtert und bequatscht es. Schlichte einfache Statistik, denn wir sind der Suchmaschine gegenüber immer ehrlich.

Das ganze gibt es aufgeteilt nach Ländern (z.B. Deutschland) oder auch International, mit ein paar netten Grafiken aufgehübscht oder auch in der Zusammenfassung als (werbe)Filmchen:

Flattr this!

Blogstatistik wieder umgestellt

Ich hatte vor einiger Zeit berichtet, dass ich pagelogger als Statistiktool einsetze und wie man die Boterkennung verbessert. Nun habe ich das System wieder gewechselt und mich für die freie GoogleAnalytics-Alternative Piwik entschieden. pagelogger war etwas dürftig in der Ausstattung und wird nicht aktiv weiterentwickelt (zumindest tut sich nix). Bei Piwik habe ich zudem die Möglichkeit leicht alle Ips zu anonymisieren. Ich speichere also keine Personenbezogene Daten – außer wenn ein Kommentar veröffentlicht wird. Die Daten werden aber nicht weitergegeben.

Flattr this!

pageLogger Boterkennung verbessern

Ich habe schon über die Statistiksoftware pageLogger berichtet und bin auch bisher damit zufrieden. Allerdings stellte ich fest, dass die Bot-Erkennungsliste etwas mager ist.

Im Verzeichnis PAGELOGGER/includes/robots liegt die Datei robots.txt. Sie ist gefüllt mit RegEx – also kleinen Textschnipseln die in einem User Agent auftauchen können – und einer Erklärung die dann im Frontend auftaucht.

Bsp:

Doch 271 Bots sind etwas wenig sind doch mehrere Tausende inzwischen bekannt. Es sind zwar nicht alle wichtig und einige kommen sicher sehr selten auf einem kleinen Blog vorbei. trotzdem ist es sinnvoll die Liste ein wenig zu erweitern.

Ich habe mir verschiedene Listen im Netz angeschaut und sie dann mit ein paar Konsolenbefehlen zusammengefügt. Dann noch eine kleine Reinigung der Liste von Hand und nun werden ganze 871 Spider unterstützt.

Wer sie möchte kann sie hier herunterladen und in sein pageLoggerinstallation einfügen.

PS: Bei mir ging dies nicht über pageLogger direkt. Ich habe die Datei per FTP hochgeladen.

Flattr this!

Older posts Newer posts

© 2015 Liomans Blog

Theme by Anders NorenUp ↑