Blogcounter, Schwanzlängen und andere Lügen

Im Moment wird ja mal wieder wild über Hitzahlen und ähnlichen Unfug diskutiert. Meist interessieren die mich nicht (mein Server hat ein abstrus hohes Freivolumen, das ich eh nie ausnutzen kann, die Serverlast ist auch gering - also was scherts mich, wie viel hier ankommt?), aber bei den diversen Verkündungen von Hitzahlen, Pagesviews und Visits muss ich dann doch immer leicht grinsen.

Mal so als kleine Analyse der ganzen Geschichte. Zuerst der wichtigste Teil: wo kommen die her, diese Zahlen? Grundsätzlich gibts zwei Möglichkeiten. Eine baut darauf auf, das Seiten ein kleines Element enthalten (z.B. ein Image - manchmal unsichtbar - oder ein Stück JavaScript oder ein Iframe - alle gemeinhin unter dem Begriff Webbug (Web-Wanze) zusammengefasst) welches gezählt wird. Die andere Methode geht auf die Logfiles des Webservers und wertet diese aus. Es gibt noch eine dritte, bei der über einen Cookie der einzelne Besucher identifiziert wird - ist aber eher seltener in Benutzung, ausser für einige eher unbeliebte Werbesysteme.

Es gibt grundsätzlich eigentlich nur wenige echte Zahlen die sowas wirklich liefern kann (mit Ausnahme der Individualisierung über Cookies): zum einen Hits, zum anderen Megabytes and Transfer. Ganz entfernt nützlich gibts noch die Anzahl unterschiedlicher Hosts (IP-Adressen) die zugegriffen haben.

Diese Zahlen haben aber ein problem: sie sind rein technisch. Und damit stark von der Technik abhängig. Hits gehen rauf, wenn man viele externe Elemente hat. Bytes gehen rauf wenn man viele lange Seiten hat (oder grosse Bilder oder ...). IP-Adressen gehen runter, wenn viele Besucher hinter Proxies hängen. Und gehen rauf, wenn man viele ISDN-User hat - wegen der dynamischen Einwahladressen. Veränderungen in den Zahlen haben also sowohl mit Veränderungen bei den Besuchern als auch bei den Seiten zur Ursache.

All diese Zahlen sind also so aussagekräftig wie der Kaffeesatz in der morgendlichen Tasse. Deshalb ziehen Leute aus diesen - technisch zumindestens definierten - Zahlen dann andere Zahlen, die was aussagen sollen. Hier sind vor allem die Visits (Besuche auf der Webseite), die Page-Impressions (Zugriffe auf echte Seitenadressen) und die Visitors (unterschiedliche Besucher) zu nennen.

Nehmen wir mal die einfachste Zahl, die wenigstens noch rudimentäre Verankerung in der realen Welt hat: die Page-Impressions. Hierzu kann man auf verschiedenen Wegen kommen. Man kann die oben genannten Webbugs auf die Seiten packen die gezählt werden sollen. Damit ist die Zahl ungefähr so verlässlich wie das Zählsystem. Dummerweise sind die Zählsysteme das absolut nicht, aber dazu gleich mehr. Die Alternative - über die Webserver Logfiles zu gehen - ist etwas besser. Dazu zählt man einfach mit, wie viele Hits mit dem Mime-Type text/html (oder welche auch immer für die eigenen Seiten genutzt werden) ausgeliefert werden. Man kann auch nach .html zählen - aber viele Seiten haben sowas nicht mehr in den Adressen stehen, der Mime-Type ist da verlässlicher.

Aussagekraft? Naja, eher zweifelhaft. Viele Benutzer werden über ihre Provider über Zwangsproxies gezogen - ein Proxy hat aber die Eigenschaft, das er Hits vermeiden hilft. Hat ein Besucher die Seite abgerufen, wird sie möglicherweise (abhängig von der Konfiguration des Proxies) an andere Besucher aus dem Cache ausgeliefert, nicht vom Server geholt. Betrifft zum Beispiel ganz AOL - die Zahlen sind dort deutlich verfälscht. Je A-List-Bloggerisch der Blogger wirklich ist, desto verfälschter (da ja Cache-Hits häufiger sein können als bei wenig besuchten Blogs) sind die Zahlen oft.

Zusätzlich machen Browser auch sowas - Seiten zwischenspeichern. Oder Besucher machen was anderes - Seiten nochmal laden. Proxies wiederholen manchen Ladevorgang automatisch, weil der erste vielleicht wegen Timeout nicht ganz durch ging - das sind alles Verfälschungen der Zahlen. Trotzdem sind die Page-Impressions noch wenigstens halbwegs brauchbar. Ausser man benutzt Webbugs.

Denn Webbugs haben ein generelles Problem: es sind eben nicht Hauptseiten. Sondern eingebettete Objekte. Hier verhalten sich Browser oft noch hartnäckiger - was im Cache ist, wird aus dem Cache angezeigt. Wozu das Bildchen denn nochmal holen? Klar, man kann da vorbeugen mit geeigneten Header - trotzdem gehts oft genug schief. JavaScript-basierte Techniken gehen voll an Benutzern ohne JavaScript vorbei (und glaubt mir, es gibt von denen wesentlich mehr als gerne zugegeben wird). Letzten Endes haben Webbugs die gleichen Probleme wie die eigentlichen Seiten, nur noch ein paar zusätzliche, eigene Probleme. Warum die trotzdem genutzt werden? Weil es die einzige Möglichkeit ist, seine Statistiken auf einem anderen System als dem eigenen zählen zu lassen. Also unerlässlich für globale Schwanzlängenvergleiche.

Nunja, verlassen wir die Page-Impressions und damit den Bereich der Rationalität. Kommen wir zu Visits, und damit eng verwandt den Visitors. Besucher sind geheimnisvolle Wesen im Web - man sieht nur die Zugriffe, aber wer das ist und ob man ihn kennt, das ist nicht sichtbar. Um so wichtiger für Marketingzwecke, denn alles was Humbug ist und nicht nachprüfbar, lässt sich wunderbar für Marketing ausnutzen.

Besucher sind für einen Webbrowser nur über die IP des Zugriffes erkennbar, zuzüglich der Header die der Browser schickt. Das ist leider viel mehr als man wahrhaben will - aber (ausser bei den Cookie-Setzern mit individueller Benutzerverfolgung) nicht genug zur eindeutigen Identifikation. Denn Benutzer teilen sich IPs - jeder Proxy wird als eine IP aufschlagen. Benutzer nutzen vielleicht sowas wie tor - und damit ist die IP häufiger eine andere als beim letzten Mal. Benutzer teilen sich einen Rechner in einem Internet-Cafe - und damit sind es eigentlich nicht Benutzer, sondern Rechner die man zuordnet. Es gibt zwar Header die von Caches gesetzt werden mit denen man Zuordnungen machen kann - aber wenn hinter dem Cache die Benutzer alle nur private IP-Adressen nutzen (die 10.x.x.x oder 172.x.x.x oder 192.168.x.x Adressen die man so aus einschlägiger Literatur kennt), hilft das auch nicht.

Besucher sind aber noch ein bischen zuzuordnen, wenn der Zeitraum kurz ist - aber über Tage? Sorry, aber im Zeitalter von dynamischen IP-Adressen hilft das garnichts. Die Besucher von heute und die von morgen können gleich oder verschieden sein - keine Ahnung. Trotzdem wird stolz verkündet, wie viele Besucher man im Monat hatte. Hat natürlich gar keine Aussagekraft mehr. Selbst Tageszahlen sind schon stark verändert durch dynamische Einwahlen (nicht jeder benutzt ne Flatrate und hat für 24 Stunden die gleiche Adresse).

Aber um dem Wahnsinn noch einen draufzusetzen, es werden ja nicht nur die Besucher gezählt (angeblich), sondern auch noch deren Besuche. Ja, das ist dann richtig spannend. Denn was ist ein Besuch? Ok, einen Besucher über kurze Zeit wiederzuerkennen (mit all den Problemen die durch Proxies und ähnliches dazu kommen natürlich) geht so einigermaßen - und man weiss auch genau wann ein Besuch anfängt. Beim ersten Zugriff nämlich. Aber wann hört er auf? Denn ein Beenden eines Webbesuches (ein Logout) gibts ja nicht. Man geht einfach weg. Kommt nicht so schnell zurück (wenn überhaupt).

Ja, da wirds dann richtig kreativ. Nimmt man einfach die Zeitabstände der Hits? Oder - weil Besucher ja die Inhalte alle immer lesen - berechnet man den Zeitabstand ab wann ein Hit ein neuer Besuch ist aus der Grösse des zuletzt geholten Seitendokumentes? Wie filtert man regelmäßige Refreshs aus? Wie geht man mit den obigen Besucherzählproblemen um?

Garnicht. Man saugt einfach. An den Fingern. Raus kommt dann eine Zahl. Meistens auf der Basis eines Zeitabstandes zwischen Hits - lange Pause, neuer Besuch. Das zählt man einfach. Und haut es in eine Summe. Ungeachtet der Tatsache, das ein Besuch vielleicht durch ein Telefongespräch unterbrochen war - und daher zwei Visits ein Visit waren, nur halt mit Pause. Ungeachtet der Tatsache, das sich Benutzer Rechner oder IP-Adressen teilen - und damit ein Visit in wirklichkeit 10 verzahnte Visits waren.

Oh, ja, ich weiss das manche Software die Referrer-Header des Browsers benutzt um Pfade durch das System zuzuordnen und daraus dann klarerer Visits aufzubauen. Was natürlich nicht mehr glatt geht, wenn der Benutzer mit dem Back-Button zurückgeht oder eine Adresse nochmal eingibt, ohne das ein Referrer produziert wird. Oder eine personal Firewall benutzt, die Referrer teilweise filtert.

Was dann richtig putzig ist, all die Zahlen werden auf den Markt geworfen, ohne das es klare Aussagen gibt. Klar, manchmal wird gesagt über welchen Dienst man die Zahlen ermittelt hat - aber was sagt das aus? Kann man die Zahlen dort fälschen? Zählt der Betreiber korrekt (bei blogcounter.de kann man ja wohl auf banalste Weise die Zahlen verfälschen) und zählt er überhaupt sinnvoll? Ach watt, einfach Zahlen nehmen.

Gerne wird das Argument gebracht, das zwar die Zahlen nicht direkt als absolute Zahl über Zählergrenzen hinweg verglichen werden können, aber man kann ja Zahlen vom gleichen Zähler vergleichen - daraus gründen sich dann Firmen, die Geld damit verdienen, diese Kaffeesatztechnik an andere zu vermieten und damit die tollen übergreifenden Ranglisten zu realisieren. Bis dann jemand merkt, wie man die Zähler banal manipulieren kann ...

Richtig putzig wirds dann, wenn die Zahlen noch mit der Zeitachse in Deckung gebracht werden und daraus Sachen wie durchschnittliche Verweildauer und daraus dann wieder in Kombination mit der Seitengrösse ermittelt wird, wie viele Seiten gelesen und wie viele nur geklickt wurden (basierend auf der üblichen Lesegeschwindigkeit wird sowas tatsächlich von mancher Software "ausgewertet").

Fassen wir also mal zusammen: es gibt einen begrenzten Rahmen an Informationen auf denen man aufsetzen kann. Das sind Hits (also Abrufe vom Server), Hosts (also abrufende IP-Adressen) und übertragene Mengen (summiert die Bytes aus den Abrufen). Dazu noch Hilfsinformationen wie z.B. Referrer und unter Umständen Cookies. Alle Zahlen können manipuliert und verfälscht werden - und viele werden durch gängige Internet-Techniken auch tatsächlich verfälscht (häufigster Fall eben die cachenden Proxies).

Diese also eher unzuverlässigen Zahlen werden durch - teilweise nicht öffentliche - Algorithmen gejagt und daraus dann Mumbojumbo erzeugt, der dazu benutzt wird um zu zeigen was für ein cooler Frood man doch ist und wo das Handtuch hängt.

Und bei so einem Mumpitz soll ich mitmachen?

PS: der Autor dieses Postings hatte laut awstats-Auswertung im letzten Monat 20172 Besucher, 39213 Besuche, 112034 Seitenabrufe in 224402 Zugriffen und schob dafür 3.9 Gigabyte über die Leitung - was, wie oben festgestellt, komplett irrelevant und nichts aussagend ist, ausser das er sich vielleicht sinnvollere Hobbies suchen sollte zwinkerndes Gesicht

tags: Blogging, Texte

Paul Oct. 8, 2005, 4:23 p.m.

Klasse Artikel. Sehr informativ und für mich als interessierten Laien verständlich und einprägsam dargestellt. Danke.

Omar Abo-Namous Oct. 8, 2005, 7:50 p.m.

Nett! Man dankt.

Gruss, Omar Abo-Namous

Alain Oct. 9, 2005, 1:02 a.m.

Hey, ich hatte genau auch 3.9giga :)

Gerald Steffens Oct. 11, 2005, 12:21 p.m.

wirklich umfassend, vielleicht könnte man aber auch noch die rotierenden IPs von AOL erwähnen, auch so ein netter störfaktor.
und es gibt natürlich noch edel tools wie die software variante von urchin, die javascript, cookies und logfiles kombiniert. aber eigentlich findet man bei jedem tool haare in der suppe.


philipp Oct. 11, 2005, 5:06 p.m.

Alles in Allem durchaus richtig; wie bei jeder Statistik sind (wenn überhaupt) nur vergleichbare Zahlen, deren Messung klar nachvollziehbar ist, aussagekräftig.
Nutzen alle Blogger ein System, so kann man die Zahlen schon in ein gewisses Verhältnis zueinander setzen. Der so oft diskutierte Schwanzvergleich nach reinen Hits, Pis, Visits & Co. (deren Bedeutung bzw. Interpretation ja bekanntlich SEHR schwankt) ist meiner Meinung nach mehr ein Spaß. Die tatsächliche Relevanz eines Blogs lässt sich daraus sicherlich nicht ersehen.
Es steht und fällt alles mit der Menge der erfassten Daten und deren Interpretation.
Reicht es, um die Relevanz eines Blogs z.B. alle abonnierten Feeds zu messen, soll man diese, wenn ja in welche, Relation zu den Visits oder lieber Hits stellen bla, bla.
Wir basteln gerade u.a. an einem Statcounter für Blogs (siehe meine Webadresse) und denken über die ganze Geschichte entsprechend viel nach. Eine klare Antwort kann ich hier ehrlicherweise jedoch nicht geben.
Einige Daten sind sicherlich für so manchen interessant, es hängt halt alles von der Betrachtungsweise ab. Wenn man Spaß an einem Ranking hat, warum nicht. Frage ist aber immer wie wird nach was "gerankt" und wie wird's gemessen.
Die gemessenen Besucher (gerade in Hinblick auf die oben geschilderten Probleme) eins zu eins zu benutzen um damit z.B. gegenüber Werbekunden aufzutreten ist sicherlich, sagen wir mal "kritisch zu betrachten".
Wir wollen klar nachvollziehbar und transparent angeben, welche Daten wir wie messen. Die Interpretation der Daten und die Entscheidung ob sie veröffentlich werden sollen bleibt dem User überlassen. Was wir jedoch verhindern können (besser: was wir versuchen können zu verhindern) ist aber eine falsche Darstellung der veröffentlichten Zahlen; Ich würde mich nicht erdreisten zu behaupten ein Blog sei wichtiger als ein anderer, weil er unserer Zählung nach mehr Besucher hatte, nein, er hatte eben nur UNSERER Zählung nach mehr "Besucher" (auch ein an dortiger Stelle dann zu definierender Begriff). Auch bei uns noch in der Überlegung befindliche Feed-Statistiken drücken nicht die Relevanz eines Blogs aus, sondern eben nur etwas über die Feeds und so soll es auch dargestellt werden.








Gerrit Oct. 11, 2005, 5:33 p.m.

Ein bisschen übergangen hast Du die Möglichkeit, über ein PHP-Script an die Userdaten zu gelangen. bbclone oder chcounter sind interessante Tools, weil so einige der Nachteile von Webwanzen oder Logfiles umgangen werden.

Aber generell hast Du schon recht. Außer Acht gelassen hast Du wird in der aktuellen Diskussionen, dass man auch einfach gerne einen Trend beobachten möchte: Steigen meine Zahlen oder sinken sie? Hat die Veröffentlichung eines betsimmten Themas eine deutliche Steigerung bewirkt? Kurzum: Relative Zahlen kann man gut messen. Absolute Zahlen nicht.

hugo Oct. 11, 2005, 10:34 p.m.

@gerrit: ich hatte im Mai wesentlich höhere Hitzahlen als im September. Ich hatte aber im September wesentlich höhere Visits als im Mai. Volumen ist ebenfalls im September höher als im Mai, aber dafür war im Mai die Anzahl Hosts höher. Meine Software ist die ganze Zeit die gleiche (auch kein Update zwischendrin auf die Software) und auch die Statistiksoftware ist die gleiche Version. Soviel zu Trends und der Verlässlichkeit von relativen Zahlen :-)

hugo Oct. 11, 2005, 10:42 p.m.

Oh, und klar, Serversoftwareseitige Statistiken haben natürlich eine ganze Menge mehr Möglichkeiten - und umgehen einige der bösesten Fallen der externen Werkzeuge. Speziell weil man dort dann sehr verlässlich die explizit abgerufenen Seiten zählen kann. Nur sind halt die Schwanzvergleichsserver immer irgendwo auf irgendwelche externen Logging-Mechanismen angewiesen.

Serverintegrierte Statistiken beheben auf jeden Fall die Probleme der PageViews. Der nächste Verbesserungsschritt kann dann das Nachhalten von Sessions in der Serversoftware sein, um auch da ein etwas besseres Gefühl für Visits und Visitors zu bekommen. Aber auch da gibts genug Probleme - was ist eine Session, nur das eine Fenster, oder alle aktuellen Fenster? Hat ja auch Auswirkungen auf das was man als Visits zählt. Genauso wie Browser mit deaktivierten Cookies (außer man benutzt URL-codierte Sessions). Einfacher als mit server-externen Statistiken ist es aber auf jeden Fall.

Boris Oct. 12, 2005, 10:05 a.m.

Sehr gut und ausführlich!

Auch ich kann mir manchmal nicht unser aller Erbsenzählermentalität verkneifen, aber im Grunde interessieren mich nur die »großen« relativen Werte:

Der Vergleich der Zahlen und Werte über mehrere Monate hinweg zeigt mir, ob es generell Zuwachs oder Rückgang gibt. Dazu reichen mir die Webalizer-Übersichten.

Genauere Informationen dazu hole ich mir dann gelegentlich direkt aus den Server-Logfiles, um zu sehen, ob da stärkeres oder schwächeres Abgrasen durch Suchmaschinenbots stattfindet, ob es neue/mehr RSS-Reader-Zugriffe gibt u.ä. Die großen Such-Bots filtere ich zusätzlich mit einem grep-Shellskript aus, dann kann ich auch durchaus Rückschlüsse aus der schieren Größe der Logfiles ziehen.