Da ich ja nun ein interessantes Studienobjekt hatte, wollte ich mal gucken inwieweit ich mit ein bischen Clusteranalyse in meinen Logfiles irgendwas interessantes zutagefördern würde. Ich habe also eine Matrix angelegt aus Referrern und zugreifenden IP-Adressen und mir damit mal einen Überblick über typische Userszenarien gemacht - also wie sehen normale User aus im Log, und wie sehen Referrer-Spammer aus und wie sieht unser Freund aus.
Alle drei Varianten lassen sich gut unterscheiden, auch wenn ich im Moment da noch eher davor zurückschrecken würde das algorithmisch zu fassen - das lässt sich nämlich alles recht gut simulieren. Trotzdem sind ein paar Auffälligkeiten zu sehen. Zuerst mal ein ganz normaler Benutzer:
aa.bb.cc.dd: 7 Zugriffe, 2005-02-05 03:01:45.00 - 2005-02-04 16:18:09.00 0065*- 0001*http://www.tagesschau.de/aktuell/meldungen/0,1185,OID4031994 ... 0001*http://www.tagesschau.de/aktuell/meldungen/0,1185,OID4031612 ... 0001*http://mudbomb.com/archives/2005/02/02/wysiwyg-plugin-for-wo ... 0001*http://www.heise.de/newsticker/meldung/55992 0001*http://log.netbib.de/archives/2005/02/04/nzz-online-archiv-n ... 0001*http://www.heise.de/newsticker/meldung/56000 0001*http://a.wholelottanothing.org/2005/02/no_one_can_have.html
Man sieht schön wie dieser User von meinem Weblog weggeklickt hat und wieder zurückgekommen ist - die Referrer sind nämlich mitnichten alles Links auf mich, sondern falsche Referrer die die Browser schicken, wenn der Benutzer von einer Site auf eine andere wechselt. Eigentlich sollen Referrer ja nur dann geschickt werden, wenn auch wirklich ein Link geklickt wird - kaum ein Browser macht das aber richtig. Der Besuch war an einem definierten Tag und er ist direkt eingestiegen durch Eingabe des Domainnamens (die "-" Referrer stehen oben und oben steht der früheste Referrer der vorkommt).
Oder hier mal ein Zugriff von mir:
aa.bb.cc.dd: 6 Zugriffe, 2005-02-04 01:11:56.00 - 2005-02-03 08:27:09.00 0045*- 0001*http://www.aylwardfamily.com/content/tbping.asp 0001*http://temboz.rfc1437.de/view 0001*http://web.morons.org/article.jsp?sectionid=1&id=5947 0001*http://www.tagesschau.de/aktuell/meldungen/0,1185,OID4029220 ... 0001*http://sport.ard.de/sp/fussball/news200502/03/bvb_verpfaende ... 0001*http://www.cadenhead.org/workbench/entry/2005/02/03.html
Ich erkenne mich daran, das Referrer mit temboz.rfc1437.de vorkommen - das ist mein Online-Aggregator. Sieht ähnlich aus - ne Menge falsch geschickter Referrer. Noch ein anderer User:
aa.bb.cc.dd: 19 Zugriffe, 2005-02-12 14:45:35.00 - 2005-01-31 14:17:07.00 0015*http://www.muensterland.org/system/weblogUpdates.py 0002*- 0001*http://www.google.com/search?q=cocoa+openmcl&ie=UTF-8&oe=UTF ... 0001*http://blog.schockwellenreiter.de/8136 0001*http://www.google.com/search?q=%22Rainer+Joswig%22&ie=UTF-8& ... 0001*http://www.google.com/search?q=IDEKit&hl=de&lr=&c2coff=1&sta ...
Dieser kam öfter (also mehrere Tage) über meine Update-Seite auf muensterland.org und zusätzlich hat er noch nach Lisp-Themen gesucht. Und vom Herrn der Schockwelle ist er auch mal gekommen. Absolut typisches Verhalten.
Jetzt mal im Vergleich ein typischer Referrer-Spammer:
aa.bb.cc.dd 6 Zugriffe, 2005-02-12 17:27:27.00 - 2005-02-02 09:25:22.00 0002*http://tramadol.freakycheats.com/ 0001*http://diet-pills.ronnieazza.com/ 0001*http://phentermine.psxtreme.com/ 0001*http://free-online-poker.yelucie.com/ 0001*http://poker-games.psxtreme.com/
Alle Referrer sind direkte Domain-Referrer. Keine "-" Referrer - also keine Zugriffe ohne Referrer. Keine sonstigen Zugriffe - würde ich es genauer analysieren nach Seitentyp, würde auffallen das keine Bilder etc. zugegriffen werden. Leicht zu erkennen - sieht einfach mager aus. Typisch ist auch das jede URL nur einmal oder zweimal angegeben ist.
Jetzt unser neuer Freund:
aa.bb.cc.dd: 100 Zugriffe, 2005-02-13 15:06:16.00 - 2005-02-11 07:07:55.00 0039*- 0030*http://irish.typepad.com 0015*http://www208.pair.com 0015*http://blogs.salon.com 0015*http://hfilesreviewer.f2o.org 0015*http://betas.intercom.net 0005*http://vowe.net 0005*http://spleenville.com
Was auffällt sind die Referrer ohne abschliessenden / - untypisch für Referrer-Spam. Ausserdem halt ganz normale Sites. Was auch auffällt, es werden Seiten zugegriffen ohne Referrer - dahinter verstecken sich die RSS-Feeds. Auch dieser ist also leicht von Usern zu unterscheiden. Vor allem da ein gewisser Rhythmus drin ist - scheinbar immer 15 Zugriffe mit einem Referrer, dann den Referrer wechseln. Entweder ist die Referrer-Liste recht klein, oder ich hatte Glück das er zweimal den gleichen bei mir probiert hat - einer ist nämlich 30x da.
Normale Bots braucht man nicht gross zu vergleichen - die wenigsten schicken Referrer mit und sind deshalb völlig uninteressant. Ich hatte einen, der mir aufgefallen war:
aa.bb.cc.dd: 5 Zugriffe, 2005-02-13 15:21:26.00 - 2005-01-31 01:01:07.00 2612*- 0003*http://www.everyfeed.com/admin/new_site_validation.php?site= ... 0002*http://www.everyfeed.com/admin/new_site_validation.php?site= ...
Eine neue Suchmaschine für Feeds die ich noch nicht kannte. Scheinbar hat der Admin gerade vorher irgendwo meine Adresse eingetragen und dann hat der Bot losgelegt die Seiten zu sammeln. Danach hat er dann im Administrationsinterface meine von ihm neu gefundenen Feeds freigeschaltet. Scheint ein kleines System zu sein - der Bot läuft von der gleichen IP wie das Administrationsinterface. Die meisten anderen Bots kommen von ganzen Botfarmen, Webspidern ist halt eine aufwändige Sache ...
Zusammenfassend lässt sich also feststellen, das die derzeitige Generation von Referrer-Spammer-Bots und anderen Mal-Bots noch recht primitiv aufgebaut ist. Sie benutzen keine Botnetze um viele unterschiedliche Adressen zu verwenden und sich dadurch zu verstecken, sie benutzen reine Server-URLs statt Seiten-URLs und haben auch sonst recht viele typische Kennzeichen wie z.B. bestimmte Rhythmen. Ausserdem kommen sie fast immer mehrfach.
Leider sind das keine guten Merkmale um sie algorithmisch zu fassen - ausser man lässt seine Referrer in eine SQL-Datenbank laufen und prüft jeden Referrer mit entsprechenden Selects auf die typischen Kriterien. Darüber könnte man dann durchaus die üblichen Verdächtigen erwischen und gleich auf dem Server blocken. Denn normale User-Zugriffe sehen deutlich anders aus.
Allerdings sind auch schon neue Generationen in der Mache - wie mein kleiner Freund, der mit dem fehlenden /, zeigt. Und dank der dämlichen Browser mit ihren falsch erzeugten Referrern (die viel mehr über die History des Browsers aussagen als über tatsächliche Link-Verfolgung) kann man nicht einfach die referenzierten Seiten gegenchecken, da viele Referrer reine Blindreferrer sind.
hugo Feb. 13, 2005, 3:41 p.m.
Und ich entschuldige mich schon mal bei allen IE-Usern für das chaotische Layout, aber sorry, in diesem Fall müsst ihr wohl damit leben ;-)
Kai Feb. 13, 2005, 10:07 p.m.
man wird ja mit einem interessanten beitrag belohnt ;)
ausserdem sind die breiten zeilen immerhin nicht auf der startseite.. dann isses verschmerzbar denke ich :)