spam

Wir alle haben Kommentarspam zugestimmt - "In der juristischen Korrespondenz der letzten Tage behauptete der gegnerische Anwalt obendrein steif und fest, die Einwilligungen der zwei Millionen Blogger liegen vor". Also wenn mein Blog da drin ist, da liegt keine Einverstädniserklärung vor. Und bei der Menge an Blogs bezweifle ich diese Aussage auch einfach mal ganz generell. Blogspammer sind ganz unterste Schublade.

Spamhaus.org relativiert nic.at-Listing - ich hab ja glaub ich schon öfter gesagt, das ich nix von Spamlisten-Betreibern halte, weil die alle früher oder später austicken. Klar, Spamhaus ist natürlich wichtiger als Gesetze ...

Man described as a top spammer arrested - und jetzt bitte die anderen auch kriegen.

RFC gegen Spam - ob es was bringt? Vielleicht, denn ein RFC hat die Tendenz in Mailservern implementiert zu werden. Andererseits, werden die Mailserver auch aktualisiert auf die neuen Versionen mit dem Feature?

Thursday: Biggest. Anti-Spam. Lawsuit. Ever. - eine Milliarde an Schaden als Klagebasis festgesetzt. Klage gegen mehrere Spammer, die in der letzten Zeit eMail-Adressen gesammelt haben, was ein Verstoß gegen Gesetze in den USA ist. Könnte interessant werden.

Übereifrige Spam-Blockliste sperrt Server4You-Adressen - SORBS mal wieder. Immer noch unfähig, der Laden.

Stopping spam with the Anti-Spam-SMTP-Proxy (ASSP) - hmm. Transparenter SMTP Proxy. Leider in Perl - meine Erfahrungen in der Richtung waren eher negativ bisher.

BMW bei Google rausgeworfen

Grade erst frisch durch die Blogosphäre gejagt, die Sau, jetzt schon erwischt German BMW Banned From Google. Tja, wenn man Search-Engine-Spamming betreibt, fliegt man schon mal raus aus Google. Da wollten wohl mal wieder ein paar Marketing-Fuzzis all zu schlau sein

Teufelsgrinsen

SIXTUS.NET - Blog | Papi, wo kommen eigenlich die ganzen Spam-Kommentare her? Die, mein Kind, kommen aus Lindlar, vom Sebastian Foss - putzig, wenn ein Lieferant für Spam-Software dann als in Deutschland ansässig herausgefunden wird. Allerdings wundert mich das nicht - wir haben ja auch die Dialer-Abzocker.

akismet.py - Python-Interface für den (zentralen) Akismet Spam Scanner.

Akismet - zentralistischer Anti-Spam-Filter

Photomatt (der von Wordpress) hat mit Akismet einen zentralen Anti-Spam-Dienst aufgebaut, den man per Plugin mit Wordpress benutzen kann. Zusätzlich gibts auch eine API, mit der man andere Dienste anbinden kann. Grundsätzlich eine gute Idee - auch wenn ich generell eine Abneigung gegen zentrale Dienste habe, ausser ich selber betreibe diese zentralen Dienste.

Was mir aber wirklich sauer aufstößt, ist dieser kleine Ausschnitt aus der FAQ:

Well without giving too much of the secret sauce away, we can safely say that it would be pretty difficult to poison Akismet.

Also zentraler Dienst - ok. Mag ich zwar nicht, aber macht durchaus für andere Sinn, die nicht selber sowas betreiben können oder wollen. Aber "secret sauce" - ich soll also meine Kommentare mit den persönlichen Daten meiner Kommentatoren an ein fremdes System schieben, bei dem ich nicht mal die Software sehen kann, die dahinter läuft? Sorry, nein Danke.

Spam-Blockliste lief Amok

Und jetzt ratet mal welche das war? Genau - SORBS. Meine Lieblings-Ansammlung technischer Inkompetenz und sozialer Blödheit. Könnte nicht mal jemand eine UDP gegen die Pfeifen einleiten?

Noch mehr Medien-Inkompetenz - diesmal CDU

Denn auch die CDU lässt Spam verschicken:

Etwa 300.000 bis 400.000 Deutsche bekommen in diesen Tagen eine E-Mail von dem Gewinnspiel-Anbieter «Play and Win». Dieser wirbt dafür, bei der Bundestagswahl am Sonntag CDU zu wählen. Doch das stimmt nicht ganz: Bei genauerem Lesen handelt es sich schlicht um Wahlwerbung der Union.

Bei genauerem Lesen des Kommentares des Spammers handelt es sich schlicht um Spam. Dreckspack.

Microsoft liebt SpyWare

Jedenfalls klassifiziert Microsoft diese jetzt anders:

Demnach empfiehlt das Programm seit dem Update von Ende März, verschiedene als mäßig gefährlich klassifizierte Claria-Produkte ebenso wie solche der Spywareschmieden WhenU und 180solutions zu ignorieren.

Sorry, aber Nachrichten aufpoppende Hintergrundprogramme sind grundsätzlich abzulehnen, dabei interessiert mich auch nicht die Bohne welche Samtpfotenargumentationen die Hersteller dieses Mülls sich einfallen lassen.

Sorry, aber ein Hersteller von Betriebssystemsoftware der mit einer Anti-Spyware-Prüfung solchen Schrott nicht als zu deinstallieren vorschlägt ist schlichtweg unglaubwürdig.

Webspammer mit neuen Tricks?

Scheinbar lernen die Webspammer ein paar neue Tricks. Jedenfalls bin ich über Links auf mich gestolpert die aus einem WordPress-Blog stammen das nur aus wilden HTML-Schnipseln besteht die scheinbar aufgrund von Suchen nach "house" entstanden sind - und in der Blogrolle des Blogs stehen dann diverse typische Müllsites. Könnte also sein das Spammer jetzt Pseudosites aufbauen mit Links und Inhalten die darüber die Suchindizes von Systemen wie Technorati oder den Pingdiensten vollmüllen sollen.

Oh, und die Texas-Holdem-Spacken haben auch ein paar neue Tricks gelernt - die URLs haben jetzt stärker wechselnde Servernamen und Dateinamen so das normale Stichwortfilter nicht mehr ganz so gut funktionieren und mir öfter mal Spam zur Moderation vorgelegt wird - lange Zeit sind die Sachen direkt in die Tonne gegangen weil die Typen wirklich zu dämlich waren ...

Nerviges Pack.

verwirrtes Gesicht

Ann Elisabeth war fleissig und hat die Bulgarian twin spammers identifiziert - die vermutlich für einen grossen Teil Blogspam verantwortlich sind.

RBL-Betreiber entweder Soziopathen oder inkompetent

Oder gleich beides. Sorry, aber anders kann man sowas nicht mehr einsortieren. Wenn jetzt irgendwelche Provider nach rfc-ignorant.org filtern, werden Mails unter Umständen gebounced oder in die Spamfolder geworfen - nur weil dem Betreiber von rfc-ignorant.org der whois vom DeNIC nicht passt. Wobei es in den Mail-RFCs überhaupt keinen Hinweis darauf gibt (und schon gar keine zwingende Bedingung), das es einen whois-Dienst für eine Domain geben muss. Soviel zum Thema technische Kompetenz des Betreibers dieser idiotischen Liste ...

Schlimm genug das man sich als Mail-Admin mit Spam, Trojanern, Viren und ähnlichem Mist rumschlagen muss - und den gigantischen Bergen an Traffic die dadurch entstehen. Man muss sich immer häufiger auch noch mit vollkommen verblödeten Sperrlistenbetreibern und ähnlich dummen Mailadmins die diese Sperrlisten implementieren (und womöglich sogar Mails aufgrund der Listung bouncen!) rumschlagen.

Und wenn man die dann auf diesen Unfug hinweist, kommt der Standardsatz: "die RBL-Filterung hat mir fast meinen ganzen Spam beseitigt". Toll. Das nebenbei das Medium eMail durch solche unfähigen Pfeifen mehr geschädigt wird als durch den Spam, ist denen wurscht. Machen wir halt alles kaputt, jeder Volltrottel kann ja heute Mailadmin sein. Es ist zum Kotzen.

( Gefunden über fh.)

Spam unter Strafe stellen?

DIHK gegen Strafe für Spam-Versender - wen wunders, sind doch viele Spammer in Deutschland IHK-Mitglieder ...

Was mir an der Geschichte aber auch nicht wirklich schmeckt:

So soll es künftig verboten werden, in der Kopfzeile einer kommerziellen E-Mail die wahre Identität des Absenders zu verschleiern oder zu verheimlichen.

Mag ja bei kommerzieller Kommunikation noch eine berechtigte Forderung sein, aber wie ich Otto Orwell einschätze wird das gleich auf alle Bürger ausgeweitet. Und wenn der es nicht macht, machen das Anwälte mit Abmahnungen wenn z.B. der Webserver automatische Benachrichtigungen unter dem Namen www-data verschickt ...

Was ich pervers finde ...

... sind Dialer-Abzocker die angebliche Drogen-Info-Sites aufziehen die nur noch Dialerlinks enthalten, natürlich keinen Hinweis auf die Preise enthalten (und damit in Deutschland nicht erlaubt sind) und dann auch noch für diesen Dialer-Scheiss mit Blog-Spam Werbung machen. Dazu verstecken die sich dann noch hinter einer Österreicher Adresse - vermutlich eh nur ne Briefkastenfirma.

Dialer-Abzocke kotzt mich an. Wenn die dann mit Blog-Spammern zusammenkommen kann ich garnicht so viel fressen wie ich kotzen will.

zorniges Gesicht

Das ganze ist vor ein paar Tagen auch schon anderswo übel aufgefallen.

Aktionsbündnis gegen Spam

Aktionsbündnis gegen Spam. Und dabei sind der eco Verband (ja, genau, die mit dem tollen Whitelist-Projekt das sicherstellen soll das die Werbung ihrer Mitglieder auch ja in deinen Postkorb ungestört von Providerfiltern landet) und die WBZ (ja, genau diejenige welche eleg.antville.org damals in 2003 abgemahnt hat wegen fehlendem Impressum). Äh - hey Bock, wie wärs mit dem Job als Gärtner?

Ok, vielleicht hat der Verbraucherzentrale Bundesverband da einen positiven Einfluss in der Geschichte, aber ich kann mir nicht vorstellen das dort so richtig was sinnvolles bei rauskommt ...

Was man so in seinen Kommentaren findet ...

Kommentarspammer unterwegs:

Hallo liebe Community!

Ich bin keine Community. Ich schreiben zwar vielleicht mal im Majestätis Pluralis, aber das machen Wir nur aus Versehen. Ehrlich.

Ich betreibe seit kurzem die BlahFasel-Auktionsplattform BlahFasel.Blubb und wende mich deshalb an Euch, da mich Eure Meinung zu meiner Auktionsplattform BlahFasel.Blubb interessiert. Über Eure Anregungen und hoffentlich konstruktive Kritik freue ich mich.

Klar. Man schreibt einen Kommentar mit Link und eMail-Adresse auf eine Auktionsplattform und packt noch X-Mal den Namen von dem Haufen Schrott mit rein - und das alles nur weil man sich für Meinungen interessiert. Nein, das soll natürlich überhaupt keine Werbung sein. Wie albern von Uns das so zu empfinden ...

Vorab sei soviel gesagt, „BlahFasel.Blubb“ ist eine Auktionsplattform für BlahFasel und Blubb. Ich möchte hierbei allerdings ausdrücklich betonen, dass wir nichts von „Billig-BlahFasel“ halten und deshalb gewinnt bei BlahFasel.Blubb nicht automatisch das beste Blubb. Wir sind der Meinung, dass guter BlahFasel seinen Preis hat und deshalb legt der Verkäufer (Anbieter des BlahFasel) den Auktionsgewinner selbst fest.

Hä? Das ist keine Auktionsplattform, das ist Beschiss. Eine Auktion hat einen definierten Verlauf - es wird geboten und das beste (je nach Ausrichtung eben niedrigstes oder höchstes) Gebot gewinnt. Alles andere ist keine Auktionsplattform - egal ob für BlahFasel oder Blubb. Das geht bestenfalls als Ausschreibungsplattform durch - aber selbst da gibt es formale Regeln die ein bischen mehr als "Der Verkäufer legt den Gewinner fest" enthalten ...

Damit Ihr Euch einen Überblick über BlahFasel.Blubb verschaffen könnt, findet Ihr rechts auf der Seite im Bereich „News“ unsere Pressemeldung. Hier ist die Funktionsweise von BlahFasel.Blubb beschrieben.

Klar, da - bei Presse meldungen - erwartet ja auch jeder sofort die Beschreibung der Funktionsweise des Schrotthaufens. Völlig logisch. Und unter Impressum habt ihr Kochrezepte? > >Ich freue mich auf Eure Meinung!!! > Meinung? Ganz einfach: elende Blogspammer (ich habe identische Kommentare per Suchmaschine in anderen Blogs gefunden), das Posting zu dem kommentiert wurde war recht geschmacklos gewählt und aufgrund der Beschreibung hab ich das ganze unter "unseriöse Angebote" abgelegt. Ergo? Plonk

Spammer sind wirklich ziemlich blöd ...

... einer strampelt sich an meinen Trackbacks ab zur Zeit. Jede Stunde. Fast exakt auf die Minute um 25 nach der vollen Stunde. Mit stark wechselnden IP-Adressen. Auch die Texte sind sehr unterschiedlich - und zwar non-spammy. Aber was macht die Torfnase? Trackbacked immer den gleichen Link. Einen Link, den ich schon vor 2 Wochen in die Badlink-Liste geworfen habe. Irgendwie nicht sonderlich schlau das ganze, denn so landet alles direkt im Müll. Ok, anders würde alles in der Moderationsqueue landen, würde ihm auch nichts helfen.

Positivliste soll Marketing-Mails an Spam-Filtern vorbeischleusen - das ganze ist so absurd das mir einfach nichts einfällt was ich dazu schreiben könnte ...

Aus gegebenem Anlass ...

... weise ich darauf hin das ich Trackbacks von Blogs einfach lösche, wenn deren einziger Zweck die Promotion von irgendwelchen obskuren Amazon-Shops ist. Sorry, aber bloss weil der Werbemüll in einer Weblogsoftware abgelegt ist heisst das nicht, das ich jeden unpassenden Trackback durchwinke. Und nein, nur weil ein Stichwort aus dem Posting auch bei mir in einem Posting vorkommt ist das noch lange kein interessanter Trackback sondern einfach nur Spam.

Und nochmal Logfiles

Da ich ja nun ein interessantes Studienobjekt hatte, wollte ich mal gucken inwieweit ich mit ein bischen Clusteranalyse in meinen Logfiles irgendwas interessantes zutagefördern würde. Ich habe also eine Matrix angelegt aus Referrern und zugreifenden IP-Adressen und mir damit mal einen Überblick über typische Userszenarien gemacht - also wie sehen normale User aus im Log, und wie sehen Referrer-Spammer aus und wie sieht unser Freund aus.

Alle drei Varianten lassen sich gut unterscheiden, auch wenn ich im Moment da noch eher davor zurückschrecken würde das algorithmisch zu fassen - das lässt sich nämlich alles recht gut simulieren. Trotzdem sind ein paar Auffälligkeiten zu sehen. Zuerst mal ein ganz normaler Benutzer:


aa.bb.cc.dd: 7 Zugriffe, 2005-02-05 03:01:45.00 - 2005-02-04 16:18:09.00
 0065*-
 0001*http://www.tagesschau.de/aktuell/meldungen/0,1185,OID4031994 ...
 0001*http://www.tagesschau.de/aktuell/meldungen/0,1185,OID4031612 ...
 0001*http://mudbomb.com/archives/2005/02/02/wysiwyg-plugin-for-wo ...
 0001*http://www.heise.de/newsticker/meldung/55992
 0001*http://log.netbib.de/archives/2005/02/04/nzz-online-archiv-n ...
 0001*http://www.heise.de/newsticker/meldung/56000
 0001*http://a.wholelottanothing.org/2005/02/no_one_can_have.html

Man sieht schön wie dieser User von meinem Weblog weggeklickt hat und wieder zurückgekommen ist - die Referrer sind nämlich mitnichten alles Links auf mich, sondern falsche Referrer die die Browser schicken, wenn der Benutzer von einer Site auf eine andere wechselt. Eigentlich sollen Referrer ja nur dann geschickt werden, wenn auch wirklich ein Link geklickt wird - kaum ein Browser macht das aber richtig. Der Besuch war an einem definierten Tag und er ist direkt eingestiegen durch Eingabe des Domainnamens (die "-" Referrer stehen oben und oben steht der früheste Referrer der vorkommt).

Oder hier mal ein Zugriff von mir:


aa.bb.cc.dd: 6 Zugriffe, 2005-02-04 01:11:56.00 - 2005-02-03 08:27:09.00
 0045*-
 0001*http://www.aylwardfamily.com/content/tbping.asp
 0001*http://temboz.rfc1437.de/view
 0001*http://web.morons.org/article.jsp?sectionid=1&id=5947
 0001*http://www.tagesschau.de/aktuell/meldungen/0,1185,OID4029220 ...
 0001*http://sport.ard.de/sp/fussball/news200502/03/bvb_verpfaende ...
 0001*http://www.cadenhead.org/workbench/entry/2005/02/03.html

Ich erkenne mich daran, das Referrer mit temboz.rfc1437.de vorkommen - das ist mein Online-Aggregator. Sieht ähnlich aus - ne Menge falsch geschickter Referrer. Noch ein anderer User:


aa.bb.cc.dd: 19 Zugriffe, 2005-02-12 14:45:35.00 - 2005-01-31 14:17:07.00
 0015*http://www.muensterland.org/system/weblogUpdates.py
 0002*-
 0001*http://www.google.com/search?q=cocoa+openmcl&ie=UTF-8&oe=UTF ...
 0001*http://blog.schockwellenreiter.de/8136
 0001*http://www.google.com/search?q=%22Rainer+Joswig%22&ie=UTF-8& ...
 0001*http://www.google.com/search?q=IDEKit&hl=de&lr=&c2coff=1&sta ...

Dieser kam öfter (also mehrere Tage) über meine Update-Seite auf muensterland.org und zusätzlich hat er noch nach Lisp-Themen gesucht. Und vom Herrn der Schockwelle ist er auch mal gekommen. Absolut typisches Verhalten.

Jetzt mal im Vergleich ein typischer Referrer-Spammer:


aa.bb.cc.dd 6 Zugriffe, 2005-02-12 17:27:27.00 - 2005-02-02 09:25:22.00
 0002*http://tramadol.freakycheats.com/
 0001*http://diet-pills.ronnieazza.com/
 0001*http://phentermine.psxtreme.com/
 0001*http://free-online-poker.yelucie.com/
 0001*http://poker-games.psxtreme.com/

Alle Referrer sind direkte Domain-Referrer. Keine "-" Referrer - also keine Zugriffe ohne Referrer. Keine sonstigen Zugriffe - würde ich es genauer analysieren nach Seitentyp, würde auffallen das keine Bilder etc. zugegriffen werden. Leicht zu erkennen - sieht einfach mager aus. Typisch ist auch das jede URL nur einmal oder zweimal angegeben ist.

Jetzt unser neuer Freund:


aa.bb.cc.dd: 100 Zugriffe, 2005-02-13 15:06:16.00 - 2005-02-11 07:07:55.00
 0039*-
 0030*http://irish.typepad.com
 0015*http://www208.pair.com
 0015*http://blogs.salon.com
 0015*http://hfilesreviewer.f2o.org
 0015*http://betas.intercom.net
 0005*http://vowe.net
 0005*http://spleenville.com

Was auffällt sind die Referrer ohne abschliessenden / - untypisch für Referrer-Spam. Ausserdem halt ganz normale Sites. Was auch auffällt, es werden Seiten zugegriffen ohne Referrer - dahinter verstecken sich die RSS-Feeds. Auch dieser ist also leicht von Usern zu unterscheiden. Vor allem da ein gewisser Rhythmus drin ist - scheinbar immer 15 Zugriffe mit einem Referrer, dann den Referrer wechseln. Entweder ist die Referrer-Liste recht klein, oder ich hatte Glück das er zweimal den gleichen bei mir probiert hat - einer ist nämlich 30x da.

Normale Bots braucht man nicht gross zu vergleichen - die wenigsten schicken Referrer mit und sind deshalb völlig uninteressant. Ich hatte einen, der mir aufgefallen war:


aa.bb.cc.dd: 5 Zugriffe, 2005-02-13 15:21:26.00 - 2005-01-31 01:01:07.00
 2612*-
 0003*http://www.everyfeed.com/admin/new_site_validation.php?site= ...
 0002*http://www.everyfeed.com/admin/new_site_validation.php?site= ...

Eine neue Suchmaschine für Feeds die ich noch nicht kannte. Scheinbar hat der Admin gerade vorher irgendwo meine Adresse eingetragen und dann hat der Bot losgelegt die Seiten zu sammeln. Danach hat er dann im Administrationsinterface meine von ihm neu gefundenen Feeds freigeschaltet. Scheint ein kleines System zu sein - der Bot läuft von der gleichen IP wie das Administrationsinterface. Die meisten anderen Bots kommen von ganzen Botfarmen, Webspidern ist halt eine aufwändige Sache ...

Zusammenfassend lässt sich also feststellen, das die derzeitige Generation von Referrer-Spammer-Bots und anderen Mal-Bots noch recht primitiv aufgebaut ist. Sie benutzen keine Botnetze um viele unterschiedliche Adressen zu verwenden und sich dadurch zu verstecken, sie benutzen reine Server-URLs statt Seiten-URLs und haben auch sonst recht viele typische Kennzeichen wie z.B. bestimmte Rhythmen. Ausserdem kommen sie fast immer mehrfach.

Leider sind das keine guten Merkmale um sie algorithmisch zu fassen - ausser man lässt seine Referrer in eine SQL-Datenbank laufen und prüft jeden Referrer mit entsprechenden Selects auf die typischen Kriterien. Darüber könnte man dann durchaus die üblichen Verdächtigen erwischen und gleich auf dem Server blocken. Denn normale User-Zugriffe sehen deutlich anders aus.

Allerdings sind auch schon neue Generationen in der Mache - wie mein kleiner Freund, der mit dem fehlenden /, zeigt. Und dank der dämlichen Browser mit ihren falsch erzeugten Referrern (die viel mehr über die History des Browsers aussagen als über tatsächliche Link-Verfolgung) kann man nicht einfach die referenzierten Seiten gegenchecken, da viele Referrer reine Blindreferrer sind.

vermutlich verkleideter Bot in den Logs

Ich hab gerade mal in meinen Referrern einige Referrer gefunden, auf denen ich absolut nichts finden konnte das auf mich verweist. Soweit nichts ungewöhnlich - Referrer-Spam wäre die erste Vermutung. Aber die in den Referrern genannten Seiten sind ganz normale Weblogs und andere Sites - keine Leute die Grund hätten für ihre Site zu spammen (zum Beispiel ein Blog mit ca. 1 Post pro Monat, oder eine Irin und noch so ein paar seltsame Referrer). Auch sind die Anzahlen anders als bei normalem Referrer-Spam: der kommt normalerweise entweder nur 1-2x oder wenn dann mit vielen Adressen und jede dann gleich 100x oder ähnliches. Dieser kommt ca. 15 mal.

Also habe ich mal in den Logs etwas gewühlt, ob ich da was finde. Und siehe da, die Referrer haben ungwöhnliche Merkmale: sie schliessen nicht mit einem / ab. Normalerweise wird eine Adresse die nicht auf / endet automatisch umgeleitet auf die /-Variante. Referrer sind also normaleweise /-terminiert oder direkte HTML-Seiten oder etwas vergleichbares. Reine Site-Angaben ohne / hinten dran sind eher selten.

Auch noch was anderes fällt auf: die Seiten wurden wirklich angesurft - bzw. mindestens runtergeladen. Und die zu einem Referrer gehörigen Seiten sind recht wild gewürfelt - bei normalen Usern erwartet man eigentlich eher irgendeine Form von Konsistenz in dem was per Referrer rüberkommt. Vor allem kommen selten 15 Links auf einen Schlag auf eine Seite ...

Und das wesentliche Kriterium: die IP des zugreifenden Rechners ist bei den verschiedenen immer die gleiche. Eine Auswertung ergab dann folgendes Bild:


 15 betas.intercom.net
 15 blogs.salon.com
 15 hfilesreviewer.f2o.org
 30 irish.typepad.com
 5 spleenville.com
 5 vowe.net
 15 www208.pair.com

Alles eindeutig falsche Referrer. Zusätzlich noch 34 Zugriffe auf meine RSS-Feeds ohne Referrer. Zugriffe waren nur auf direkte Postings und RSS-Feeds - nicht auf Übersichtsseiten oder Archivseiten. Sieht sehr danach aus, das der Bot hier wie folgt vorgehen: RSS-Feeds suchen, diese abgreifen, da drin dann nach Permalinks auf Artikel suchen und diese runterziehen um z.B. an die Kommentarformulare zu kommen. Das ganze schön getarnt als angebliche Besucher, inkl. gefälschten Referrern die unverdächtig wirken. Auch nicht zu viele zugriffe eines Referrers, lieber das ganze öfter gewechselt.

Eigentlich nichts neues, beim eMail-Spam sind ja gefälschte echte Absender durchaus üblich und gängig um schwerer zu filtern zu sein. Aber bei Sammelbots sehe ich diese Art der Mimikry zum ersten Mal life - die Symptome beobachte ich auch erst ca. 1-2 Wochen bei mir.

Für Admins ist das ganze natürlich ziemlich nervig, da man die Referrer-Logs noch weniger gebrauchen kann als bisher schon. Bisheriger Referrer-Spam war zwar ein Ärgernis, aber aufgrund der ziemlich dämlichen Namen der Referrer leicht zu erkennen. Diese Form von Logphänomen verfälscht auch die Referrer - fällt aber wesentlich weniger auf. Könnte für Weblogs interessant sein die ihre Referrer direkt im Beitrag anzeigen.

Und natürlich bleibt auch noch das Problem, das ich ja noch nicht weiss was der Bot mit den gesammelten Erkenntnissen anfangen will. Wobei ich stark auf Spam tippe, aber das ist nur eine Vermutung - könnte auch ein Bot sein, der nach typischen Sicherheitslöchern sucht. Auf jeden Fall ist es ein Bot und auf jeden Fall hat er nichts gutes vor - denn sonst bräuchte er sich nicht zu verstecken.

Passend zu meinem vorigen, längeren, Text: Weblog Tools Collection leidet unter Referer Spam DoS. Solche Vögel - also Referrer-Spammer die in die Tausenden gehen bei den Zugriffen - sind in meiner Loganalyse (noch?) nicht aufgetaucht.

Spammer in Vorbereitung

Aus gegebenem Anlass eine Info und Warnung: wer in seinem Weblog in den Kommentaren im Moment so Sachen mit Inhalt I agree with you findet, kann unter Umständen Vorbesuch eines Spammers haben. Und zwar haben auch die Spammer geschnallt das man in manchen Blogs (speziell neuere Wordpress-Versionen) erst einen freigeschalteten Kommentar haben muss um dann mit dieser Adresse weitere Kommentare abzuladen - die dann natürlich nur noch Spam sind. Von daher: auch wenn es nett ist wenn einem jemand zustimmt, in diesem Fall könnte man sich mit der Freischaltung des Kommentars ein Kuckucksei gelegt haben.

Nuclear Elephant: DSPAM

Nuclear Elephant: DSPAM ist ein bayesian Spam Filter. Allerdings einer der nicht nur für einen User läuft, sondern üblicherweise für ein ganzes Rudel von Usern. Ich hab das auf simon.bofh.ms laufen um die Mailpostfächer dort alle zu scannen - es ist gut integrierbar und hat eine ganze Reihe interessanter Features. Zum Einen die Weboberfläche zur Verwaltung des Spamfilters, zum Anderen die recht pragmatische Methode um Fehlerkennungen an den Filter zu melden. Auch nett die recht weite Unterstützung von Datenbanken (MySQL, PostgreSQL, SQLite und mehrere db* Typen). Alles in allem macht es einen wirklich runden Eindruck - einziges Manko ist die fehlende Übersetzung der Oberfläche.

Ob es auch wirklich filtert kann ich natürlich mangels Masse noch nicht sagen - die Mails müssen sich erst ansammeln und trainniert werden. Userberichte sind aber - bayesian Spam Filter typisch - aber recht positiv.

Blöder Spambot am Werke

Im Moment trommelt ein ziemlich dämlich gebauter Spambot auf meine Kommentarfunktion ein und müllt meine Moderationsqueue voll - durch kommt davon nix, der ist so dämlich das er alles im Klartext reinhaut, haufenweise Links und typische Spam-Wörter. Wird also von den banalsten Filtern erwischt. Nichtsdestotrotz kann sowas natürlich Fallout produzieren - nämlich Kommentare von anderen die in die Moderation rutschen (z.B. weil die Anzahl Links zu hoch ist) könnten von mir in dem Wust von hunderten Spamkommentaren übersehen und versehentlich mit gelöscht werden. Wenn dem so ist, es ist nicht persönlich. Ich hab nur keine Lust bei mehreren Hundert Spamkommentaren zu scharf hinzugucken ob ich auch wirklich nur Spam lösche ...

Update: Nachdem ich mir den mal ein bischen genauer angeguckt hab, hab ich ihn erstmal in /dev/null platziert - die Moderationsqueue wird von dem nicht mehr belastet und damit auch normal moderierte Kommentare nicht versehentlich gelöscht. Was mir bei der näheren Durchsicht spontan aufgefallen ist: es wird eine grosse Menge von sehr weit gestreuten IP-Adressen benutzt. Klingt sehr stark nach Botnet, zumal die IP-Adressen nach Stichprobenprüfung wohl alles dynamische Dialup-Adressen sind. Unsere Freunde die fremdgesteuerten Windows-Kisten sind also auch hier wieder mal das Pferd auf dem Spam reitet. Toll. Danke, Microsoft ...

WP-Questionnaire Plugin

Ok, ich hab das Plugin für Wordpress 1.5 fertig. Simple Sache - ein Plugin und eine kleine Managementseite mit der man die diversen Fragen anlegen kann. Zur Installation lädt man das Plugin herunter und kopiert einfach die Files an die im readme.txt angegebenen Stellen und aktiviert das Plugin. Dann fügt man im Management bei Questionnaire einfach ein paar Fragen ein und fertig. Bei Kommentaren wird dann eine mehr oder minder blöde Frage gestellt, die mit einer möglichst kurzen Antwort befriedigt werden sollte (wir wollen die Kommentatoren ja nicht zu sehr nerven). Wenn die Antwort stimmt, wird der Kommentar - sofern nicht andere Anti-Spam-Methoden vorher zuschlagen - sofort freigegeben. Stimmt die Antwort nicht, wandert der Kommentar in die Moderation und muss vom Admin freigegeben werden.

Man kann natürlich auch einen heimlichen IQ-Test für seine Kommentatoren damit bauen und statt einfacher Fragen da kleine Rätsel reinpacken - nur wer diese löst darf sofort kommentieren

Ich hab das Plugin mal bei mir aktiviert, mal gucken ob es Auswirkungen auf das Kommentierverhalten der Leute hier hat. Ihr könnt ja mal eure Meinungen hier ablassen was ihr von so einer Anti-Spam-Methodik haltet.

Eine recht interessante mögliche Attacke auf jede Captcha-Lösung ist übrigens in den Kommentaren zu Eric Meyers WP-Gatekeeper zu finden: man kann einfach die Kommentarformulare sammeln und wegspeichern. Zusätzlich braucht man eine Site, auf der man diese verwenden kann - z.B. eine Site für freie Pornofilmchen. Dort präsentiert man die Captchas den Benutzern dieser Sites und nimmt deren Antwort an. Diese Antwort schickt man dann an das gespeicherte Formular und fertig ist der Kommentar. Natürlich kann man dagegen auch Massnahmen ergreifen - am besten warscheinlich ein codierter Timecode im Formular und eine Abweisung eines zu alten Timecodes, denn die Antworten durch die Pornogucker kommen ja vermutlich nicht sofort. Interessanter Ansatz, das ganze.

Update: das Plugin hat noch zwei Bugs. Zum Einen erwischt es auch Trackbacks (die natürlich die nötigen Variablen nie haben) und es kann im Moment noch recht einfach umgangen werden wenn man weiss wonach man im Formular gucken muss - man braucht nur ein Captcha zu lösen und kann damit dann andere Kommentare bespammen, in dem man die Kommentar-ID ändert. Das letztere ist übrigens bei sehr vielen Captcha-Lösungen ein Bug - man fällt einfach zu leicht drauf rein zu vergessen die Captchas an irgendeine Form von Seriennummer oder ähnliches zu binden so das ein Formular so in der Form nur einmal benutzt werden kann ...

Ich werd also in der nächsten Zeit da noch einen Update zu machen zu den Plugin.

Update 2: das Problem mit den Trackbacks und Pingbacks sollte jetzt gelöst sein. Das Problem mit dem Replay ist noch drin. Über das muss ich noch ein bischen grübeln. Meine bisherigen Lösungsansätze gefallen mir nicht so richtig dafür.

Update 3: ich habs jetzt erstmal hier wieder abgeschaltet. Ich krieg ja bisher keinen Kommentarspam und ohne zwingenden Grund ist selbst eine einfach zu beantwortende Frage ziemlich blöd ...

Eric's Archived Thoughts: WP-Gatekeeper

Eric's Archived Thoughts: WP-Gatekeeper ist ein sehr interessanter Ansatz gegen Kommentarspam: es wird einfach eine von vielen vorkonfigurierten Fragen gestellt, auf die ein Mensch sehr einfach eine Antwort geben kann, ein Spambot aber nicht. Wird in ähnlicher Form ja schon in diversen Blogs benutzt, aber hier ist es schön ausgearbeitet (allerdings könnte es meines Erachtens auch komplett als Plugin realisiert werden). Die Grundidee ist im Prinzip die eines Captchas - aber eben ein textuelles Captcha. Ein Mensch kann die Frage was ist 1+1 gut beantworten - ein Spambot wird da nicht weiter kommen. Klar, Spammer können Datenbanken von Fragen und Antworten anlegen. Aber wenn jeder seine eigene Sammlung von Fragen einrichtet, wird es sie nicht weit bringen. Für Kommentarspam sollte es eine sehr brauchbare Lösung darstellen.

Leider gibts für Trackbacks nicht so eine einfache Lösung ...

Update: da ich die Idee irgendwie witzig finde, schreibe ich gerade ein entsprechendes Plugin. Kann also sein das meine Kommentare heute nacht etwas seltsam sich verhalten

MT-Blacklist -> Hijacked comments.cgi

MT-Blacklist -> Hijacked comments.cgi - wer Moveable Type benutzt sollte das Kommentarscript abschalten. Die eMail-Verifizierung die prüft ob die Absenderadresseingabe keine Mist enthält ist falsch - wodurch man zusätzliche Empfängeradressen reinmogeln kann wenn man diese mit einem Linefeed von der eigentlichen Absenderadresse trennt. Und damit kann man dann lustig MT benutzen um andere Leute zu spammen.

Ein echter Anfängerfehler - die eMail-Validierung geschieht mit einer Regex die nicht auf das Ende des Strings matched und dotall benutzt - dadurch geht sie nur bis zu einem eventuellen Linefeed und ignoriert den Rest danach. Saublöd.

verwirrtes Gesicht

WordPress : Tackling Comment Spam ist eine recht vollständige Zusammenstellung der diversen Ansätze gegen Kommentarspam und Trackbackspam in WordPress.

Got New Spam Tactic Figured

Asymptomatic » Got New Spam Tactic Figured berichtet übert eine neue Taktik der Blogspammer. Und zwar tauchen relativ harmlose Kommentare auf Blogs auf, die keinen einzigen Link enthalten. Wenn die Spammer diese Kommentare über Google wiederfinden wissen sie, das sie dort höchstwarscheinlich weitere Kommentare ablassen können - und umgehen die Sperren, die darauf beruhen das ein Kommentar automatisch freigegeben wird wenn ein Besucher unter seiner eMail-Adresse schon mal einen freigegebenen Kommentar hatte. Es könnte also sein das nach einem Hey, Deine Seite finde ich toll Kommentar dann plötzlich ein Berg von Blogspam aufschlägt ...

SURBL -- Spam URI Realtime Blocklists - Reatime blocking list die Hostnamen aus URLs prüfen kann.

kasia in a nutshell: Spam breeds more spam

Kasia macht ein faszinierendes Experiment: sie lässt einfach mal zwei Kommentarspameinträge stehen und wartet das Google sie indiziert hat. Keine 24 Stunden später wurde dieser Eintrag bombardiert mit Spam - mehrere hundert Stück.

Man kann also daraus folgern das die Spambots zumindestens teilweise zweistufig arbeiten und das es wirklich um das Googleranking geht. Der erste Eintrag ist sozusagen ein Testeintrag. Bleibt er stehen so das er über Google wiedergefunden werden kann, ist es ein Eintrag wo man gut spammen kann - er ist unbeaufsichtigt und wird von Google schnell indiziert. Ideales Futter für Spammer.

Google ist also integrales Werkzeug und Ziel gleichzeitig für die Spammer. Man kann auf jeden Fall durch technische Abtrennung der eigenen Kommentare (so wie es mein altes Weblog hatte wo die Kommentare nicht nur auf einer eigenen Seite hinter einem Popup-Link waren, sondern zusätzlich auch noch auf einem ganz anderen Webserver) und durch Indizierungsverbot für diese Kommentaradressen den Spammern den Wind aus den Segeln nehmen. Man würde zwar von den Testproben noch erwischt, aber der gigantische Schwung hinterher sollte ausbleiben.

Das könnte unter Umständen auch die Probleme des Schockwellenreiters begründen: aufgrund seiner exponierten Stellung dürfte Google ihn sehr oft besuchen und wenn erstmal ein Spamkommentar länger stehen bleibt und indiziert werden konnte (kann ja auch nur durch Glück des Spammers passieren, der einfach kurz vor Googles Besuch gespammed hat) hat sich der Spammer den Server in die Spamlisten eingetragen. Im Prinzip muss er ja nur einmal den Schockwellenreiter über Google bezüglich seiner Testspams gefunden haben.

Jetzt müsste ich nur noch eine gute Idee bekommen wie ich das ganze für Wordpress umsetzen kann. Popupkommentare gibts schon, aber ich müsste das ja auch noch auf eine andere virtuelle Adresse legen und dort per robots.txt die Suchmaschinen ausschliessen.

RBL Prüfungsseiten für viele RBLs auf einmal

Wer wie ich keine Zeit hat hinter den tausenden von RBLs (Liste über mögliche oder angebliche Spam-Relays) hinterher zu rennen um zu prüfen ob wieder jemand einen eigenen Server fälschlicherweise dort gelistet hat, bieten diese zwei Links gute Dienste: sie prüfen einen grossen Satz von RBLs auf einen Schlag. Der erste Link ist der schnellere:

The Daily Whim: MT Plus Comment Spam Equals Dead Site

Ein interessanter Artikel über die Auswirkungen des Blog-Spams gerade auf Moveable Type Hoster. Gigantische Serverload nur dadurch das die Kommentarformulare von Moveable Type am häufigsten von Spambots attackiert werden und dadurch das die Anti-Spam-Plugins für MT wohl alles andere als optimal für die Serverload sind.

Hier gibts den Originalartikel.

heise online - Anti-Spam-Arbeitsgruppe MARID der IETF streicht die Segel

Da es keine Aussicht auf einen Konsens und das Erfüllen des gesteckten Zieles -- ein Standardvorschlag bis August 2004 -- gebe, hätten er und die MARID-Chefs sich für die Schließung der Gruppe entschieden. - ja, sorry, aber wenn erst ende September auffällt, das man den Termin im August nicht mehr halten kann, dann sollte man sich vielleicht einen Kalender auf den Schreibtisch stellen

Ansonsten ist das ganze Vorgehen ein absolutes Debakel. Ich stimme mit den Stimmen überein, das die Verhinderung der Diskussion über die Patentproblematik ein Grund für das Debakel ist. Patentansprüche an IETF-Algorithmen sollten frühzeitig ausgeräumt werden - denn gerade bei so wichtigen Infrastrukturentscheidungen darf man das Heft nicht in die Hände von Konzernen legen, die das dann ausschlachten können. Und das Microsoft einen solchen Hebel nicht angesetzt hätte um die GPL zu behindern glaubt jemand der sich die Hose mit der Kneifzange anzieht ...

Und ja, es ist ein ernstes Problem, das es jetzt vorerst keinen IETF-Vorschlag geben wird. Denn so wird dem Alleingang von Microsoft Tür und Tor geöffnet. Hoffen wir das nicht die Spambekämpfung die Brechstange wird, mit der Microsoft den Servermarkt im Internet knackt.

Hier gibts den Originalartikel.

Microsoft: Keine Lizenz - keine Flicken

Toll. Millionen von raubkopierten Windows-Schrottsystemen werden demnächst dann noch schrottiger. Und die Müllhalde wird nicht bereinigt werden. Klar, Microsoft nerven die Raubkopien - aber muss das ganze Netz darunter leiden, das Microsoft keine vernünftige Software hinkriegt und dann auch noch sich weigert die Schäden zu reparieren? Mir ist es ehrlich egal ob jemand sein Windows bezahlt hat, mich interessiert nur, ob der Rechner eine weitere Viren- und Spamschleuder ist, oder ob er wenigstens mit den notwendigsten Patches versorgt ist. Nicht das die sonderlich viel helfen ...

verwirrtes Gesicht

Bei das Netzbuch gibts den Originalartikel.

::jamesoff:: » Check RBL for WordPress 0.1 - Zugriffe auf Kommentare über RBLs prüfen - möglicherweise interessant, um von vornherein Zugriffe von Spammern zu filtern?

Streit um Microsofts Patentansprüche lässt Anti-Spam-Standard wackeln

Ich hoffe doch stark das dem Microsoft-Vorschlag eine klare Absage erteilt wird. Das ist hahnebüchene Moppelkotze, was Microsoft sich da vorstellt - eine Anti-Spam-Technik, die auf Microsoft (oder auch eine andere Firma - nur ist Microsoft durch die embrace-and-extend Praktik da ganz besonders suspekt) patentiert ist darf einfach nicht als IETF-Standard akzeptiert werden.

Bei heise online news gibts den Originalartikel.

Geoffroy-Klammeraffe

Der Klammeraffe. Wesentlicher Bestandteil der eMail-Kommunikation. Kein Wunder, das ich so viel Spam bekomme. Wird bestimt von lauter Klammeraffen auf der Suche nach Shakespear produziert ...

Hier gibts den Originalartikel.

Re: Sender-ID and free software

Ein Kommentar von Richard Stallman über die von Microsoft vorgeschlagene Anti-Spam-Lösung, die mit freier Software lizenztechnisch inkompatibel ist. Und ein Kommentar über die Lösung selber, den man allerdings erst nach längerem Abkürzungsstudium verstehen kann

Zusammenfassung: Microsofts Lizenz ist Moppelkotze und Microsofts technisches Modell ist Moppelkotze. Hat jemand was anderes erwartet?

Hier gibts den Originalartikel.

Spammer ignoriere ich ja üblicherweise ...

... aber wenn dann ein Spammer aus Deutschland mir unaufgeforderte Werbung schickt und dann in diesem unaufgefordert zugesandten Spam auch noch reinschreibt das der Inhalt dieses Werbemülls urheberrechtlich geschützt ist, dann muss ich doch leicht grinsen. Anmerkung: der Artikel wurde von mir auf Anforderung geändert.

Rent A Coder - Automated Form Filler

Falls ihr euch wundert wo die Spam-Comments produziert werden: nicht von dem Dumbo der auf rentacoder einen Programmierer sucht, der ihm einen ebensolchen Spam-Bot schreibt

Hier gibts den Originalartikel.

Abkommen über Spam unter der Ägide der ITU?

Und schon beginnen die Begehrlichkeiten: Die ITU sei als einzige Standardisierungsorganisation, die praktisch alle internationale Regierungen und Private an einen Tisch bringe, sehr gut dafür geeignet. Sorry, Mr. Hill, das ist falsch. Private ist bei der ITU gleichbedeutend mit Grossunternehmen. Aber richtig putzig: Gefragt sei auf der Protokollebene im Prinzip eine Lösung, die zwischen dem gegen die IP-Welt gescheiterten X.400-Standard und SMTP liege, sagte Hill. Autsch. Nein. Niemand will irgendetwas das auch nur annähernd auf der Linie oder in der Richtung von X400 liegt. Das ist eine der Totgeburten der Design-by-Commitee-Philosophie der ITU. Ein Haufen Müll. Berge von Papier. Viel zu kompliziert.

Bei heise online news gibts den Originalartikel.