We all have agreed to comment spam - "In the legal correspondence of the last few days, the opposing lawyer even insisted that the consent of the two million bloggers is available". Well, if my blog is included, there is no declaration of consent. And given the number of blogs, I generally doubt this statement as well. Blog spammers are the lowest of the low.
spam
Spamhaus.org relativizes nic.at listing - I think I've said before that I don't think much of spam list operators, because they all go crazy sooner or later. Of course, Spamhaus is more important than laws ...
Man described as a top spammer arrested - and now please get the others too.
RFC against Spam - will it help? Maybe, because an RFC tends to be implemented in mail servers. On the other hand, will the mail servers also be updated to the new versions with the feature?
Thursday: Biggest. Anti-Spam. Lawsuit. Ever. - $1 billion in damages claimed. Lawsuit against several spammers who have recently collected email addresses, which is a violation of laws in the USA. Could be interesting.
Overzealous spam blacklist blocks Server4You addresses - SORBS again. Still incompetent, that place.
Stopping spam with the Anti-Spam-SMTP-Proxy (ASSP) - hmm. Transparent SMTP proxy. Unfortunately in Perl - my experiences in that direction were rather negative so far.
BMW kicked out of Google
Just freshly chased through the blogosphere, the pig, already caught German BMW Banned From Google. Well, if you engage in search engine spamming, you might get kicked out of Google. Some marketing guys probably wanted to be too clever again.

SIXTUS.NET - Blog | Dad, where do all these spam comments actually come from? Well, my child, they come from Lindlar, from Sebastian Foss - cute, when a supplier for spam software is then found to be based in Germany. However, this does not surprise me - we also have the dialer scammers.
akismet.py - Python interface for the (central) Akismet Spam Scanner.
Akismet - Centralized Anti-Spam Filter
Photomatt (from WordPress) has built a central anti-spam service called Akismet that can be used with WordPress via a plugin. Additionally, there is an API that allows other services to be integrated. Basically a good idea - even though I generally have an aversion to central services, unless I myself operate these central services.
What really bothers me, however, is this small excerpt from the FAQ:
Well without giving too much of the secret sauce away, we can safely say that it would be pretty difficult to poison Akismet.
So central service - okay. I don't like it, but it certainly makes sense for others who cannot or do not want to operate such a service themselves. But "secret sauce" - I should send my comments with the personal data of my commenters to a foreign system, where I can't even see the software running behind it? Sorry, no thanks.
Spam Block List Ran Amok
Guess who that was? Exactly - SORBS. My favorite collection of technical incompetence and social stupidity. Couldn't someone initiate a UDP against the pipes?
Even more media incompetence - this time CDU
Even the CDU is sending out spam:
Approximately 300,000 to 400,000 Germans are receiving an email from the contest provider "Play and Win" these days. They are advertising to vote for the CDU in the upcoming Bundestag election on Sunday. However, this is not entirely accurate: upon closer reading, it is simply election advertising by the Union.
Upon closer reading of the spammer's comment, it is simply spam. Scum.
Microsoft Loves Spyware
Anyway, Microsoft now classifies these differently:
According to this, since the update at the end of March, the program recommends ignoring various Claria products classified as moderately dangerous, as well as those from the spyware mills WhenU and 180solutions.
Sorry, but background programs that display news are fundamentally unacceptable, and I don't care in the slightest about the velvet-glove arguments the manufacturers of this junk come up with.
Sorry, but a manufacturer of operating system software that does not suggest uninstalling such trash in an anti-spyware check is simply not credible.
Webspammer with new tricks?
It seems like web spammers are learning a few new tricks. In any case, I stumbled upon links to myself that come from a WordPress blog consisting only of wild HTML snippets that seem to have been created due to searches for "house" - and then in the blogroll of the blog are various typical junk sites. So it could be that spammers are now building pseudo-sites with links and content that are supposed to flood the search indexes of systems like Technorati or the ping services.
Oh, and the Texas-Holdem guys have also learned a few new tricks - the URLs now have more changing server names and file names so that normal keyword filters no longer work quite as well and I am more often presented with spam for moderation - for a long time the stuff went directly into the trash because the guys were really too stupid ...
Annoying bunch.

Ann Elisabeth was diligent and identified the Bulgarian twin spammers - who are likely responsible for a large part of blog spam.
RBL operators are either sociopaths or incompetent
Or both. Sorry, but you can't categorize something like this any other way. If any providers now filter for rfc-ignorant.org, emails may be bounced or sent to the spam folder - just because the operator of rfc-ignorant.org doesn't like the whois from DeNIC. By the way, the mail RFCs do not contain any indication (and certainly no mandatory condition) that a whois service must exist for a domain. So much for the technical competence of the operator of this idiotic list ...
It's bad enough that as a mail admin you have to deal with spam, trojans, viruses and similar nonsense - and the gigantic mountains of traffic that result. More and more often you also have to deal with completely brainless block list operators and similarly stupid mail admins who implement these block lists (and possibly even bounce emails because of the listing!).
And when you point this nonsense out to them, the standard line is: "RBL filtering has almost eliminated all my spam". Great. The fact that the email medium is more damaged by such incompetent fools than by the spam itself is of no concern to them. Let's just break everything, every idiot can be a mail admin today. It's disgusting.
(Found via fh).
Should Spam be Punishable?
DIHK against penalty for spam senders - no wonder, as many spammers in Germany are members of the Chamber of Commerce ...
But what also doesn't really sit well with me about this story:
In the future, it is to be prohibited to conceal or withhold the true identity of the sender in the header of a commercial email.
This may be a justified demand for commercial communication, but as I assess Otto Orwell, this will soon be extended to all citizens. And if he doesn't do it, lawyers will do it with cease and desist letters when, for example, the web server sends automatic notifications under the name www-data ...
What I Find Perversion ...
... are dialer scammers who set up alleged drug info sites that only contain dialer links, of course do not contain any information about the prices (and are therefore not allowed in Germany) and then also advertise for this dialer crap with blog spam. On top of that, they hide behind an Austrian address - probably just a mailbox company.
Dialer scams make me sick. When they come together with blog spammers, I can't eat as much as I want to vomit.

This has also been noticed elsewhere a few days ago here.
Action Alliance Against Spam
Action Alliance against Spam. And involved are the eco Association (yes, exactly those with the great Whitelist Project that ensures that the advertising of their members also lands in your mailbox undisturbed by provider filters) and the WBZ (yes, exactly those who issued a warning to eleg.antville.org in 2003 due to missing imprint). Uh - hey, how about the job as a gardener?
Ok, maybe the Federal Association of Consumer Organizations has a positive influence in this story, but I can't imagine that anything really meaningful will come out of it ...
What you find in your comments ...
Comment spammers on the loose:
Hello dear community!
I am not a community. I may write in the pluralis majestatis, but we only do that by accident. Honestly.
I have been operating the BlahFasel auction platform BlahFasel.Blubb for a short time and am therefore addressing you, as I am interested in your opinion about my auction platform BlahFasel.Blubb. I look forward to your suggestions and hopefully constructive criticism.
Of course. You write a comment with a link and email address on an auction platform and include the name of that pile of junk X times - and all this just because you are interested in opinions. No, this is of course not supposed to be any advertising at all. How silly of us to feel that way ...
By the way, let me say this much, „BlahFasel.Blubb“ is an auction platform for BlahFasel and Blubb. However, I would like to emphasize that we do not think highly of „cheap BlahFasel“ and therefore the best Blubb does not automatically win at BlahFasel.Blubb. We are of the opinion that good BlahFasel has its price and therefore the seller (provider of the BlahFasel) determines the auction winner himself.
Huh? This is not an auction platform, this is a scam. An auction has a defined process - bids are placed and the best (depending on the orientation, the lowest or highest) bid wins. Anything else is not an auction platform - whether for BlahFasel or Blubb. At best, this could pass as a tender platform - but even there, there are formal rules that contain a bit more than "The seller determines the winner" ...
So that you can get an overview of BlahFasel.Blubb, you will find our press release in the "News" section on the right side of the page. Here, the functionality of BlahFasel.Blubb is described.
Of course, there - in press releases - everyone immediately expects the description of the functionality of the pile of junk. Completely logical. And under Imprint do you have cooking recipes?
I look forward to your opinion!!!
Opinion? Simple: lousy blog spammers (I found identical comments via search engine in other blogs), the posting that was commented on was chosen to be quite tasteless and, based on the description, I have filed the whole thing under "unsavory offers". Ergo? Plonk
Spammers are really quite stupid ...
... someone is struggling with my trackbacks right now. Every hour. Almost exactly at 25 minutes past the hour. With strongly varying IP addresses. The texts are also very different - and non-spammy. But what is the idiot doing? Trackbacking the same link every time. A link that I already put on the bad link list two weeks ago. Somehow not particularly smart, because everything ends up in the trash directly. Ok, otherwise everything would end up in the moderation queue, which wouldn't help him either.
Positivliste soll Marketing-Mails an Spam-Filtern vorbeischleusen - das ganze ist so absurd das mir einfach nichts einfällt was ich dazu schreiben könnte ...
Aus gegebenem Anlass ...
... weise ich darauf hin das ich Trackbacks von Blogs einfach lösche, wenn deren einziger Zweck die Promotion von irgendwelchen obskuren Amazon-Shops ist. Sorry, aber bloss weil der Werbemüll in einer Weblogsoftware abgelegt ist heisst das nicht, das ich jeden unpassenden Trackback durchwinke. Und nein, nur weil ein Stichwort aus dem Posting auch bei mir in einem Posting vorkommt ist das noch lange kein interessanter Trackback sondern einfach nur Spam.
Und nochmal Logfiles
Da ich ja nun ein interessantes Studienobjekt hatte, wollte ich mal gucken inwieweit ich mit ein bischen Clusteranalyse in meinen Logfiles irgendwas interessantes zutagefördern würde. Ich habe also eine Matrix angelegt aus Referrern und zugreifenden IP-Adressen und mir damit mal einen Überblick über typische Userszenarien gemacht - also wie sehen normale User aus im Log, und wie sehen Referrer-Spammer aus und wie sieht unser Freund aus.
Alle drei Varianten lassen sich gut unterscheiden, auch wenn ich im Moment da noch eher davor zurückschrecken würde das algorithmisch zu fassen - das lässt sich nämlich alles recht gut simulieren. Trotzdem sind ein paar Auffälligkeiten zu sehen. Zuerst mal ein ganz normaler Benutzer:
aa.bb.cc.dd: 7 Zugriffe, 2005-02-05 03:01:45.00 - 2005-02-04 16:18:09.00
0065*-
0001*http://www.tagesschau.de/aktuell/meldungen/0,1185,OID4031994 ...
0001*http://www.tagesschau.de/aktuell/meldungen/0,1185,OID4031612 ...
0001*http://mudbomb.com/archives/2005/02/02/wysiwyg-plugin-for-wo ...
0001*http://www.heise.de/newsticker/meldung/55992
0001*http://log.netbib.de/archives/2005/02/04/nzz-online-archiv-n ...
0001*http://www.heise.de/newsticker/meldung/56000
0001*http://a.wholelottanothing.org/2005/02/no_one_can_have.html
Man sieht schön wie dieser User von meinem Weblog weggeklickt hat und wieder zurückgekommen ist - die Referrer sind nämlich mitnichten alles Links auf mich, sondern falsche Referrer die die Browser schicken, wenn der Benutzer von einer Site auf eine andere wechselt. Eigentlich sollen Referrer ja nur dann geschickt werden, wenn auch wirklich ein Link geklickt wird - kaum ein Browser macht das aber richtig. Der Besuch war an einem definierten Tag und er ist direkt eingestiegen durch Eingabe des Domainnamens (die "-" Referrer stehen oben und oben steht der früheste Referrer der vorkommt).
Oder hier mal ein Zugriff von mir:
aa.bb.cc.dd: 6 Zugriffe, 2005-02-04 01:11:56.00 - 2005-02-03 08:27:09.00
0045*-
0001*http://www.aylwardfamily.com/content/tbping.asp
0001*http://temboz.rfc1437.de/view
0001*http://web.morons.org/article.jsp?sectionid=1&id=5947
0001*http://www.tagesschau.de/aktuell/meldungen/0,1185,OID4029220 ...
0001*http://sport.ard.de/sp/fussball/news200502/03/bvb_verpfaende ...
0001*http://www.cadenhead.org/workbench/entry/2005/02/03.html
Ich erkenne mich daran, das Referrer mit temboz.rfc1437.de vorkommen - das ist mein Online-Aggregator. Sieht ähnlich aus - ne Menge falsch geschickter Referrer. Noch ein anderer User:
aa.bb.cc.dd: 19 Zugriffe, 2005-02-12 14:45:35.00 - 2005-01-31 14:17:07.00
0015*http://www.muensterland.org/system/weblogUpdates.py
0002*-
0001*http://www.google.com/search?q=cocoa+openmcl&ie=UTF-8&oe=UTF ...
0001*http://blog.schockwellenreiter.de/8136
0001*http://www.google.com/search?q=%22Rainer+Joswig%22&ie=UTF-8& ...
0001*http://www.google.com/search?q=IDEKit&hl=de&lr=&c2coff=1&sta ...
Dieser kam öfter (also mehrere Tage) über meine Update-Seite auf muensterland.org und zusätzlich hat er noch nach Lisp-Themen gesucht. Und vom Herrn der Schockwelle ist er auch mal gekommen. Absolut typisches Verhalten.
Jetzt mal im Vergleich ein typischer Referrer-Spammer:
aa.bb.cc.dd 6 Zugriffe, 2005-02-12 17:27:27.00 - 2005-02-02 09:25:22.00
0002*http://tramadol.freakycheats.com/
0001*http://diet-pills.ronnieazza.com/
0001*http://phentermine.psxtreme.com/
0001*http://free-online-poker.yelucie.com/
0001*http://poker-games.psxtreme.com/
Alle Referrer sind direkte Domain-Referrer. Keine "-" Referrer - also keine Zugriffe ohne Referrer. Keine sonstigen Zugriffe - würde ich es genauer analysieren nach Seitentyp, würde auffallen das keine Bilder etc. zugegriffen werden. Leicht zu erkennen - sieht einfach mager aus. Typisch ist auch das jede URL nur einmal oder zweimal angegeben ist.
Jetzt unser neuer Freund:
aa.bb.cc.dd: 100 Zugriffe, 2005-02-13 15:06:16.00 - 2005-02-11 07:07:55.00
0039*-
0030*http://irish.typepad.com
0015*http://www208.pair.com
0015*http://blogs.salon.com
0015*http://hfilesreviewer.f2o.org
0015*http://betas.intercom.net
0005*http://vowe.net
0005*http://spleenville.com
Was auffällt sind die Referrer ohne abschliessenden / - untypisch für Referrer-Spam. Ausserdem halt ganz normale Sites. Was auch auffällt, es werden Seiten zugegriffen ohne Referrer - dahinter verstecken sich die RSS-Feeds. Auch dieser ist also leicht von Usern zu unterscheiden. Vor allem da ein gewisser Rhythmus drin ist - scheinbar immer 15 Zugriffe mit einem Referrer, dann den Referrer wechseln. Entweder ist die Referrer-Liste recht klein, oder ich hatte Glück das er zweimal den gleichen bei mir probiert hat - einer ist nämlich 30x da.
Normale Bots braucht man nicht gross zu vergleichen - die wenigsten schicken Referrer mit und sind deshalb völlig uninteressant. Ich hatte einen, der mir aufgefallen war:
aa.bb.cc.dd: 5 Zugriffe, 2005-02-13 15:21:26.00 - 2005-01-31 01:01:07.00
2612*-
0003*http://www.everyfeed.com/admin/new_site_validation.php?site= ...
0002*http://www.everyfeed.com/admin/new_site_validation.php?site= ...
Eine neue Suchmaschine für Feeds die ich noch nicht kannte. Scheinbar hat der Admin gerade vorher irgendwo meine Adresse eingetragen und dann hat der Bot losgelegt die Seiten zu sammeln. Danach hat er dann im Administrationsinterface meine von ihm neu gefundenen Feeds freigeschaltet. Scheint ein kleines System zu sein - der Bot läuft von der gleichen IP wie das Administrationsinterface. Die meisten anderen Bots kommen von ganzen Botfarmen, Webspidern ist halt eine aufwändige Sache ...
Zusammenfassend lässt sich also feststellen, das die derzeitige Generation von Referrer-Spammer-Bots und anderen Mal-Bots noch recht primitiv aufgebaut ist. Sie benutzen keine Botnetze um viele unterschiedliche Adressen zu verwenden und sich dadurch zu verstecken, sie benutzen reine Server-URLs statt Seiten-URLs und haben auch sonst recht viele typische Kennzeichen wie z.B. bestimmte Rhythmen. Ausserdem kommen sie fast immer mehrfach.
Leider sind das keine guten Merkmale um sie algorithmisch zu fassen - ausser man lässt seine Referrer in eine SQL-Datenbank laufen und prüft jeden Referrer mit entsprechenden Selects auf die typischen Kriterien. Darüber könnte man dann durchaus die üblichen Verdächtigen erwischen und gleich auf dem Server blocken. Denn normale User-Zugriffe sehen deutlich anders aus.
Allerdings sind auch schon neue Generationen in der Mache - wie mein kleiner Freund, der mit dem fehlenden /, zeigt. Und dank der dämlichen Browser mit ihren falsch erzeugten Referrern (die viel mehr über die History des Browsers aussagen als über tatsächliche Link-Verfolgung) kann man nicht einfach die referenzierten Seiten gegenchecken, da viele Referrer reine Blindreferrer sind.
vermutlich verkleideter Bot in den Logs
Ich hab gerade mal in meinen Referrern einige Referrer gefunden, auf denen ich absolut nichts finden konnte das auf mich verweist. Soweit nichts ungewöhnlich - Referrer-Spam wäre die erste Vermutung. Aber die in den Referrern genannten Seiten sind ganz normale Weblogs und andere Sites - keine Leute die Grund hätten für ihre Site zu spammen (zum Beispiel ein Blog mit ca. 1 Post pro Monat, oder eine Irin und noch so ein paar seltsame Referrer). Auch sind die Anzahlen anders als bei normalem Referrer-Spam: der kommt normalerweise entweder nur 1-2x oder wenn dann mit vielen Adressen und jede dann gleich 100x oder ähnliches. Dieser kommt ca. 15 mal.
Also habe ich mal in den Logs etwas gewühlt, ob ich da was finde. Und siehe da, die Referrer haben ungwöhnliche Merkmale: sie schliessen nicht mit einem / ab. Normalerweise wird eine Adresse die nicht auf / endet automatisch umgeleitet auf die /-Variante. Referrer sind also normaleweise /-terminiert oder direkte HTML-Seiten oder etwas vergleichbares. Reine Site-Angaben ohne / hinten dran sind eher selten.
Auch noch was anderes fällt auf: die Seiten wurden wirklich angesurft - bzw. mindestens runtergeladen. Und die zu einem Referrer gehörigen Seiten sind recht wild gewürfelt - bei normalen Usern erwartet man eigentlich eher irgendeine Form von Konsistenz in dem was per Referrer rüberkommt. Vor allem kommen selten 15 Links auf einen Schlag auf eine Seite ...
Und das wesentliche Kriterium: die IP des zugreifenden Rechners ist bei den verschiedenen immer die gleiche. Eine Auswertung ergab dann folgendes Bild:
15 betas.intercom.net
15 blogs.salon.com
15 hfilesreviewer.f2o.org
30 irish.typepad.com
5 spleenville.com
5 vowe.net
15 www208.pair.com
Alles eindeutig falsche Referrer. Zusätzlich noch 34 Zugriffe auf meine RSS-Feeds ohne Referrer. Zugriffe waren nur auf direkte Postings und RSS-Feeds - nicht auf Übersichtsseiten oder Archivseiten. Sieht sehr danach aus, das der Bot hier wie folgt vorgehen: RSS-Feeds suchen, diese abgreifen, da drin dann nach Permalinks auf Artikel suchen und diese runterziehen um z.B. an die Kommentarformulare zu kommen. Das ganze schön getarnt als angebliche Besucher, inkl. gefälschten Referrern die unverdächtig wirken. Auch nicht zu viele zugriffe eines Referrers, lieber das ganze öfter gewechselt.
Eigentlich nichts neues, beim eMail-Spam sind ja gefälschte echte Absender durchaus üblich und gängig um schwerer zu filtern zu sein. Aber bei Sammelbots sehe ich diese Art der Mimikry zum ersten Mal life - die Symptome beobachte ich auch erst ca. 1-2 Wochen bei mir.
Für Admins ist das ganze natürlich ziemlich nervig, da man die Referrer-Logs noch weniger gebrauchen kann als bisher schon. Bisheriger Referrer-Spam war zwar ein Ärgernis, aber aufgrund der ziemlich dämlichen Namen der Referrer leicht zu erkennen. Diese Form von Logphänomen verfälscht auch die Referrer - fällt aber wesentlich weniger auf. Könnte für Weblogs interessant sein die ihre Referrer direkt im Beitrag anzeigen.
Und natürlich bleibt auch noch das Problem, das ich ja noch nicht weiss was der Bot mit den gesammelten Erkenntnissen anfangen will. Wobei ich stark auf Spam tippe, aber das ist nur eine Vermutung - könnte auch ein Bot sein, der nach typischen Sicherheitslöchern sucht. Auf jeden Fall ist es ein Bot und auf jeden Fall hat er nichts gutes vor - denn sonst bräuchte er sich nicht zu verstecken.
Passend zu meinem vorigen, längeren, Text: Weblog Tools Collection leidet unter Referer Spam DoS. Solche Vögel - also Referrer-Spammer die in die Tausenden gehen bei den Zugriffen - sind in meiner Loganalyse (noch?) nicht aufgetaucht.
Spammer in Vorbereitung
Aus gegebenem Anlass eine Info und Warnung: wer in seinem Weblog in den Kommentaren im Moment so Sachen mit Inhalt I agree with you findet, kann unter Umständen Vorbesuch eines Spammers haben. Und zwar haben auch die Spammer geschnallt das man in manchen Blogs (speziell neuere Wordpress-Versionen) erst einen freigeschalteten Kommentar haben muss um dann mit dieser Adresse weitere Kommentare abzuladen - die dann natürlich nur noch Spam sind. Von daher: auch wenn es nett ist wenn einem jemand zustimmt, in diesem Fall könnte man sich mit der Freischaltung des Kommentars ein Kuckucksei gelegt haben.
Nuclear Elephant: DSPAM
Nuclear Elephant: DSPAM ist ein bayesian Spam Filter. Allerdings einer der nicht nur für einen User läuft, sondern üblicherweise für ein ganzes Rudel von Usern. Ich hab das auf simon.bofh.ms laufen um die Mailpostfächer dort alle zu scannen - es ist gut integrierbar und hat eine ganze Reihe interessanter Features. Zum Einen die Weboberfläche zur Verwaltung des Spamfilters, zum Anderen die recht pragmatische Methode um Fehlerkennungen an den Filter zu melden. Auch nett die recht weite Unterstützung von Datenbanken (MySQL, PostgreSQL, SQLite und mehrere db* Typen). Alles in allem macht es einen wirklich runden Eindruck - einziges Manko ist die fehlende Übersetzung der Oberfläche.
Ob es auch wirklich filtert kann ich natürlich mangels Masse noch nicht sagen - die Mails müssen sich erst ansammeln und trainniert werden. Userberichte sind aber - bayesian Spam Filter typisch - aber recht positiv.
Blöder Spambot am Werke
Im Moment trommelt ein ziemlich dämlich gebauter Spambot auf meine Kommentarfunktion ein und müllt meine Moderationsqueue voll - durch kommt davon nix, der ist so dämlich das er alles im Klartext reinhaut, haufenweise Links und typische Spam-Wörter. Wird also von den banalsten Filtern erwischt. Nichtsdestotrotz kann sowas natürlich Fallout produzieren - nämlich Kommentare von anderen die in die Moderation rutschen (z.B. weil die Anzahl Links zu hoch ist) könnten von mir in dem Wust von hunderten Spamkommentaren übersehen und versehentlich mit gelöscht werden. Wenn dem so ist, es ist nicht persönlich. Ich hab nur keine Lust bei mehreren Hundert Spamkommentaren zu scharf hinzugucken ob ich auch wirklich nur Spam lösche ...
Update: Nachdem ich mir den mal ein bischen genauer angeguckt hab, hab ich ihn erstmal in /dev/null platziert - die Moderationsqueue wird von dem nicht mehr belastet und damit auch normal moderierte Kommentare nicht versehentlich gelöscht. Was mir bei der näheren Durchsicht spontan aufgefallen ist: es wird eine grosse Menge von sehr weit gestreuten IP-Adressen benutzt. Klingt sehr stark nach Botnet, zumal die IP-Adressen nach Stichprobenprüfung wohl alles dynamische Dialup-Adressen sind. Unsere Freunde die fremdgesteuerten Windows-Kisten sind also auch hier wieder mal das Pferd auf dem Spam reitet. Toll. Danke, Microsoft ...
WP-Questionnaire Plugin
Ok, ich hab das Plugin für Wordpress 1.5 fertig. Simple Sache - ein Plugin und eine kleine Managementseite mit der man die diversen Fragen anlegen kann. Zur Installation lädt man das Plugin herunter und kopiert einfach die Files an die im readme.txt angegebenen Stellen und aktiviert das Plugin. Dann fügt man im Management bei Questionnaire einfach ein paar Fragen ein und fertig. Bei Kommentaren wird dann eine mehr oder minder blöde Frage gestellt, die mit einer möglichst kurzen Antwort befriedigt werden sollte (wir wollen die Kommentatoren ja nicht zu sehr nerven). Wenn die Antwort stimmt, wird der Kommentar - sofern nicht andere Anti-Spam-Methoden vorher zuschlagen - sofort freigegeben. Stimmt die Antwort nicht, wandert der Kommentar in die Moderation und muss vom Admin freigegeben werden.
Man kann natürlich auch einen heimlichen IQ-Test für seine Kommentatoren damit bauen und statt einfacher Fragen da kleine Rätsel reinpacken - nur wer diese löst darf sofort kommentieren
Ich hab das Plugin mal bei mir aktiviert, mal gucken ob es Auswirkungen auf das Kommentierverhalten der Leute hier hat. Ihr könnt ja mal eure Meinungen hier ablassen was ihr von so einer Anti-Spam-Methodik haltet.
Eine recht interessante mögliche Attacke auf jede Captcha-Lösung ist übrigens in den Kommentaren zu Eric Meyers WP-Gatekeeper zu finden: man kann einfach die Kommentarformulare sammeln und wegspeichern. Zusätzlich braucht man eine Site, auf der man diese verwenden kann - z.B. eine Site für freie Pornofilmchen. Dort präsentiert man die Captchas den Benutzern dieser Sites und nimmt deren Antwort an. Diese Antwort schickt man dann an das gespeicherte Formular und fertig ist der Kommentar. Natürlich kann man dagegen auch Massnahmen ergreifen - am besten warscheinlich ein codierter Timecode im Formular und eine Abweisung eines zu alten Timecodes, denn die Antworten durch die Pornogucker kommen ja vermutlich nicht sofort. Interessanter Ansatz, das ganze.
Update: das Plugin hat noch zwei Bugs. Zum Einen erwischt es auch Trackbacks (die natürlich die nötigen Variablen nie haben) und es kann im Moment noch recht einfach umgangen werden wenn man weiss wonach man im Formular gucken muss - man braucht nur ein Captcha zu lösen und kann damit dann andere Kommentare bespammen, in dem man die Kommentar-ID ändert. Das letztere ist übrigens bei sehr vielen Captcha-Lösungen ein Bug - man fällt einfach zu leicht drauf rein zu vergessen die Captchas an irgendeine Form von Seriennummer oder ähnliches zu binden so das ein Formular so in der Form nur einmal benutzt werden kann ...
Ich werd also in der nächsten Zeit da noch einen Update zu machen zu den Plugin.
Update 2: das Problem mit den Trackbacks und Pingbacks sollte jetzt gelöst sein. Das Problem mit dem Replay ist noch drin. Über das muss ich noch ein bischen grübeln. Meine bisherigen Lösungsansätze gefallen mir nicht so richtig dafür.
Update 3: ich habs jetzt erstmal hier wieder abgeschaltet. Ich krieg ja bisher keinen Kommentarspam und ohne zwingenden Grund ist selbst eine einfach zu beantwortende Frage ziemlich blöd ...
Eric's Archived Thoughts: WP-Gatekeeper
Eric's Archived Thoughts: WP-Gatekeeper ist ein sehr interessanter Ansatz gegen Kommentarspam: es wird einfach eine von vielen vorkonfigurierten Fragen gestellt, auf die ein Mensch sehr einfach eine Antwort geben kann, ein Spambot aber nicht. Wird in ähnlicher Form ja schon in diversen Blogs benutzt, aber hier ist es schön ausgearbeitet (allerdings könnte es meines Erachtens auch komplett als Plugin realisiert werden). Die Grundidee ist im Prinzip die eines Captchas - aber eben ein textuelles Captcha. Ein Mensch kann die Frage was ist 1+1 gut beantworten - ein Spambot wird da nicht weiter kommen. Klar, Spammer können Datenbanken von Fragen und Antworten anlegen. Aber wenn jeder seine eigene Sammlung von Fragen einrichtet, wird es sie nicht weit bringen. Für Kommentarspam sollte es eine sehr brauchbare Lösung darstellen.
Leider gibts für Trackbacks nicht so eine einfache Lösung ...
Update: da ich die Idee irgendwie witzig finde, schreibe ich gerade ein entsprechendes Plugin. Kann also sein das meine Kommentare heute nacht etwas seltsam sich verhalten
MT-Blacklist -> Hijacked comments.cgi
MT-Blacklist -> Hijacked comments.cgi - wer Moveable Type benutzt sollte das Kommentarscript abschalten. Die eMail-Verifizierung die prüft ob die Absenderadresseingabe keine Mist enthält ist falsch - wodurch man zusätzliche Empfängeradressen reinmogeln kann wenn man diese mit einem Linefeed von der eigentlichen Absenderadresse trennt. Und damit kann man dann lustig MT benutzen um andere Leute zu spammen.
Ein echter Anfängerfehler - die eMail-Validierung geschieht mit einer Regex die nicht auf das Ende des Strings matched und dotall benutzt - dadurch geht sie nur bis zu einem eventuellen Linefeed und ignoriert den Rest danach. Saublöd.

WordPress : Tackling Comment Spam ist eine recht vollständige Zusammenstellung der diversen Ansätze gegen Kommentarspam und Trackbackspam in WordPress.
Got New Spam Tactic Figured
Asymptomatic » Got New Spam Tactic Figured berichtet übert eine neue Taktik der Blogspammer. Und zwar tauchen relativ harmlose Kommentare auf Blogs auf, die keinen einzigen Link enthalten. Wenn die Spammer diese Kommentare über Google wiederfinden wissen sie, das sie dort höchstwarscheinlich weitere Kommentare ablassen können - und umgehen die Sperren, die darauf beruhen das ein Kommentar automatisch freigegeben wird wenn ein Besucher unter seiner eMail-Adresse schon mal einen freigegebenen Kommentar hatte. Es könnte also sein das nach einem Hey, Deine Seite finde ich toll Kommentar dann plötzlich ein Berg von Blogspam aufschlägt ...
SURBL -- Spam URI Realtime Blocklists - Reatime blocking list die Hostnamen aus URLs prüfen kann.
kasia in a nutshell: Spam breeds more spam
Kasia macht ein faszinierendes Experiment: sie lässt einfach mal zwei Kommentarspameinträge stehen und wartet das Google sie indiziert hat. Keine 24 Stunden später wurde dieser Eintrag bombardiert mit Spam - mehrere hundert Stück.
Man kann also daraus folgern das die Spambots zumindestens teilweise zweistufig arbeiten und das es wirklich um das Googleranking geht. Der erste Eintrag ist sozusagen ein Testeintrag. Bleibt er stehen so das er über Google wiedergefunden werden kann, ist es ein Eintrag wo man gut spammen kann - er ist unbeaufsichtigt und wird von Google schnell indiziert. Ideales Futter für Spammer.
Google ist also integrales Werkzeug und Ziel gleichzeitig für die Spammer. Man kann auf jeden Fall durch technische Abtrennung der eigenen Kommentare (so wie es mein altes Weblog hatte wo die Kommentare nicht nur auf einer eigenen Seite hinter einem Popup-Link waren, sondern zusätzlich auch noch auf einem ganz anderen Webserver) und durch Indizierungsverbot für diese Kommentaradressen den Spammern den Wind aus den Segeln nehmen. Man würde zwar von den Testproben noch erwischt, aber der gigantische Schwung hinterher sollte ausbleiben.
Das könnte unter Umständen auch die Probleme des Schockwellenreiters begründen: aufgrund seiner exponierten Stellung dürfte Google ihn sehr oft besuchen und wenn erstmal ein Spamkommentar länger stehen bleibt und indiziert werden konnte (kann ja auch nur durch Glück des Spammers passieren, der einfach kurz vor Googles Besuch gespammed hat) hat sich der Spammer den Server in die Spamlisten eingetragen. Im Prinzip muss er ja nur einmal den Schockwellenreiter über Google bezüglich seiner Testspams gefunden haben.
Jetzt müsste ich nur noch eine gute Idee bekommen wie ich das ganze für Wordpress umsetzen kann. Popupkommentare gibts schon, aber ich müsste das ja auch noch auf eine andere virtuelle Adresse legen und dort per robots.txt die Suchmaschinen ausschliessen.
RBL Prüfungsseiten für viele RBLs auf einmal
Wer wie ich keine Zeit hat hinter den tausenden von RBLs (Liste über mögliche oder angebliche Spam-Relays) hinterher zu rennen um zu prüfen ob wieder jemand einen eigenen Server fälschlicherweise dort gelistet hat, bieten diese zwei Links gute Dienste: sie prüfen einen grossen Satz von RBLs auf einen Schlag. Der erste Link ist der schnellere:
The Daily Whim: MT Plus Comment Spam Equals Dead Site
Ein interessanter Artikel über die Auswirkungen des Blog-Spams gerade auf Moveable Type Hoster. Gigantische Serverload nur dadurch das die Kommentarformulare von Moveable Type am häufigsten von Spambots attackiert werden und dadurch das die Anti-Spam-Plugins für MT wohl alles andere als optimal für die Serverload sind.
heise online - Anti-Spam-Arbeitsgruppe MARID der IETF streicht die Segel
Da es keine Aussicht auf einen Konsens und das Erfüllen des gesteckten Zieles -- ein Standardvorschlag bis August 2004 -- gebe, hätten er und die MARID-Chefs sich für die Schließung der Gruppe entschieden. - ja, sorry, aber wenn erst ende September auffällt, das man den Termin im August nicht mehr halten kann, dann sollte man sich vielleicht einen Kalender auf den Schreibtisch stellen
Ansonsten ist das ganze Vorgehen ein absolutes Debakel. Ich stimme mit den Stimmen überein, das die Verhinderung der Diskussion über die Patentproblematik ein Grund für das Debakel ist. Patentansprüche an IETF-Algorithmen sollten frühzeitig ausgeräumt werden - denn gerade bei so wichtigen Infrastrukturentscheidungen darf man das Heft nicht in die Hände von Konzernen legen, die das dann ausschlachten können. Und das Microsoft einen solchen Hebel nicht angesetzt hätte um die GPL zu behindern glaubt jemand der sich die Hose mit der Kneifzange anzieht ...
Und ja, es ist ein ernstes Problem, das es jetzt vorerst keinen IETF-Vorschlag geben wird. Denn so wird dem Alleingang von Microsoft Tür und Tor geöffnet. Hoffen wir das nicht die Spambekämpfung die Brechstange wird, mit der Microsoft den Servermarkt im Internet knackt.
Microsoft: Keine Lizenz - keine Flicken
Toll. Millionen von raubkopierten Windows-Schrottsystemen werden demnächst dann noch schrottiger. Und die Müllhalde wird nicht bereinigt werden. Klar, Microsoft nerven die Raubkopien - aber muss das ganze Netz darunter leiden, das Microsoft keine vernünftige Software hinkriegt und dann auch noch sich weigert die Schäden zu reparieren? Mir ist es ehrlich egal ob jemand sein Windows bezahlt hat, mich interessiert nur, ob der Rechner eine weitere Viren- und Spamschleuder ist, oder ob er wenigstens mit den notwendigsten Patches versorgt ist. Nicht das die sonderlich viel helfen ...

Bei das Netzbuch gibts den Originalartikel.
Microsofts Patent bedroht weiterhin möglichen Anti-Spam-Standard
Na toll. Software-Patente sind Moppelkotze.
Bei heise online news gibts den Originalartikel.
::jamesoff:: » Check RBL for WordPress 0.1 - Zugriffe auf Kommentare über RBLs prüfen - möglicherweise interessant, um von vornherein Zugriffe von Spammern zu filtern?
Streit um Microsofts Patentansprüche lässt Anti-Spam-Standard wackeln
Ich hoffe doch stark das dem Microsoft-Vorschlag eine klare Absage erteilt wird. Das ist hahnebüchene Moppelkotze, was Microsoft sich da vorstellt - eine Anti-Spam-Technik, die auf Microsoft (oder auch eine andere Firma - nur ist Microsoft durch die embrace-and-extend Praktik da ganz besonders suspekt) patentiert ist darf einfach nicht als IETF-Standard akzeptiert werden.
Bei heise online news gibts den Originalartikel.
Geoffroy-Klammeraffe
Der Klammeraffe. Wesentlicher Bestandteil der eMail-Kommunikation. Kein Wunder, das ich so viel Spam bekomme. Wird bestimt von lauter Klammeraffen auf der Suche nach Shakespear produziert ...
Re: Sender-ID and free software
Ein Kommentar von Richard Stallman über die von Microsoft vorgeschlagene Anti-Spam-Lösung, die mit freier Software lizenztechnisch inkompatibel ist. Und ein Kommentar über die Lösung selber, den man allerdings erst nach längerem Abkürzungsstudium verstehen kann
Zusammenfassung: Microsofts Lizenz ist Moppelkotze und Microsofts technisches Modell ist Moppelkotze. Hat jemand was anderes erwartet?
Spammer ignoriere ich ja üblicherweise ...
... aber wenn dann ein Spammer aus Deutschland mir unaufgeforderte Werbung schickt und dann in diesem unaufgefordert zugesandten Spam auch noch reinschreibt das der Inhalt dieses Werbemülls urheberrechtlich geschützt ist, dann muss ich doch leicht grinsen. Anmerkung: der Artikel wurde von mir auf Anforderung geändert.
Rent A Coder - Automated Form Filler
Falls ihr euch wundert wo die Spam-Comments produziert werden: nicht von dem Dumbo der auf rentacoder einen Programmierer sucht, der ihm einen ebensolchen Spam-Bot schreibt
Abkommen über Spam unter der Ägide der ITU?
Und schon beginnen die Begehrlichkeiten: Die ITU sei als einzige Standardisierungsorganisation, die praktisch alle internationale Regierungen und Private an einen Tisch bringe, sehr gut dafür geeignet. Sorry, Mr. Hill, das ist falsch. Private ist bei der ITU gleichbedeutend mit Grossunternehmen. Aber richtig putzig: Gefragt sei auf der Protokollebene im Prinzip eine Lösung, die zwischen dem gegen die IP-Welt gescheiterten X.400-Standard und SMTP liege, sagte Hill. Autsch. Nein. Niemand will irgendetwas das auch nur annähernd auf der Linie oder in der Richtung von X400 liegt. Das ist eine der Totgeburten der Design-by-Commitee-Philosophie der ITU. Ein Haufen Müll. Berge von Papier. Viel zu kompliziert.
Bei heise online news gibts den Originalartikel.