sohu-search ist ein seltsamer Bot

Bei mir sammelt gerade der Suchmaschinenbot von sohu.com die Seiten ab. Soweit, so gut. Er benutzt die robots.txt, was schon mal gut ist. Aber was mich wirklich stutzen lässt, sind zwei Sachen:

Erstens greift er auf jede Seite zweimal zu. Einmal eine HEAD Zugriff und ein GET Zugriff. Das ist ziemlich dämlich aus mehreren Gründen. Zum Einen kann man es mittels Conditional GET ganz einfach direkt erledigen und zum Anderen provoziert das bei dynamisch generierten Seiten doppelte Seitengenerierung - denn auch wenn der HEAD Request nur die Headerzeilen holt, um z.B. die Content-length zu berechnen muss die seite trotzdem erstellt werden (hängt natürlich davon ab wie das generierende System geschrieben ist).

Zweitens greift er alle paar Seiten auf eine Seite namens abcdefghijklmn.htm zu. Und was der Quatsch soll, verstehe ich wirklich nicht. Irgendein Keep-Alive-Check? Keine Ahnung. Sehr strange.

tags: Sysadmin