ichiroがウザいです。

1週間くらい前から、サーバの転送量がちょっと異常な増え方をしたのね。で、アクセスログを覗いてみると、ichiroの仕業。gooのクローラが「ichiro」という名前なのですが、こいつがもの凄い勢いでやって来る。

iTunes Storeのアイテムを検索できるページ」というのを作ってみたのですが、その検索結果の出力に、大量の「再検索のためのクエリ」リンクが含まれている訳です。ichiroさんが、そのリンクをシラミつぶしに辿りやがるのですわ。1時間に100アクセスとか。それぞれのリンクについて、新しい検索結果ページが生成されるので、そりゃ転送量も増えるわな。

...ということにすぐ気が付いて、robots.txtを書き直して「検索結果ページ」はクロールしないようにお願いしたのですが、ichiroくんは中々robots.txtを読んでくれないようだ。
gooのヘルプページ(http://help.goo.ne.jp/door/crawler.html)には「robots.txtに従います」って書いてあるのだけれど、robots.txtを読みにくる頻度がこんなに低い(1週間以上、再読み込みはしていない訳でしょ)のは話にならないっす。

例えばgoogleのクローラーは「およそ24時間に1度」、yahooのロボットも相応の頻度でrobots.txtの確認をしてくれているのだが。現にgoogleさんとyahooさんのクローラーは、1日かそこらで、こっちの設定に応えてくれたのだがなぁ。

あまりにウザいので、しばらくの間ichiroさんはアク禁ということにさせて頂いた。自分のページをインデックスして検索エンジンに登録してくれるのは非常に有り難いのだが、さすがに今回は有り難迷惑。

[ .htaccess ]
SetEnvIf User-Agent "^ichiro" goo
order allow,deny
allow from all
deny from env=goo


カテゴリ: