gaeの日記 #2

2009-02-07 (土)

[] ロボットのアクセスがすごい 12:32  ロボットのアクセスがすごい - gaeの日記 #2 を含むブックマーク はてなブックマーク -  ロボットのアクセスがすごい - gaeの日記 #2

robots.txtを修正したので、他のロボットのアクセスをチェックしていたら...

hk2-lr671212g.super-goo.com - - [07/Feb/2009:11:26:48 +0900] "GET http://www.cal.syoboi.jp/tid/518/time?Ord=StTimeDesc&Filter=22&Filter2=Updated HTTP/1.1" 200 45078 "-" "ichiro/3.0 (http://help.goo.ne.jp/door/crawler.html)" 0

なぜか www.cal.syoboi.jp。どうしたものか...。super-goo.comだけだったけど。


crawl221.tkl.iis.u-tokyo.ac.jp - - [07/Feb/2009:11:31:52 +0900] "GET /tid/280/time?Filter=ChUser&Filter2=Updated HTTP/1.1" 200 9285 "http://syobocal.orz.hm/tid/280/time" "Mozilla/5.0 (compatible; Steeler/3.4; http://www.tkl.iis.u-tokyo.ac.jp/~crawler/)" 0

このロボットはReferer 送ってる。Refererを集計するとsyobocal.orz.hmからのリンクがたくさんあって不思議だったんだけど、このひとのせいだったのか...。


最後に、アクセス数トップ5の確認。

f:id:gae:20090207115727p:image

上位2つはGoogleだから仕方ない(笑)として3位が気になったのでログを調べてみた。

f:id:gae:20090207115809p:image:w500

mAgicAnime 1.8.24.0 を名乗るクライアントが結構な頻度でアクセスし続けている。過去3日のログを調べてみたら、1日32000回。毎分22回。いまはこういう人が1人しかいないし、アクセス先は静的なファイルだから負荷もそんなにかからないからいいけど、こういう人が増えてくると問題になりますな。


最近はてなダイアリーのRSSで、cococからのアクセスを拒否してるって話が出てたけど、ユーザの設定ミスで意図せず相手に迷惑をかけている場合、「利用できなくする」ことでしか相手に伝えられないから、仕方ないんじゃないかなーと思った。

追記 2009-02-12

極端にアクセスの多い方に対してしょぼいカレンダーの番組表の枠の上部に通知を表示するようにしました。

このページへのリンクが表示された方は、使用しているツールの利用方法に問題が無いか確認してください。

暇なときにログを確認して問題が解決されたら通知の表示を停止します。

追記 2009-02-20

大量のアクセスがあったクライアントですが、2009-02-19の23:50ごろからアクセス頻度が変わり、1分あたり24回だったものが2回に減りました。バージョンは 1.8.24.0 のままです。

[][] robots.txt 12:00  robots.txt - gaeの日記 #2 を含むブックマーク はてなブックマーク -  robots.txt - gaeの日記 #2

  • 2009-02-07
    • robots.txt タイプミスでlocalcalconfigを不許可にできていなかったのを修正
    • index クッキーを設定するだけのlocalcalconfigへのリンクをrel=nofollowにした(毎日無駄に6~8万回アクセスがあった)

Googlebot多すぎだろうと思ってログを調べたら、cookieをはき出してリダイレクトするだけのlocalcalconfigへのアクセスが大量にあった。ずっとこのアクセスは拒否しているつもりだったけど、タイプミスで拒否できてなかったらしいので修正。


追記 2009-02-15

8日にもrobots.txtを修正して、一部のパラメータ付きのURLをGoooglebotなどに収集させないようにした結果、かなり転送量が減りました。

f:id:gae:20090215120634p:image

データの並び順の違いで別々にインデックスされても意味がないと思ったからやったのですが、対処方法間違ってますかね...。