Wednesday, July 11, 2007

Naverは客もつれてこないくせに偉そうな顔をして試食品のつまみ食いばかりする観光ガイドだ

スポンサードリンク

例のあわせて検索」ですが、アクセスログを眺めていると、アクセスしてくるのは検索エンジンのクローラーが多いんです。ぐーぐる、yahoo, alexa, MSNにまざって、異様な(?)アクセスパターンで攻めてくるのが「Yeti」。韓国のNaverっていうサイトのボットらしい。User-agentは"Yeti/0.01 (nhn/1noon, yetibot@naver.com, check robots.txt daily and follows it)"。checkなのにfollow"s"なので主語がよくわからんが ^^;; おそらく"we check your robots.txt everyday and follow it"といいたいんでしょうねえ。なんでわざわざこんなところで「ちゃんとrobots.txtよんでますよー」とかいいわけがましいこと言ってるかと言うと、このひと以前はNaverbotという名前で、かなり積極的なアクセスパターンでブツギをカモして、あちこちで出入り禁止になったらしい。それで困って名前かえたのかしら。

アクセスログをgrepしてwcしてみたところ、7月10日のGooglebotのリクエスト数が 897。Yetiは 1887。倍以上です。しかも! YetiさんはYetiさんだけじゃないんです。Yetiさんのアクセスパターンはだいたい以下のような感じ。

61.247.xxx.xx - - [10/Jul/2007:03:02:49 +0900] "GET /robots.txt HTTP/1.1" 404 285 "-" "Yeti/0.01 (nhn/1noon, yetibot@naver.com, check robots.txt daily and follows it)"
61.247.xxx.xx - - [10/Jul/2007:03:02:50 +0900] "GET /words/AAA/BBB HTTP/1.1" 200 8367 "-" "Yeti/0.01 (nhn/1noon, yetibot@naver.com, check robots.txt daily and follows it)"
61.247.yyy.yy - - [10/Jul/2007:03:02:51 +0900] "GET /css/xxx.css HTTP/1.1" 200 2379 "http://saas-sfa.com/words/AAA/BBB" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322)"

まず気がつくのは、かなり頻繁にrobots.txtをよむこと。7月10日にrobots.txtがよまれた回数が119回、そのうち104回がYetiさんです。robots.txt占有率 87%。そんなもんがあるとすれば、ですが。"check robots.txt daily and follows it" だから、もういっぱい読んじゃう。ぜんぜんよまないよりマシ? で、どうもうちには5人のYetiさんがきていて、おのおのが1時間に1回robots.txtを読んでるっぽいです。Yeti 5人兄弟。

もうひとつ気がつくのは、毎回cssをよんでいること。なんでわざわざcssをよむ必要がある? ^^; しかも毎回。なんど読んでも同じだよっ! cssなんか読んでなんに使ってんだろ...しかもよみにくるやつのhttp-user-agentが「Yeti」ではない。YetiとはIPアドレスもちがう。

IPアドレスと言えば、逆引きも出来ないのよね。わざとできなくしてるのかな?

あらためて、robots.txtとcssをチェックしているひとも含めて数を数えてみると、Yetiさん関係のリクエスト数は3682回でした。Googleさんの4倍強。よみすぎだろー ^^;

まあとりあえずいちおう仮にYetiさんのことを信用してみることにして、robots.txtに書いてみた。

% cat robots.txt
User-agent: Yeti
Disallow: /

すると、これまたいちおう行儀よく、1時間に5回のrobots.txtのチェックだけになりました...それでもうざい気がするが...

結局、Yeti=Naverのなにが問題かというと、クローラーのアクセス数に見合ったNaver経由のトラフィックがないことじゃないかな? お客さんもつれてこないくせに、試食品のつまみ食いばかりする観光ガイドみたいな? (ちがうか)。Google以上のお客さんをつれてくれば、かなり積極的にアクセスに来ても文句いわれないんだろうけどねー。まあそれはNaverにかぎらず、ほかのクローラーにも言える事ですが。

次回は.htaccessでアクセスそのものを禁止する方法を紹介します! (たぶん)

参考文献


No comments: