図示すると、こう
京ぽん2の USB についてのチャート / 2005-12-08 (木)
はてなアンテナの大嘘 / 2005-12-08 (木)
先日、ちとリクエストされたこともあり 以前のサイト を復活させました。
復活以前になくなってたのは意識的にそうしたのではなく、そのサイトをホストしていた SS20 が夏頃から寄る年波に勝てなくなったのか頻繁にクラッシュするようになったので運用を停止してたためです。復活はさせたもののこのページもあるし、以前使ってた GoLive ももうインストールしてない状態で、もう更新する気もないから その旨を当時の日記のトップに書いといたのです。
が、ですね。来るんですよ。更新チェッカーが。特に NATSU-MICAN とはてなアンテナ。復旧の時の都合により UserDir を使わなくなったので、URL の「/〜shiro/」の部分が「/shiro/」になってるのですよね。ここは apache の設定で Redirect ディレクティブを足して、301 を返してリダイレクトをしてます。が、NATSU-MICAN はそれをフォローしない。リダイレクトを認識できてないみたいです。このため、更新チェックをしているにもかかわらず、そのアンテナのページでは新着にならず、ずっと下の方に表示されてます。
しかし、ですよ。夏から3ヶ月以上落としてたサイトの更新チェックだけかけっぱなしで何もしないというのは一体どういう事なのでしょうかね? 自分の所のリストもメンテしてないという事なのでしょうか? ちなみに、例えばいぬリンクという更新チェック付きのリンク集でかつてはリンクされてたのですが、そこはちゃんとうちの日記ページへのチェックを外してたりします。( 余談だがあちこちから更新チェック受けてたけど、仁義通して連絡くれたのいぬリンクぐらいです。こういうところにも人間性って出ますよね...。)
それ以上に嘆かわしいのははてなアンテナです。何処が嘆かわしいかというと...。 はてなアンテナのヘルプ には以下のように記載されてます。
自分のサイトを、はてなアンテナで更新チェックされたくない場合は、以下の設定をお使いください。 ■ ロボット拒否ページについて一見、robots.txt を解析してその指示に従うように見えます、だがしかし、後半をよく読めばこれはあくまでアンテナの設定者に対して「拒否ページだ」と指定するのみだとあります。はてなアンテナでは A Standard for Robot Exclusion で定められた robots.txt の書式を解析します。たとえば、http://www.hatena.ne.jp/~somebody/what/ というページの場合、 http://www.hatena.ne.jp/~somebody/what/robots.txt http://www.hatena.ne.jp/~somebody/robots.txt http://www.hatena.ne.jp/robots.txt の取得を試み、最初に取得に成功したファイルを解析します。そのファイルで閲覧拒否の指定がなされていた場合ロボット拒否ページとみなします。
ロボット拒否とみなされたページについては、アンテナ開設者の「編集」画面にロボット拒否ページである旨の注意文が表示されます。また、アンテナの閲覧者がアンテナ開設者以外の場合や検索結果画面には、ロボット拒否ページは表示されません。ただし、アンテナ開設者のみはロボット拒否ページの更新状況を閲覧することができ、該当ページがアンテナに登録されている間は、アンテナの巡回は他のページ同様に行われます。
これは何を意味するか?
ええっと、復帰から数日のログより、Hatena Anntena を UserAgent に入れてきたログをみてみるとですね、一切、そう一切、robots.txt へのアクセスは行われていないのです。
私ははてなアンテナを使ってないからここからは推測ですが、おそらく、はてなアンテナは設定画面で編集を行うその瞬間にのみ robots.txt を参照し、それ以外は一切 robots.txt にアクセスしないのでしょう。
言い換えれば、アクセスがあることに気がついて robots.txt をおいてもはてなアンテナはそれを関知しません。はてなアンテナの利用者が編集を行わない限り、サイト側には拒否することができないのです。これは、検索エンジンのロボットに対する robots.txt の動きとかから連想できる挙動とは大きく外れているのは、すぐに分かっていただけるでしょう。
はてなを利用していない側からすると極めて不愉快な挙動なのですが、さて、どうするべきなのでしょうかね?
12/8 追記: そして、はてななドメイン(r とか b とか d とか) のリファラーが大量にログに残るのです(苦笑)。これが予想できたからいきなりファイアーウォールで deny だけはしなかったのですけど、ね。
