Posted on 2004年11月15日 19:13
TrackBack Ping URL: http://blog.fineart.jp/taku/services/trackbacks/476.aspx
ia_archiverなる、User-Agentが来る。大量に来る…
Internet Archive: Wayback Machine のAgentらしいけど…
robots.txtで拒否したところ、クロールされていた該当ページ(http://fineart.jp)が、
数時間後には、Internet Archive: Wayback Machine(http://web.archive.org/web/*/http://fineart.jp/)で
このサイトはrobots.txtによってアーカイブできないから表示できません!ときた!
レスポンス早! 爆撃的に来るだけのことはある!
下記はサイトに表示されたもの。
-------
Robots.txt Query Exclusion.
We're sorry, access to http://fineart.jp/ has been blocked by the site owner via robots.txt.
Read more about robots.txt
See the site's robots.txt file.
Try another request or click here to search for all pages on fineart.jp/
See the FAQs for more info and help, or contact us.
-------
というわけで、ia_archiverは100%Internet Archive: Wayback Machineのrobotだということが判明!
記述したrobots.txtは、
------
User-Agent: ia_archiver
Disallow: /
------
という単純なもの。
これを記述後、またサイトをごそっと取得されたが、そのときにrobots.txtも持って帰ったんだろう。
案外、行儀が良いらしいから(加筆:後で怒りの制裁が加えられることになる)
しかしながら…ia_archiver…
いまは厄介に感じているけど、将来歴史的価値のあるサイトになったらどうしよう…とか思いをめぐらす。
日本まできて、個人ページをくまなくクロールし、各サイトの歴史を保存していくということは、すごいことですよ!
ハードディスクの容量や、回線太さとか、すんごい力を入れてるんじゃないの?とか思ってしまう。
GoogleやYahoo!のキャッシュは、時として消えてしまったページを見ることが出来るけど、
それは、次のクロールまでの一時的なもの。
でもia_archiverは、サイトの変わっていく過程がずっと残るわけで、
犯罪や事件に関係したページや、何らかの不都合があり、削除されたページなんかも、
そのまんま閲覧できるわけじゃん!と思うと、
やはりInternet Archive: Wayback Machineのようなページは、
どうなんだろう?と考えてしまう…。
というわけで、僕は、ia_archiverを弾いた!わけなのです。
------
加筆(上の書き込みを書いた夜)
robots.txtを置いたのに…robots.txtを置いたのに…
Internet Archive: Wayback Machineでは、
robots.txtがあるから表示できないと言ってるくせに…
robots.txtがあるから表示できないと言ったくせに…
まだ来るかーーーー! ia_archiver!!!!!!!!!!!!!!!!!!!!!!!!!!!
If Request.ServerVariables("HTTP_USER_AGENT") = "ia_archiver" Then response.redirect "http://www.archive.org/web/web.php"
'(IISでASPなVBscript)
もう怒り爆発!ia_archiverがページを取得しに来た時は、Internet Archive: Wayback Machineに
強制リダイレクトするようにしちゃいました。
-----------------------------------------------------------------------------------------
さらに加筆(2004/11/18) 新事実が発覚!やはり、alexaとの深いかかわりを持っていた…
alexaと深くつながっていたのである。
悪名高き、alexaのツールバーにもWayback Machineのボタンを発見、
Wayback Machineは、alexaの1つのコンテンツと見ることができる。
Wayback Machine=alexa
である。ここまでならなんら問題がない。背後の、驚愕の事実とは…
alexaのトップページを見よ!alexaのロゴに驚愕の事実が…悪名高きalexaは、
崇高なる存在のamazonに買収されていたのである!
Wayback Machine=alexa=Amazon
alexaの活動は、
A9.comの検索結果に直接影響するということ!
Wayback Machineを弾くという行為は…alexa、いや、来たるべくA9時代での死を意味するではないか!!
えらいことをした。えらいことをした。えらいことをした。えらいことをした。