2005-04-29

近況

風邪で欠勤.

がんばって何かをなしとげよう. そう決心した途端にいつも体調を崩す. それを言訳に何もできずにきた. ボトルネックは時間でも年齢でも待遇でもなく自分自身にある. 心身共に怠惰なのだ.

ふとんの中で "The Anatomy of a Large-Scale Hypertextual Web Search Engine" を読んだ. '98 年頃に書かれた, Brin と Page による Google アーキテクチャの解説. 技術的に面白いだけでなく, 彼らの当時の意気込みが伝わってきてわけもなく励まされる. さぞや楽しかったんだろうなと. たとえば, クローラを動かすのは技術的にだけでなく社会的にも大変なんだというくだり.

It turns out that running a crawler which connects to more than half a million servers, and generates tens of millions of log entries generates a fair amount of email and phone calls. Because of the vast number of people coming on line, there are always those who do not know what a crawler is, because this is the first one they have seen. Almost daily, we receive an email something like, "Wow, you looked at a lot of pages from my web site. How did you like it?" There are also some people who do not know about the robots exclusion protocol, and think their page should be protected from indexing by a statement like, "This page is copyrighted and should not be indexed", which needless to say is difficult for web crawlers to understand. Also, because of the huge amount of data involved, unexpected things will happen. For example, our system tried to crawl an online game. This resulted in lots of garbage messages in the middle of their game!

検索エンジンや robots.txt を知らない連中からメールはくるわ電話はくるわもう大変, ついでにウェブゲームのデータにゴミを残しちゃうこともありました...なんてなかなかお茶目で楽しい.

そのほか, 検索スコア計算の実装について

All of these numbers and matrices can all be displayed with the search results using a special debug mode. These displays have been very helpful in developing the ranking system.

などと割としょうもないことを自慢したりする. いちいち楽しそう. 企業文化の自慢を聞くより, この論文を読んだ方がよっぽど Google に行きたくなる.

Black Art

Brin らは冒頭で, Google は Commercialism によって Black Art 化した検索エンジンを Academic realm に引き戻すプロジェクトだと述べている. また, クロールして集めた文書を Information Retrieval の研究素材としたいとも. しかし, 今や Google は見事な Black Art だ. PageRank から先の精度向上について彼らは何も語ってくれないし, Google のレポジトリに利用して何らかの研究がされたという話も聞かない. 公開されるのは GFSMapReduce といった hype ばかり. Google もまた Black Art になってしまった.

....と, これはやや解釈の悪意が過ぎる. PageRank やその派生技術は今でも IR 研究を賑わしているだろうし, Google のレポジトリそのものではなくとも, その検索結果を利用した面白い研究はいくつかある. (例えば "Google distance") Google は Academia の世界に留まってはいないけれど, Academia の好奇心を刺激する素材を提供している. いまのところはこれで十分だろう. そう考えたい.