Googleのランキング

Google創立者の一人Larry Pageの名を冠したPageRankという手法で40億のwebページに順位を付けている(現在はさらに優れた新手法を使っているとも聞くが).WWW全体をリンク関係に従って巨大な疎行列で表現し,固有値問題として順位を付ける.京大馬場先生の解説が分かりやすい.
http://www.kusastro.kyoto-u.ac.jp/~baba/wais/pagerank.html
理系の学生なら「1年のときに習ったことばっかりじゃん」という感想すら抱くだろう.しかし馬場先生も触れているが,それを実用に耐えるものにしたことが彼らの成功の秘訣だ.一説には,数万台規模と言われる巨大で安定したLinuxクラスタ,この裏方の基礎技術こそがGoogleの屋台骨なのだとも.
ところで,だ.Googleがwebページをクロールしてインデックス付けをやってキャッシュしてるのはよいが,実際にクエリが入力されたときにはそのクエリにマッチするかどうかを判断する必要がある(なお,恐らくPageRankが上位のページから順にマッチングを行うのだろう).そのマッチングが具体的に何をしているのかは明らかでない.普通に「その単語が含まれているかどうか」を調べているだけなのだろうか.きっと複数の単語との関連性やテキスト内での近さを調べていると思うんだが.あと単にPageRankが高いページではなく,「その単語にマッチするページ」を母集団に取ってPageRankを算出するとかいうのも重要な気がする.でもさすがに負担が大き過ぎるか?
何でこんなことを考えたかというと,Google日本で「物工」でググったらはてなのこの私の日記サイトがトップに来てたからだ(ぉ それはないだろ... この辺り,純粋に技術とアルゴリズムを追求するGoogleの弱みが出ている.「常識」を考慮してない.物理とは無関係なLisp関連のリソースで有名になった一学生のサイトを,物理工学を冠する諸学科のサイトより上に持ってくるというのはいかにも変だ.「物工」が正式なサイトで使われない略語だからいけないと? そこも「常識」的に,物工は物理工学の略なんだというのは判断できないものだろうか.しかしGoogleチームなら「常識」すらアルゴリズミックに実現することを目標にしそうだ.Googleニュースも全て自動化されてるらしいし.それとも逆に,Googleの結果こそが「新しい常識」に正しく対応しているんだろうか...??? 「イエス」でググると「唯一ネ申 又吉イエス」がトップですよ?(ぉ