MapReduceは分からないよ

何しろ扱うデータセットは膨大で,走らせるマシンが超巨大クラスタ,データのやりとりに分散ファイルシステムを使うってんだから,私のような趣味グラマの想像を遥かに超えていて,何度読んでも具体的なイメージがつかめない.そもそも初っ端の,Mapへの「入力データ」(webページとかアクセスログ?)はどう扱われるのか.
まぁ別世界の話ですな.

MapReduce の実装の話は非常によくできてるなと感心する一方, この技術を真似できる, 真似して意味のある人はそう多くなさそうにも見える.

Dean らも参考文献に挙げているように,結合法則を満たす操作を並列実行するための一般的な手法は過去にも数多く存在した。そのうえで Dean らが行った事とは,実世界の大規模なクラスターにおいて運用可能な形態へと洗練したこと,強固な耐障害性を備えさせたこと,そして,並列化技術の心得が無い技術者でも容易に理解することのできる単純なプログラミングモデルを提示したこと,等が指摘される。ただし,それらの改良は Google の扱う特殊な問題領域にあってこそ初めて可能となったものであり,他の領域へと展開が可能であるとは限らないことを心に留めておく必要があるのではないかと思われる。

私はこういう類の話を聞くと物理の数値計算に応用できないかととりあえず考えてみるのだが,うーん.世の中の知識や技術,組み合わせが効く場合はいかに少ないことよ.