javascriptで本文抽出

Readability | The Arc90 Lab*1って、どんな仕組みなんだろう…と思っていたら、なんのことはない。Javascriptで本文抽出して、それを動的にスタイルし直しているだけっぽい。ちなみに本文抽出のアルゴリズムは、ヒューリスティクスとでも言うのでしょうか。スコア計算によって本文判定をしています。

はてなも本文抽出のライブラリを提供している*2のですが、どちらの方が精度が良いのでしょうか。日本語の文章だけを考えれば、はてなの方に分がありそうですが。

ちなみにこの分野、いっぱい論文があって困るのですが、

S Louvan, Extracting the main content from web documents, 2009

という修士論文(?)が内容細かめですが、アホな自分には合っている気がします。別にこの論文を特別に薦めている訳ではありませんのであしからず。この分野、少し考えれば思いつきそうなアイディアは、ほとんど出尽くしてしまった感があります。

*1:[http://code.google.com/p/arc90labs-readability/:title]

*2:[http://hatena.g.hatena.ne.jp/hatenabookmark/20091007/1254885271:title]