2008-04-08

PythonでLatent semantic analysis

Latent Semantic Analysis in Python

興味深い。

【要点】
* TFIDFをベクトルの成分とする。
* scipy のsvdルーチンを使う。(次元が100万とかになっても大丈夫なんだろうか?Lanczos法のような手法を内部で使っているか?)

Blogの記事のような、極端に短い内容の記事も大量にあるような文書集合だと、こういった手法でぼかした検索ができるといいのかもしれません。

でもこういうのは実運用の場合はC++で書くべきと思うよ。