Latent Semantic Analysis in Python
興味深い。
【要点】
* TFIDFをベクトルの成分とする。
* scipy のsvdルーチンを使う。(次元が100万とかになっても大丈夫なんだろうか?Lanczos法のような手法を内部で使っているか?)
Blogの記事のような、極端に短い内容の記事も大量にあるような文書集合だと、こういった手法でぼかした検索ができるといいのかもしれません。
でもこういうのは実運用の場合はC++で書くべきと思うよ。
PythonやC++のメモ
Latent Semantic Analysis in Python
興味深い。
【要点】
* TFIDFをベクトルの成分とする。
* scipy のsvdルーチンを使う。(次元が100万とかになっても大丈夫なんだろうか?Lanczos法のような手法を内部で使っているか?)
Blogの記事のような、極端に短い内容の記事も大量にあるような文書集合だと、こういった手法でぼかした検索ができるといいのかもしれません。
でもこういうのは実運用の場合はC++で書くべきと思うよ。