けっこう前からのんびり作っていた自動要約モジュールをCodereposにimportしました。
http://coderepos.org/share/browser/lang/python/yoyaku
この自動要約モジュールはまだあまり精度はよくないです。
が、どのぐらい良くないかを知るには、以下のサイトでいちおうサービスとして設置していますので、お試しいただけます。
自動要約サービス Civory
今の所は単純なMMRアルゴリズムで文を抜粋するだけのものですので、まあ、あまり、、、。
今取り組んでいるのは、英文の自動要約の際に、文をまずトピックごとに分割して、その上で要約をかけようとしています。
トピックに分けるアルゴリズムは以下の論文を参考にしています。
Advances in domain independent linear text segmentation
いちおうこれの実装はひとまず終わっていて、それに対応するソースは以下になります。
TopicSegmentationEN.py
今後これにバグがないか注意しながらいろんな例で実験を重ねていく予定です。