谷村さん

文書から頻出語を抽出し,上位の何%があれば元の文書の内容を表現していると言えるか,を主観的に評価した.不要語の定義や「全角1文字(2バイト)のみからなる形態素が必要か」という問題が残っている.