不要語リストの作成準備

毎日新聞記事データ(1面の記事のみ)を Sen にかけて単語(名詞のみ)の頻度を調べた.1文字からなる形態素は別として,2文字以上の形態素のうち不要語になりそうなものを挙げる.フォーマットは「形態素:頻度」である.なお,途中で力尽きたため,全てを調べきれていない.

こと:7539
ため:3245
よう:2023
さん:1898
これ:1786
もの:1476
うち:942
ほか:750
そう:735
たち:589
カ月:557
それ:551
うえ:505
ところ:477
ぶり:468
まま:297
づくり:176
わけ:165
とき:153
すぎ:153
ちゃん:151
ごと:151
もと:133
はず:132
あと:130
つもり:69
なか:65
あて:63
ほう:57
ちょう:53
さま:46
せい:44
どれ:42
あたり:27
のど:25
とも:25
わき:22
がかり:20
から:19
きん:18
がち:18
のみ:16
どころ:16
だらけ:16
あれ:16
ろう:15
ども:15

どうでもよいが,1995年の新聞記事ゆえ「サティアン」とか出てきて懐かしかったです.