不要語リストの作成準備
毎日新聞記事データ(1面の記事のみ)を Sen にかけて単語(名詞のみ)の頻度を調べた.1文字からなる形態素は別として,2文字以上の形態素のうち不要語になりそうなものを挙げる.フォーマットは「形態素:頻度」である.なお,途中で力尽きたため,全てを調べきれていない.
こと:7539 ため:3245 よう:2023 さん:1898 これ:1786 もの:1476 うち:942 ほか:750 そう:735 たち:589 カ月:557 それ:551 うえ:505 ところ:477 ぶり:468 まま:297 づくり:176 わけ:165 とき:153 すぎ:153 ちゃん:151 ごと:151 もと:133 はず:132 あと:130 つもり:69 なか:65 あて:63 ほう:57 ちょう:53 さま:46 せい:44 どれ:42 あたり:27 のど:25 とも:25 わき:22 がかり:20 から:19 きん:18 がち:18 のみ:16 どころ:16 だらけ:16 あれ:16 ろう:15 ども:15
どうでもよいが,1995年の新聞記事ゆえ「サティアン」とか出てきて懐かしかったです.