(メモ)毎日新聞の記事から共起を抽出した結果
毎日新聞'95データの経済面のみに絞って,共起を抽出した.総共起数は 747,799個,(重複を除いた)種類数は 412,971個.
思ったほど多くない.
さて,これがメモリに載るか? ということで,次のプログラムを試すと,
java -Xmx1024m tmp ならば大丈夫(512m では足りない).
class tmp { static class Test { int updown; int[] data; } public static void main(String[] args){ Test test[] = new Test[365]; for(int i = 0; i < 365; i++){ test[i] = new Test(); test[i].data = new int[412971]; } } }
次に,各日について 412,971次元の特徴ベクトル(要素の値は出現頻度)を作ってファイルに書き出してみると,サイズが 255MB だった.新聞が発行されない日もあるから,実際の日数は 309日分である.
3月のみならば 48,653次元となり,ファイルサイズは 2.5MB である.