(メモ)毎日新聞の記事から共起を抽出した結果

毎日新聞'95データの経済面のみに絞って,共起を抽出した.総共起数は 747,799個,(重複を除いた)種類数は 412,971個.

思ったほど多くない.

さて,これがメモリに載るか? ということで,次のプログラムを試すと,
java -Xmx1024m tmp ならば大丈夫(512m では足りない).

class tmp {
    static class Test {
	int updown;
	int[] data;
    }

    public static void main(String[] args){

	Test test[] = new Test[365];
	for(int i = 0; i < 365; i++){
	    test[i] = new Test();
	    test[i].data = new int[412971];
	}
    }
}

次に,各日について 412,971次元の特徴ベクトル(要素の値は出現頻度)を作ってファイルに書き出してみると,サイズが 255MB だった.新聞が発行されない日もあるから,実際の日数は 309日分である.

3月のみならば 48,653次元となり,ファイルサイズは 2.5MB である.