文書間の分離度

保良さんからいただいた2つの文書集合(5文書/クラス)について,それらの分離度を測定した.これらの文書集合は,互いの性質(=記述内容)が異なっているはず・・・と目論んで,ネットから収集したものである.

  1. 各文書について正規化tf値を求める.ただし,対象とする単語の品詞は名詞に限る.
  2. 全文書に含まれる単語の種類数を求めると,2038個.
  3. 各文書について,2038次元特徴ベクトルを作り,該当する単語の次元に(前述の)正規化tf値をセットする.もちろん,該当する単語が文書に含まれない場合,その次元の値は 0 である.
  4. クラス間分散(between-class scatter)Sbとクラス内分散(within-class scatter)Sw の比を求める.ここで,比として J=tr(Sb) / tr(Sw)を用いた.

結果は J=0.26 であったから,かなり集合(クラス)間の重なりが大きい.
文書から抽出する単語(名詞)に何ら制限を加えていないため,共通する単語がそれぞれの集合に含まれるのは自然であるし,分離度が小さいのは仕方ない.
これを逆手にとって,クラス間分散・クラス内分散比を最大にする単語の選択問題を解いてもよいだろう.あるいは LSA を用いて適当な空間へ写像して,比を求めるか.

(メモ)本来は J=tr(Sw^{-1} Sb)を求めたかったが,逆行列のプログラムがうまくいかず(とりあえず)断念した.