(メモ)共起ペア数を削減しないと・・・

毎日新聞データ(経済面)の1月分の記事本文からウィンドウ共起(windows size = 2)をとると,約 44,000個のペアが得られた.
事前に行った処理は以下のとおり:
・多少の辞書登録
・品詞の絞り込みルール:

if((品詞 == 名詞 && !(細分類 == 数 || 細分類 == 非自立 || 細分類 == 接尾))
	   || (品詞 == 動詞 && !(細分類 == 接尾 || 細分類 == 非自立))
	   || 品詞 == 形容詞"){
  return true;
} else {
  return false;
}

あまりにもデータが多いため,以下の手順でペア数を減らしたい.

  • 他の紙面から得た共起データと jaccard をとって,値の大きいペアを削除.
  • 株価の上がり下がりに影響しそうなペアを AIC 等を使って絞り込む・・・個別の企業毎にデータを作らないと無理だと思う.
  • 連続して出現する名詞群は複合名詞として自動的にくっつけてもよいかも.