新聞記事における共起の事前調査

毎日新聞'95 経済面について,1995年1月1日の記事本文から以下の条件で語の共起を抽出した.

  • 段落をひとつの文章とみなす.
  • 取り出す形態素の品詞を名詞,形容詞,動詞とする.
  • ウィンドウ共起を用い,そのウィンドウサイズを 10とする.

抽出された共起ペアの数は 7,000個あまり.次に,以下の形態素を除去した.

  • 1文字からなる形態素
  • 「する」「なる」など単独で意味をなさないと判断される語

その結果,共起ペア数は 4,507個まで減少した.

しかし,共起ペアを観察する限り,意味があるのか怪しい.

今後の予定:

  • 文単位または文節単位(句読点で区切られた単位)を対象として共起ペアを抽出.
  • ペアでなく3つ組,4つ組での共起を取り出してみる(前提:文節の平均長を求めること)
  • 「成長率」が「成長」と「率」に分割されている可能性があるため,そういった語を辞書登録する.

単語が過剰に分割される件は,毎日新聞記事データに収められたキーワードを利用すればよいのかも.
目視で確認して気になったのは「○○比」「○○界(産業界など)」「○○化」「円高」「円安」「○○率」「○○費」「○○会」
また,上記で述べたように1文字からなる形態素を除去したが,「米」という語はどうだろうか?「こめ」と「アメリカ」の二重の意味がある.

(参考)Senによる形態素解析の結果は以下のとおり.

円高容認の声が高まる

円	(円)	名詞-一般(0,1,1)	エン	エン
高	(高)	名詞-接尾-一般(1,2,1)	ダカ	ダカ
容認	(容認)	名詞-サ変接続(2,4,2)	ヨウニン	ヨーニン
の	(の)	助詞-連体化(4,5,1)	ノ	ノ
声	(声)	名詞-一般(5,6,1)	コエ	コエ
が	(が)	助詞-格助詞-一般(6,7,1)	ガ	ガ
高まる	(高まる)	動詞-自立(7,10,3)	タカマル	タカマル