新聞記事における共起の事前調査
毎日新聞'95 経済面について,1995年1月1日の記事本文から以下の条件で語の共起を抽出した.
- 段落をひとつの文章とみなす.
- 取り出す形態素の品詞を名詞,形容詞,動詞とする.
- ウィンドウ共起を用い,そのウィンドウサイズを 10とする.
抽出された共起ペアの数は 7,000個あまり.次に,以下の形態素を除去した.
- 1文字からなる形態素
- 「する」「なる」など単独で意味をなさないと判断される語
その結果,共起ペア数は 4,507個まで減少した.
しかし,共起ペアを観察する限り,意味があるのか怪しい.
今後の予定:
- 文単位または文節単位(句読点で区切られた単位)を対象として共起ペアを抽出.
- ペアでなく3つ組,4つ組での共起を取り出してみる(前提:文節の平均長を求めること)
- 「成長率」が「成長」と「率」に分割されている可能性があるため,そういった語を辞書登録する.
単語が過剰に分割される件は,毎日新聞記事データに収められたキーワードを利用すればよいのかも.
目視で確認して気になったのは「○○比」「○○界(産業界など)」「○○化」「円高」「円安」「○○率」「○○費」「○○会」
また,上記で述べたように1文字からなる形態素を除去したが,「米」という語はどうだろうか?「こめ」と「アメリカ」の二重の意味がある.
(参考)Senによる形態素解析の結果は以下のとおり.
円高容認の声が高まる 円 (円) 名詞-一般(0,1,1) エン エン 高 (高) 名詞-接尾-一般(1,2,1) ダカ ダカ 容認 (容認) 名詞-サ変接続(2,4,2) ヨウニン ヨーニン の (の) 助詞-連体化(4,5,1) ノ ノ 声 (声) 名詞-一般(5,6,1) コエ コエ が (が) 助詞-格助詞-一般(6,7,1) ガ ガ 高まる (高まる) 動詞-自立(7,10,3) タカマル タカマル