共起の定義

  1. 文共起:同じ文に含まれている語を共起語として抽出する.
  2. ウィンドウ共起:一定の語を収容するウィンドウをテキストに沿って移動させながら,ウィンドウ内に同時に含まれている語を共起語として抽出する.f:id:ymuto109:20091112205013p:image
  3. 語彙統合パターン:次の論文をチェック!田淵ら,大規模コーパスからの語義のマイニング,DBSJ Journal, Vol.8, No.1

文共起に関するコメント

  • 長い文に出現する語は他の語と共起しやすい
  • 短い文に出現する語は他の語と共起しにくい

よって,短い文にも関わらず共起している語は関係が強い.

中山,三浦,共起語を考慮に入れたEMアルゴリズムによるテキスト分類,DEWS2006 5A-i5 では文共起を用いており,ある語が1つの文中で複数回出現する場合を考慮して,語の対(w_i,w_j)の文 s における共起度を

A_s = |w_i|_s |w_j|_s

と定義する.ここで |x|_s は文 s における要素(語)x の出現回数としている.
また,語の対(w_i,w_j) の文書 d における共起度co(w_i,w_j) を

\sum_{s \in d} |w_i|s |w_j|s

と定義する.