M.A.Hearst, Multi-Paragraph Segmentation of Expository Text - (主に)プログラミングのメモ

M.A.Hearst, Multi-Paragraph Segmentation of Expository Text, Proc. of the 32nd annual meeting on Assiciation for Computational Linguistics, Las Cruces, New Mexico, pp.9-16 (1994).

単語の反復(term repetition)が cohesion indicator となる．
discovering subtopic structure using term repetition as a lexical cohesion indicators.
２つのアルゴリズム：(1)ウィンドウサイズを与えて，隣接するテキスト・ブロック対において，それらが類似していれば，subtioic が続いており，そうでなければsubtopic flow に変化が生じたと考える．(2)Morris & Hirst's (1991)の拡張・・とあるが，よく分からん．
アルゴリズムの流れは 1.tokenization, 2.similarity determination, 3.boundary identification である．
tokenization では，予め設定された長さ w からなる擬似文(psuedosentence)を切り出す．実験の結果からは w=20 が適当と判断される．こうして切り出されたトークンの集合をトークン列(token-sequence)と呼ぶ．
連続する k個の token sequence を block と呼び，隣接するブロック（i-k〜i と i+1〜i+k+1番目の token sequence）間の類似度を求める．類似度は cosine measure を用い，ベクトルの要素は「あるブロック内に現れる各単語の出現頻度」である（論文の脚注には，かつては idf 情報も利用していたが，単純な term frequency の方がうまくいく，と書かれている）．これによって，２つのブロック内に共通する単語が多ければ，それらのブロックは類似していることになる．
token sequence gap を x 軸として類似度をプロットするが，その際にはウィンドウサイズを3としてスムージングを行う．
類似度の列の変化を見て，境界を決定する．具体的には，i 番目の token-sequence gap の左側を見ていき，スコアが増加する限り，左へ進む．その増加がピークに達した時点で，i 番目のスコアとピークにおけるスコアの差を記録する．同様の操作を i の右側についても行う．左側へ進んだ場合の相対差と右側に進んだ場合の相対差を加えた値を depth score と呼ぶ．depth score の値で token-sequence gap をソートし，depth score の最大値をもつ gaps（複数形？）を segment boundary とし，（必要ならば）実際の paragraph break との調整をはかって境界を決める．ただし，境界があまりにも近接しないように，２つの境界に挟まれる区間には少なくとも３個の token sequences が含まれるようにする．
境界を決定するにあたり，depth score に対して cutoff の値（閾値）を与えないとならない．この論文では「cutoff は depth score の平均と標準偏差の関数である」として，depth score が「平均 - 標準偏差 / 2」を超える場合に，その gap を境界とみなす．