重要段落の抽出

ひとつの文書の中から重要と思われる段落を抽出する作業を学生に任せている.段落を文書をとみなして tf.idf値を出してもらうと,その値がゼロとなるケースが生じた.ひとつの文書はあるテーマにそって述べつつ完結するから,特定の単語が全ての段落に出現するケースは不思議でない.そこで,とりあえずの対策として tf・idf = tf・log(|D|/df) でなく,tf・idf = tf・log(|D|/df + 1) を用いることにした.