論文チェック

池内ら,Webページの有用性に関する分析:特徴語の抽出と被リンク数の比較,情報処理学会研究報告,データベースシステム研究会報告, Vol.2003, No.51, pp.159-166 (2003).
CiNii 論文 - 

Webページの有用性に関する分析 : 特徴語の抽出と被リンク数の比較(Webマイニング)


  • 3名の被験者に 1,000ページの有意性判定をしてもらう(7段階評価).有用性判定の結果がある値以上のページ,またはサイト・トップへの被リンク数について有用と判断されたか否かを精度・再現率を用いて評価する(論文では 4.1以上の場合の結果が示されている).
  • 特徴語彙について:学習用ページ群を有用ページ群と不用ページ群に分割し,それぞれにおける語の出現頻度を求める.出現頻度の降順にソートし,500語を抽出する.さらい,有用・不用の両方に共通して含まれる語を除去し,「有用群に含まれる語」「不要群に含まれる語」を求める.テストページを与え,学習用ページ群との比較を行ない,類似度の正負によって有用 or 不用の判定を行なう.実験の結果,語の重みとして延べ出現頻度が正解率の意味で良いと結論づけられている(しかし,正規化出現頻度との差は僅かであり,有意差があるかは微妙).