2009-10-18から1日間の記事一覧

はてなブックマークで使用されたタグの分析

SBM

1044名のはてブ・ユーザについて,付与されているタグ文字列を IPA電子辞書と突き合わせた結果,71226個(厳密には種類数)のうち 60019個(84%)のタグ文字列が辞書に掲載されていなかった. もっとも形態素解析をしていないため,複合語や文になっている文…

重要段落の評価指標

各段落に含まれる単語の tf・idf値の合計・・・問題点:段落が長くなればそれに比例して大きくなる. 各段落に含まれる単語の tf・idf値の合計 / その段落に含まれる文の数・・・問題点:長い1文が含まれる場合,その段落の評価値が大きくなる. 各段落に含…

形態素解析システム sen における辞書への単語登録

以下は sen-1.2.2.1 を用いた場合の単語登録について述べている.バージョンによって build.xml の書式が異なるため,適時読み替えること.sen が利用する辞書は /usr/local/sen/dic/dic.csv である.このファイルの各行(レコード)は次のようになっている…

重要段落の抽出

ひとつの文書の中から重要と思われる段落を抽出する作業を学生に任せている.段落を文書をとみなして tf.idf値を出してもらうと,その値がゼロとなるケースが生じた.ひとつの文書はあるテーマにそって述べつつ完結するから,特定の単語が全ての段落に出現す…