Web辞書

重要段落の評価指標

各段落に含まれる単語の tf・idf値の合計・・・問題点:段落が長くなればそれに比例して大きくなる. 各段落に含まれる単語の tf・idf値の合計 / その段落に含まれる文の数・・・問題点:長い1文が含まれる場合,その段落の評価値が大きくなる. 各段落に含…

重要段落の抽出

ひとつの文書の中から重要と思われる段落を抽出する作業を学生に任せている.段落を文書をとみなして tf.idf値を出してもらうと,その値がゼロとなるケースが生じた.ひとつの文書はあるテーマにそって述べつつ完結するから,特定の単語が全ての段落に出現す…

テキスト分類に関する論文 (by Matsunaga)

Applying the Multiple Cause Mixture Model to Text Categorization. (filetype:ps)Support Vector Machine Active Learning with Applications to Text Categorization. (filetype:ps)Parametric Mixture Models for Multi-labeled Text. (filetype:ps)TF …

RSSについて。

RSSとは http://www.keyman.or.jp/search/keyword/30001624_1.html?vos=nkeyadwwa07061300001 毎日新聞 http://www.mainichi-msn.co.jp/etc/rss.html 朝日新聞 http://www.asahi.com/information/service/rss.html 日経BP http://www.nikkeibp.co.jp/news/to…

Unicode および UTF-8 に関する調査結果

古谷さんが調べてくれた. The Unicode Character Code Charts By Script http://www.unicode.org/charts/ UTF-8 http://homepage2.nifty.com/k_maeda/code/uni/utf.html UnicodeからUTF-8への変換規則 http://www.asahi-net.or.jp/~dp8t-asm/java/tips/UTF8…

最大エントロピー法 (maximum entorpy method)

機械学習アルゴリズムのひとつ。制約を満たす範囲で確率モデルのエントピーが最大になるようにモデルのパラメタを推定する。自然言語処理の分野でも多くの成功例が報告されている。