卒研(松永さん)の記録&宮川さん,思いつき

松永さんに以下を指示.

  • ping server から changes.xml を入手すること.
  • changes.xml の記法は一定だから,パースしなくても正規表現で処理すれば十分じゃないか.
  • 4/29 に試したところ,http://d.hatena.ne.jp/change.xml は以下の手順で取得可能.
telnet d.hatena.ne.jp 80
GET /changes.xml HTTP/1.0

しかし,ping.bloggers.jp では不可.
パケットを追跡しないと駄目かも.

  • changes.xml を解読して,ブログのトップページを入手すること.

(メモ:stream 処理でよいから,軽い expat を使えばよいのでは?)

(注)entry からの本文抽出は,武藤の仕事

宮川さんの研究について
blog 記事を読んで,positive, negative それぞれをラベル付け(各 50件).
これらを分析して,形態素の tf を求めてくれた.なお,不要語処理等の細かい部分は未確認.
tf が出せているから naive Bayes(SPAM フィルタリングで用いた手法)によって分類させてもよい.また,SVM との比較も試してみる価値あり.