卒研(松永さん)の記録&宮川さん,思いつき
松永さんに以下を指示.
- ping server から changes.xml を入手すること.
- changes.xml の記法は一定だから,パースしなくても正規表現で処理すれば十分じゃないか.
- 4/29 に試したところ,http://d.hatena.ne.jp/change.xml は以下の手順で取得可能.
telnet d.hatena.ne.jp 80 GET /changes.xml HTTP/1.0
しかし,ping.bloggers.jp では不可.
パケットを追跡しないと駄目かも.
- changes.xml を解読して,ブログのトップページを入手すること.
(メモ:stream 処理でよいから,軽い expat を使えばよいのでは?)
- RSSフィードを見て,当該の blog entry を入手すること
(注)entry からの本文抽出は,武藤の仕事
宮川さんの研究について
blog 記事を読んで,positive, negative それぞれをラベル付け(各 50件).
これらを分析して,形態素の tf を求めてくれた.なお,不要語処理等の細かい部分は未確認.
tf が出せているから naive Bayes(SPAM フィルタリングで用いた手法)によって分類させてもよい.また,SVM との比較も試してみる価値あり.