2008-09-02から1日間の記事一覧

岡崎・谷村さんに共通する,研究に関するメモ

ブックマークされた Web ページの特性を調べる上で,(ページの内容に踏み込むのが正当だが)そのページの title タグを参照するのも簡易でよいのではないか? なお,「タイトル」は Web ページにアクセスしなくても,はてなの RSS フィード中から //item/ti…

谷村さんの研究に関するメモ

ブックマーク数が多いユーザを拾ってくる必要がある.(ブックマーク数が少ない場合,そのユーザを特徴づけるデータが不足気味になるため) 予めブックマーク数を取得して,その数がある閾値を越えるユーザのみブックマーク情報(URL)を入手るする方が得策で…

その他

毎日新聞CD-ROM '95 を発注.amazon.co.jp に掲載されていなかっため,早く入手できるか,不明.

岡崎さんの今後に関するメモ

「Web文書からの重要語の抽出;主題の抽出;文書分類」を主テーマとする. 分類の際のカテゴリとして,Yahoo! Japan カテゴリ(http://dir.yahoo.co.jp/)を用いるか? ただし,カテゴリ数が多いため,何らかのテーマに絞らないと手に負えない.

谷村さん

単一の Web ページに対するブックマーカー(ユーザ)一覧を取得するプログラムを完成した. 次は,各ユーザ毎のブックマークの RSS フィードからブックマーク先を取得すること,および以上を再帰的に実現することが求められる.

岡崎さん

Webページの分類を行なうことを目標として,文書からテーマ(主題)を抽出することを試みる.具体的には「頻出語を主題とする」「H1 タグや meta タグを利用する」が考えられる. とりあえず,文書内での語の頻度を求めるため,divide_writing.c と chasen …