2008-09-04から1日間の記事一覧
はてブユーザ間の類似度 - Life like a clownはてブユーザ間の類似度 - Life like a clown はてなダイアリーのユーザ別ブックマーク数をグラフ化
seed Web page → bookmarkers → bookmarked Web pages → bookmarkers ... というサイクルでブックマーカー(ユーザ)の所有しているブックマークを入手しようとしたが,木構造が急激に大きくなること,また「はてな」からのレスポンスの遅さもあり,うまくい…
音声の入出力を行い,WAV 形式で保存・再生するプログラムが完成したようだ。ただし,動作チェックはなされていない。これが完成したら,次は「WAV データから pitch と duration を抽出するアルゴリズム」を理解し,クライアント(windows)側で実装すること…
上述の「木が急激に大きくなって手に負えなくなる」問題を考慮して,方針転換する。検索者が任意に検索したページを seed として,それと類似したページをブックマークしているユーザ(bookmarker)を探し,そのユーザを推薦するシステムを考えることにする。
文章中の語(名詞)の頻度を数えるプログラムが完成。次は,頻出語がその文書のテーマを表現していると言えるかを検証する。
Cabocha の API を用いて,係り受け関係を取得できることが分かった。また,Cabocha が構造体として定義しているため,あとはゴリゴリとプログラムを書けばよい。
キーワードとして「Ajax」「小泉純一郎」「蒼井優」を Google に与えて得られた検索結果と,それぞれのページに対するブックマーク数の関係を調べた。調査の結果,以下の結果が得られた。 検索上位にありながらブックマーク数が少ないページは,情報量が少な…