2008-09-01から1ヶ月間の記事一覧

浜田君

何,していたのかな? 毎日新聞'95の CD-ROM が到着。京都コーパスの Web ページに,CD 内のデータを読み出すツールが公開されているとのこと。

岩本さん

WAVファイルを操作するサンプルプログラム(VBのクラス)を渡した。MMIO系の関数の使い方の理解を試みたようだ。

岡崎さん

複数の文書を解析して,頻出語を抽出。次の課題は,得られた頻出語が文書の主題を表現できているか,主観的に判定すること。

谷村さん

アクティブなブックマーク・ユーザ(e.g.最近の1週間以内にブックマークしたユーザ)を見つける機構が完成。次は,Web 文書の類似性を求めるのが仕事。類似性については,形態素解析の結果として得られる形態素のうち,語の出現頻度を特徴ベクトルとするベ…

昼食

岡崎さんがアルバイトしているカレー屋さんの辛口カレー。これは美味しい。

谷村さん

アクティブな「はてな」ブックマークユーザを見つけるため,ブックマークの timestamp と現在の時刻を比較する関数を作成。

岡崎さん

何を進めたのだろうか? とりあえず指示したのは,文書中の形態素の頻度がその文書の内容(テーマ)を表現できているか,主観的に評価すること。

岩本さん

MMIOのプログラムを書いて,WAVデータからヘッダ部を抜き出す必要がある。しかし,武藤も作ってみようと思うが,VB用のサンプルプログラムが見つからず,苦労している。 昔のVBでのサンプルっぽい・・・VB2005とは内部ビット数が異なっている(VB6での Long …

類似の発想

はてブユーザ間の類似度 - Life like a clownはてブユーザ間の類似度 - Life like a clown はてなダイアリーのユーザ別ブックマーク数をグラフ化

はてなブックマークからの情報収集は難しい

seed Web page → bookmarkers → bookmarked Web pages → bookmarkers ... というサイクルでブックマーカー(ユーザ)の所有しているブックマークを入手しようとしたが,木構造が急激に大きくなること,また「はてな」からのレスポンスの遅さもあり,うまくい…

岩本さん

音声の入出力を行い,WAV 形式で保存・再生するプログラムが完成したようだ。ただし,動作チェックはなされていない。これが完成したら,次は「WAV データから pitch と duration を抽出するアルゴリズム」を理解し,クライアント(windows)側で実装すること…

谷村さん

上述の「木が急激に大きくなって手に負えなくなる」問題を考慮して,方針転換する。検索者が任意に検索したページを seed として,それと類似したページをブックマークしているユーザ(bookmarker)を探し,そのユーザを推薦するシステムを考えることにする。

岡崎さん

文章中の語(名詞)の頻度を数えるプログラムが完成。次は,頻出語がその文書のテーマを表現していると言えるかを検証する。

浜田君

Cabocha の API を用いて,係り受け関係を取得できることが分かった。また,Cabocha が構造体として定義しているため,あとはゴリゴリとプログラムを書けばよい。

Google による検索結果と「はてな」のブックマーク数との関係

キーワードとして「Ajax」「小泉純一郎」「蒼井優」を Google に与えて得られた検索結果と,それぞれのページに対するブックマーク数の関係を調べた。調査の結果,以下の結果が得られた。 検索上位にありながらブックマーク数が少ないページは,情報量が少な…

岡崎さん

文章を形態素に分割して,ハッシュ表へ格納するプログラムを完成.次は,形態素の出現頻度をソートして,主題となるキーワード(形態素)を抽出できるかを調査する.

谷村さん

ブックマーカー(はてなブックマークのユーザ)と彼がブックマークしている URL 一覧を再帰的に取得するプログラムを作成.(武藤も同様のものを作ってみた.)しかし,メモリ的にいけるのか,不安. メモリの心配に対しては,seed Web URL を変えながら,浅…

ソーシャルブックマークの分析

http://www.gnuplot.info/ をシードとした場合, このページをブックマークしているユーザ数は 20名. これらのユーザがブックマークしている Web ページ数は最少 30件,最大 2940件,合計 16063件(平均 803件). ひとつのシードから派生した Web ページが…

岡崎・谷村さんに共通する,研究に関するメモ

ブックマークされた Web ページの特性を調べる上で,(ページの内容に踏み込むのが正当だが)そのページの title タグを参照するのも簡易でよいのではないか? なお,「タイトル」は Web ページにアクセスしなくても,はてなの RSS フィード中から //item/ti…

谷村さんの研究に関するメモ

ブックマーク数が多いユーザを拾ってくる必要がある.(ブックマーク数が少ない場合,そのユーザを特徴づけるデータが不足気味になるため) 予めブックマーク数を取得して,その数がある閾値を越えるユーザのみブックマーク情報(URL)を入手るする方が得策で…

その他

毎日新聞CD-ROM '95 を発注.amazon.co.jp に掲載されていなかっため,早く入手できるか,不明.

岡崎さんの今後に関するメモ

「Web文書からの重要語の抽出;主題の抽出;文書分類」を主テーマとする. 分類の際のカテゴリとして,Yahoo! Japan カテゴリ(http://dir.yahoo.co.jp/)を用いるか? ただし,カテゴリ数が多いため,何らかのテーマに絞らないと手に負えない.

谷村さん

単一の Web ページに対するブックマーカー(ユーザ)一覧を取得するプログラムを完成した. 次は,各ユーザ毎のブックマークの RSS フィードからブックマーク先を取得すること,および以上を再帰的に実現することが求められる.

岡崎さん

Webページの分類を行なうことを目標として,文書からテーマ(主題)を抽出することを試みる.具体的には「頻出語を主題とする」「H1 タグや meta タグを利用する」が考えられる. とりあえず,文書内での語の頻度を求めるため,divide_writing.c と chasen …