(主に)プログラミングのメモ

2008-09-01から1ヶ月間の記事一覧

浜田君

何，していたのかな？毎日新聞'95の CD-ROM が到着。京都コーパスの Web ページに，CD 内のデータを読み出すツールが公開されているとのこと。

岩本さん

WAVファイルを操作するサンプルプログラム（VBのクラス）を渡した。MMIO系の関数の使い方の理解を試みたようだ。

岡崎さん

複数の文書を解析して，頻出語を抽出。次の課題は，得られた頻出語が文書の主題を表現できているか，主観的に判定すること。

谷村さん

アクティブなブックマーク・ユーザ（e.g.最近の１週間以内にブックマークしたユーザ）を見つける機構が完成。次は，Web 文書の類似性を求めるのが仕事。類似性については，形態素解析の結果として得られる形態素のうち，語の出現頻度を特徴ベクトルとするベ…

昼食

岡崎さんがアルバイトしているカレー屋さんの辛口カレー。これは美味しい。

谷村さん

アクティブな「はてな」ブックマークユーザを見つけるため，ブックマークの timestamp と現在の時刻を比較する関数を作成。

岡崎さん

何を進めたのだろうか？とりあえず指示したのは，文書中の形態素の頻度がその文書の内容（テーマ）を表現できているか，主観的に評価すること。

岩本さん

MMIOのプログラムを書いて，WAVデータからヘッダ部を抜き出す必要がある。しかし，武藤も作ってみようと思うが，VB用のサンプルプログラムが見つからず，苦労している。昔のVBでのサンプルっぽい・・・VB2005とは内部ビット数が異なっている（VB6での Long …

類似の発想

はてブユーザ間の類似度 - Life like a clownはてブユーザ間の類似度 - Life like a clown はてなダイアリーのユーザ別ブックマーク数をグラフ化

はてなブックマークからの情報収集は難しい

seed Web page → bookmarkers → bookmarked Web pages → bookmarkers ... というサイクルでブックマーカー（ユーザ）の所有しているブックマークを入手しようとしたが，木構造が急激に大きくなること，また「はてな」からのレスポンスの遅さもあり，うまくい…

岩本さん

音声の入出力を行い，WAV 形式で保存・再生するプログラムが完成したようだ。ただし，動作チェックはなされていない。これが完成したら，次は「WAV データから pitch と duration を抽出するアルゴリズム」を理解し，クライアント(windows)側で実装すること…

谷村さん

上述の「木が急激に大きくなって手に負えなくなる」問題を考慮して，方針転換する。検索者が任意に検索したページを seed として，それと類似したページをブックマークしているユーザ(bookmarker)を探し，そのユーザを推薦するシステムを考えることにする。

岡崎さん

文章中の語（名詞）の頻度を数えるプログラムが完成。次は，頻出語がその文書のテーマを表現していると言えるかを検証する。

浜田君

Cabocha の API を用いて，係り受け関係を取得できることが分かった。また，Cabocha が構造体として定義しているため，あとはゴリゴリとプログラムを書けばよい。

Google による検索結果と「はてな」のブックマーク数との関係

キーワードとして「Ajax」「小泉純一郎」「蒼井優」を Google に与えて得られた検索結果と，それぞれのページに対するブックマーク数の関係を調べた。調査の結果，以下の結果が得られた。検索上位にありながらブックマーク数が少ないページは，情報量が少な…

岡崎さん

文章を形態素に分割して，ハッシュ表へ格納するプログラムを完成．次は，形態素の出現頻度をソートして，主題となるキーワード（形態素）を抽出できるかを調査する．

谷村さん

ブックマーカー（はてなブックマークのユーザ）と彼がブックマークしている URL 一覧を再帰的に取得するプログラムを作成．（武藤も同様のものを作ってみた．）しかし，メモリ的にいけるのか，不安．メモリの心配に対しては，seed Web URL を変えながら，浅…

ソーシャルブックマークの分析

http://www.gnuplot.info/ をシードとした場合，このページをブックマークしているユーザ数は 20名．これらのユーザがブックマークしている Web ページ数は最少 30件，最大 2940件，合計 16063件（平均 803件）．ひとつのシードから派生した Web ページが…

岡崎・谷村さんに共通する，研究に関するメモ

ブックマークされた Web ページの特性を調べる上で，（ページの内容に踏み込むのが正当だが）そのページの title タグを参照するのも簡易でよいのではないか？なお，「タイトル」は Web ページにアクセスしなくても，はてなの RSS フィード中から //item/ti…

谷村さんの研究に関するメモ

ブックマーク数が多いユーザを拾ってくる必要がある．（ブックマーク数が少ない場合，そのユーザを特徴づけるデータが不足気味になるため）予めブックマーク数を取得して，その数がある閾値を越えるユーザのみブックマーク情報(URL)を入手るする方が得策で…

その他

毎日新聞CD-ROM '95 を発注．amazon.co.jp に掲載されていなかっため，早く入手できるか，不明．

岡崎さんの今後に関するメモ

「Web文書からの重要語の抽出；主題の抽出；文書分類」を主テーマとする．分類の際のカテゴリとして，Yahoo! Japan カテゴリ(http://dir.yahoo.co.jp/)を用いるか？ただし，カテゴリ数が多いため，何らかのテーマに絞らないと手に負えない．

谷村さん

単一の Web ページに対するブックマーカー(ユーザ）一覧を取得するプログラムを完成した．次は，各ユーザ毎のブックマークの RSS フィードからブックマーク先を取得すること，および以上を再帰的に実現することが求められる．

岡崎さん

Webページの分類を行なうことを目標として，文書からテーマ（主題）を抽出することを試みる．具体的には「頻出語を主題とする」「H1 タグや meta タグを利用する」が考えられる．とりあえず，文書内での語の頻度を求めるため，divide_writing.c と chasen …