2008-01-01から1年間の記事一覧

岡崎さん

文章中の語(名詞)の頻度を数えるプログラムが完成。次は,頻出語がその文書のテーマを表現していると言えるかを検証する。

浜田君

Cabocha の API を用いて,係り受け関係を取得できることが分かった。また,Cabocha が構造体として定義しているため,あとはゴリゴリとプログラムを書けばよい。

Google による検索結果と「はてな」のブックマーク数との関係

キーワードとして「Ajax」「小泉純一郎」「蒼井優」を Google に与えて得られた検索結果と,それぞれのページに対するブックマーク数の関係を調べた。調査の結果,以下の結果が得られた。 検索上位にありながらブックマーク数が少ないページは,情報量が少な…

岡崎さん

文章を形態素に分割して,ハッシュ表へ格納するプログラムを完成.次は,形態素の出現頻度をソートして,主題となるキーワード(形態素)を抽出できるかを調査する.

谷村さん

ブックマーカー(はてなブックマークのユーザ)と彼がブックマークしている URL 一覧を再帰的に取得するプログラムを作成.(武藤も同様のものを作ってみた.)しかし,メモリ的にいけるのか,不安. メモリの心配に対しては,seed Web URL を変えながら,浅…

ソーシャルブックマークの分析

http://www.gnuplot.info/ をシードとした場合, このページをブックマークしているユーザ数は 20名. これらのユーザがブックマークしている Web ページ数は最少 30件,最大 2940件,合計 16063件(平均 803件). ひとつのシードから派生した Web ページが…

岡崎・谷村さんに共通する,研究に関するメモ

ブックマークされた Web ページの特性を調べる上で,(ページの内容に踏み込むのが正当だが)そのページの title タグを参照するのも簡易でよいのではないか? なお,「タイトル」は Web ページにアクセスしなくても,はてなの RSS フィード中から //item/ti…

谷村さんの研究に関するメモ

ブックマーク数が多いユーザを拾ってくる必要がある.(ブックマーク数が少ない場合,そのユーザを特徴づけるデータが不足気味になるため) 予めブックマーク数を取得して,その数がある閾値を越えるユーザのみブックマーク情報(URL)を入手るする方が得策で…

その他

毎日新聞CD-ROM '95 を発注.amazon.co.jp に掲載されていなかっため,早く入手できるか,不明.

岡崎さんの今後に関するメモ

「Web文書からの重要語の抽出;主題の抽出;文書分類」を主テーマとする. 分類の際のカテゴリとして,Yahoo! Japan カテゴリ(http://dir.yahoo.co.jp/)を用いるか? ただし,カテゴリ数が多いため,何らかのテーマに絞らないと手に負えない.

谷村さん

単一の Web ページに対するブックマーカー(ユーザ)一覧を取得するプログラムを完成した. 次は,各ユーザ毎のブックマークの RSS フィードからブックマーク先を取得すること,および以上を再帰的に実現することが求められる.

岡崎さん

Webページの分類を行なうことを目標として,文書からテーマ(主題)を抽出することを試みる.具体的には「頻出語を主題とする」「H1 タグや meta タグを利用する」が考えられる. とりあえず,文書内での語の頻度を求めるため,divide_writing.c と chasen …

浜田君

照応解析はルールベースと統計的手法に大別される。 ルールベースについては 村田,長尾,用例や表層表現を用いた日本語文章中の指示詞・代名詞・ゼロ代名詞の指示対象の推定,自然言語処理(1995) が提案されている。この中では,構文解析・格解析を行って,…

浜田君

照応解析の手法について,軽い議論.統計的手法を用いる場合,照応関係を分析したコーパス(学習)が必要となる.京都テキストコーパスを見つけてきたので,その機能を調べてもらう.なお,このコーパスの利用には「毎日新聞1995 CD-ROM」が必要となる.価格…

岩本さん

waveIF コントロールを見つけてきたので,それを VB に取り込んだ. ページがみつかりません -404 Not Found - | OCN

谷村さん

はてなブックマークから bookmarker の集合を取得するよう,要請.

Root集合のページがリンクしているページを見つける.

libxml2 を用いて,Root集合内のページに関して A タグを探す. そこまでしなくても,バイト列を調べて

Root集合のページがリンクされているページを収集する.

上記の Google SOAP Search API において "link:www.ube-k.ac.jp/weather/" のように "link" を 付与すればよい.

あるキーワードを含む Web ページを見つける.

Google SOAP Search API を用いる.ただし,このサービスは 2006年12月5日付けで API key の新規発行を停止している.Google は「アプリケーションによるが,AJAX Search API を使って欲しい」と主張しているが,Web 上で展開したい訳ではない. SOAP Search…

本日の Credibility ゼミは,岡崎さんの担当.belief merging と trust merging について皆で共通認識をもつ.また,これらの計算方法を理解できたので,プログラムとして実装するのが岡崎さんの課題.以下はメモ. belief とは,ユーザがあるコンテンツ(sta…

谷村さんの課題

P.Mmika の提唱する3部グラフとして URI(instance) - tag(concept) - user(actor) を想定して,S.Wasserman et al., Social Netowork Analysis: Methods and Applications と同等の分析を行ってみる.つまり,ユーザの類似度 BB' やコンセプトの類似度 B'B …

13:30 から Web credibility に関して、松永さんと打ち合わせ。情報処理学会 学会誌 Vol.47, No.11 (2006)に掲載された「Web2.0の現在と展望」に含まれる「5. Web2.0時代の個人とコラボレーション」という記事において、ソーシャルブックマークに関して以下…

<!-- google_ad_section_start(name=s2) -->カレンダどおり<!-- google_ad_section_end(name=s2) -->

今年も例年どおりカレンダどおりの休日である.世の中は GW だ!海外だ!と浮かれているようだが,悔しくない(負け惜しみ). 職業柄,仕方がないね.それにしても,こんな時間まで職場にいる自分って・・・・

<!-- google_ad_section_start(name=s2) -->会館時間の不思議<!-- google_ad_section_end(name=s2) -->

先日,出張で霞ヶ関に出かける用事があり,時間調整のためブラブラしていたら,「文部科学省 情報ひろば」にてゲノム関係の展示がなされていたので見てきました.理化学研究所が主催(?)していたから,その内容は立派なもの(もっとも専門でないから,細か…

<!-- google_ad_section_start(name=s2) -->味がある<!-- google_ad_section_end(name=s2) -->

先日の大阪出張にて,日本銀行大阪本店あたりで見つけた灰皿.煙草のポイ捨て防止の策だが,置かれた缶に味がある.

<!-- google_ad_section_start(name=s2) -->おとなしい積雪<!-- google_ad_section_end(name=s2) -->

この冬,初めての積雪. 日本海側に比べれば,軽い,軽い.

<!-- google_ad_section_start(name=s2) -->大阪府知事選<!-- google_ad_section_end(name=s2) -->

ネット環境のない出張先なので,明日,アップすることを前提に書いておく.大阪府知事選では橋下氏が当選したんだね.ちょうど今,フジテレビ系列のプレミアAで報道している.大阪府の財政の杜撰さは既に指摘されているし,それを改善するのが期待されている…

<!-- google_ad_section_start(name=s2) -->精神科医<!-- google_ad_section_end(name=s2) -->

精神科に通う若年層が増えているという話題. 10代、増える精神科通院 (Yahoo! Japan ニュース) 精神科に対するイメージは以前よりもずっと良くなったし,欝をはじめとする精神的な疾患に対する認知が広がってきた効用ともいえます. 10代の患者が増える…

<!-- google_ad_section_start(name=s2) -->NTT DoCoMo によるPHSサービス終了<!-- google_ad_section_end(name=s2) -->

ニュースを眺めていて,久々に切なくなった. ドコモのPHSサービス、7日で終了(Yahoo! Japan ニュース) 初めて使ったモバイル機器が PHS だったのを思い出す.携帯電話も出始めていたのだが,当時の通話料の高さにビビッて PHS にしたんだよね.そして,千葉…