2007-07-01から1ヶ月間の記事一覧

思いつき

ブログ分析における「注目する語」と共起する語を拾う.「注目する語」を含む文,その近傍の文(どこまでが近傍?)において共起する語を抽出して classification に利用する.品詞の選択については別途,考える.

読むべき論文

鈴木,高村,奥村,Semi-Supervisedな学習手法による評価表現分類 http://www.lr.pi.titech.ac.jp/~yasu/nlp2005_suzuki.pdf positive / negative 判定のための学習データとして,ブログ記事から文を切り出し(更に一定のルールに従って絞り込み)人手によっ…

論文

Semantic Web : 機械によるWeb コンテンツの解釈と自動処理のための 知識処理アーキテクチャ ユニシス技報, Vol.24 No.1 通巻81号 (2004, 5) http://www.unisys.co.jp/tec_info/tr81/81abs.htm#8108

RDF

以下の本を図書館経由で注文した.神崎 正英, RDF/OWL入門, 森北出版 (2004) http://www.kanzaki.com/book/rdf/

ブログ分析および Web 本文抽出におけるcharacter entity への対応(案)

全て削除する 絵文字の意図を解釈し,例えば「下向き矢印」は "down" や "落ち込み" 等の語に変換する.ただし,日本語への置き換えは予め HTML document の文字コードが判明していることが前提である.

どうでもよいことだが・・

character entity を探してくれる HTML Entity Character Lookup というソフトがあるらしい. 入力された文字をいい感じに実体参照に変換してくれる便利ツール『HTML Entity Character Lookup』 | POP*POP

携帯電話の拡張

NTT DoCoMo の iモード [1] NTT DoCoMo の Web の資料に拠ると 0xF89F〜0xF9B0 に飛び飛びで絵文字が定義されている。 [2] Windoze 用などの font によるとこれ以外にも 0xF787 以降や、 飛び飛びになっている (http://suika.fam.cx/~wakaba/-temp/wiki/wik…

character entity in HTML について

概要を理解するためには HTML Entities が良さそう.この中身を抜き出したのが以下.Entity Name と共に Entity Number が定義されている. Result Description Entity Name Entity Number non-breaking space     & ampersand & & " quot…

keywordタグ

本文に keyword タグを組み込んでいるため,パーザーが invalid tag という warning を吐き出す.これを抑制する手はないのか? メッセージそのものを抑制する API は存在しないか? keyword タグを正当なタグとして登録できないか?

Webページからの本文抽出(思いつきレベル)

Webページには,索引や広告など余分な(?)情報が付与されている.これらを除去して本文のみを抽出する. 利用可能な手がかりはキーワード文字列のみである. 簡単に思いつくのは,キーワード文字列から前後に辿り,h1 や hr などパラグラフの切れ目と思わ…

iconv()がコケルのはどんなパターンか?

関数 iconv() を使っていると、たまに失敗する場合がある。 以下はこれまでの経験(メモ)である。 sjis で書かれた,丸付き数字:「丸3」は 16進で 0x87, 0x42 euc で書かれた、丸付き数字:例えば「丸1」を emacs 上に copy & paste すると、\u2460 と表…

libghttp

libghttp のプログラムでコンテンツをとれない Web ページが存在する 以下は,現在までに発見できたページ:http://ssl.ohmsha.co.jp/cgi-bin/menu.cgi?ISBN=4-274-13149-1とんでもない文字コード HTTPのヘッダにて "Content-Type : text/html; charset=eucj…

doGoogleSearch()の書式

status = soap_call_api__doGoogleSearch(&soap, /* soap */ "http://api.google.com/search/beta2", /* soap endpoint */ "urn:GoogleSearchAction", /* soap action */ "5ec18eJQFHLK5XisAttAzqwzEcjY0RxL", /* key */ keyword, /* query */ 0, /* start *…

Google SOAP Search API の使いかた

Google SOAP Search API の使いかたを忘れないようにメモしておく.~/SOAP/ の下に gsoap のソースおよび Google SOAP Search API の利用例を置いてある. (ディレクトリの中身がぐちゃぐちゃなので,近いうちに整理しよう) gsoap については,configure, …

数理モデル(社会システム工学実験IIIのネタ)

佐藤彰洋,決定論的ディーラーモデルによる市場価格変動のモデル化,情報処理学会論文誌:数理モデル化と応用,Vol.46, No.SIG17(TOM 13) (2005) 情報処理学会 電子図書館から無料で入手できる

倒産予測,格付け予測(社会システム工学実験IIのネタ)

津田博史,社債価格モデルによる格付け変化情報:格付け変化の予測,数理統計,Vol.54, No.1, pp.39-55 (2006)

研究関係で読むブログ

http://yshouse.jp/archives/cat5/ 2006年04月05日 ブログの正体を掴む方法 昨年の私のFMPセミナーの講演や、一橋大での研究発表、さらに、このヒットコンテンツブログでもずっと書いてきたAOC「Artist-oriented Community」のことは、ブログがもたらすWEB2.…