2007-07-26から1日間の記事一覧

ブログ分析および Web 本文抽出におけるcharacter entity への対応(案)

全て削除する 絵文字の意図を解釈し,例えば「下向き矢印」は "down" や "落ち込み" 等の語に変換する.ただし,日本語への置き換えは予め HTML document の文字コードが判明していることが前提である.

どうでもよいことだが・・

character entity を探してくれる HTML Entity Character Lookup というソフトがあるらしい. 入力された文字をいい感じに実体参照に変換してくれる便利ツール『HTML Entity Character Lookup』 | POP*POP

携帯電話の拡張

NTT DoCoMo の iモード [1] NTT DoCoMo の Web の資料に拠ると 0xF89F〜0xF9B0 に飛び飛びで絵文字が定義されている。 [2] Windoze 用などの font によるとこれ以外にも 0xF787 以降や、 飛び飛びになっている (http://suika.fam.cx/~wakaba/-temp/wiki/wik…

character entity in HTML について

概要を理解するためには HTML Entities が良さそう.この中身を抜き出したのが以下.Entity Name と共に Entity Number が定義されている. Result Description Entity Name Entity Number non-breaking space     & ampersand & & " quot…