ブログ分析および Web 本文抽出におけるcharacter entity への対応(案)

  1. 全て削除する
  2. 絵文字の意図を解釈し,例えば「下向き矢印」は "down" や "落ち込み" 等の語に変換する.ただし,日本語への置き換えは予め HTML document の文字コードが判明していることが前提である.