2007-07-23から1日間の記事一覧

keywordタグ

本文に keyword タグを組み込んでいるため,パーザーが invalid tag という warning を吐き出す.これを抑制する手はないのか? メッセージそのものを抑制する API は存在しないか? keyword タグを正当なタグとして登録できないか?

Webページからの本文抽出(思いつきレベル)

Webページには,索引や広告など余分な(?)情報が付与されている.これらを除去して本文のみを抽出する. 利用可能な手がかりはキーワード文字列のみである. 簡単に思いつくのは,キーワード文字列から前後に辿り,h1 や hr などパラグラフの切れ目と思わ…