Webページからの本文抽出（思いつきレベル） - (主に)プログラミングのメモ

Webページには，索引や広告など余分な（？）情報が付与されている．これらを除去して本文のみを抽出する．
利用可能な手がかりはキーワード文字列のみである．
簡単に思いつくのは，キーワード文字列から前後に辿り，h1 や hr などパラグラフの切れ目と思われる箇所を見つけて切り出す方法である．この際，無視するタグとして p, br, font が考えられる．しかし，div タグの扱いには悩んでいる．