以下は Miyagawa による評判情報に関する論文のまとめ

自動構築した評価文コーパスから の評価表現辞書の構築(これでいく!)

【論文の内容】HTML文書から評価表現辞書を自動構築する.
(手法)
�HTML文書集合から評価極性(好評/不評)を持つ文(評価文)を自動抽出
(抽出された評価文の集合:評価文コーパス)
�評価文コーパスから評価表現の候補を抽出し,その頻度情報を集計
�得られた頻度情報を利用して,候補表現の中から評価表現を選別して辞書に登録

(手法の詳細)
�手がかり表現を利用して評価文を抽出.(この論文の実験では,93.4%の精度で好評文と不評文を抽出できている.)
�評価表現の候補(候補表現)として,全ての形容詞と形容詞句(名詞+格助詞+形容詞)を抽出し,各候補表現について好評表現として出現した頻度と不評表現として出現した頻度を集計する.
�頻度情報から,評価極性の強さを数値化(評価極性値)
評価極性値は,共起度という観点から定義する.
共起の尺度として,Pointwise Mutual Information(PMI)を利用
※PMIの式は論文参照
(この論文では,適合率・再現率ともに高い結果を得られている.結果は,辞書に登録するかどうかを決める閾値θに依存する.)

係り受け関係を利用した感情生起表現の抽出

【論文の内容】Web文書中の感情表現とその係受け関係から書き手の感情が推定可能な表現(感情生起表現)を抽出する手法を提案している.

(感情生起表現とは)
文書中の「うれしい」「かなしい」などを感情表現とすると,感情生起表現とは「プレゼントをもらう」などの書き手の感情が生起される要因となった事柄を指す.
この論文では,感情生起表現を,文中で連続した2文節の表現と定義して抽出している.

(手法)
1.種用感情表現辞書の作成
2.生起表現候補の収集
3.生起表現候補のフィルタリング

(手法の詳細)
1.感情表現辞典の語句編に記載されている感情表現10分類全2167語を,それぞれの感情ごとに感情辞書として抜粋する.文の抽出に使用する種用感情表現辞書には,感情辞書から茶筅で定義されている「形容詞」または「名詞ー形容動詞語幹」,かつ「助詞ー格助詞」を含まない表現を抽出,登録する.
2.種用感情表現辞書に登録した表現を含む文をコーパスから取り出す.
取り出した文を南瓜を用いて構文解析する.
構文解析の結果,感情表現の係り元2文節を抽出する.このとき,抽出した表現の末尾が「のが」,「ことが」であるものだけを感情生起表現とする.
「ことが」が末尾の場合,それだけで1つの文節になってしまうので,係り元3文節を感情生起表現候補とする.
3.ステップ1:1文節目の先頭の形態素が「連体詞」,「名詞ー非自立」,「名詞ー数」の場合は感情生起表現候補としない.
ステップ2:2文節目の先頭の形態素が「形容詞ー自立」,「動詞,名詞ーサ変接続」,「名詞ー形容動詞語幹」の感情生起表現候補を抽出する.

(評価実験)
論文参照
約1.4GBのテキストから約1万個の感情生起表現を約45%の精度で抽出できた.
あまり精度は高くない?
感情毎に偏りが生じている.
二文節できっていることによる情報不足が原因なのか,感情を生起する要因とならないものが多くなっている.

commnet by muto:感情表現の抽出は基本的に難しい。上記の研究は、新規性が高い(枯れていない)。

Blogからの評判抽出システムの構築に関する研究

Blogの更新情報RSSファイルからBlogを収集し,内容を解析することによってBlogからキーワードに対する評判を抽出するシステムを構築している.

(評価表現辞書:評判抽出に用いる辞書)
ユーザ自身に作成してもらう.
評判抽出の際に,評価表現と興味対象を含むキーワードを入力してもらう.

(Blogのフィルタリング)
評判抽出を行うにあたり,意見を含んでいないBlogがノイズとなる.
・何らかの意見を述べているBlogには,ある範囲内の文章量でかかれている傾向があるため,長さをフィルタリングの要素とする.
・同一筆者による更新頻度が極端に多いBlogは,何らかの広告である可能性が高いため,排除する.

(Blogのスコアリング)
1.ユーザの入力したキーワードのブログ中のTF値
2.入力された評価表現のブログにおける頻度
3.キーワードと評価表現のブログにおける距離

1・2が1以上のBlogに対して評価値を算出する.
評価値は論文の式(1)で求める.
ここで,Scoreが評価値,RFは評価表現の出現回数,α・β・γはパラメータ

結果は論文を参照.
・評価表現をユーザに入力させていることに限界があるのでは?

オントロジーを用いたWebからの評判情報抽出サービス

クチコミ情報の発信源が主にブログなどの半構造化データであることに着目し,従来の構文解析などの自然言語処理に構造化された情報から得られるセマンティクス(メタデータオントロジー)を組み合わせたことを特徴とするクチコミ情報抽出技術を紹介している.

(オントロジー)
「概念化の明示的な使用」と定義される.それぞれの文書の内容を説明する意味情報(メタデータ)を各文書に付加し,メタデータを記述する用語を定義する構造を構築する.この構造がオントロジーとなる.

(ユビdeコミミハサンダー)
商品名を入力するとインターネットから商品のメタデータを取得し,関連するブログを収集し,その商品に関するクチコミ情報をユーザに提示するサービスである.
ユビdeコミミハサンダーの出力結果は「ポジティブ・ネガティブ判定」「関連トピック抽出」「ブログ本文」

※ブログエントリ間の相関関係を利用し,各エントリの重要さを重み付けし,評価をバイアスしている.
エントリ単位でのトラックバックやコメントの数,著者毎の平均的なトラックバックやコメントの数,当該著者が他の関連商品についても意見を述べているかどうか,エントリとトラックバック,コメントとの時間的な開きなどを基にルールを設定し,各意味に重みを付している.
構文解析の過程でオントロジーを活用している.

!ここからよくわかりません!
構文解析時には商品オントロジー内の対象クラスまたはインスタンスのプロパティ名や値を参照し,係受け関係を抽出する.これにより,例えばDVDタイトルに関する評判を調べる場合に,タイトル名に加えて監督や出演者に関して述べている箇所も効率よく抽出できる.そして,商品クラスに関連付けられた感性表現オントロジー内の属性クラスおよび表現クラスを参照することで抽出された箇所が,何に付いて肯定しているのか否定しているのかを判定する.ここでは,属性と表現が対応付けられているため,属性によって意味が逆転する表現にも対応できる.
!ここまでよくわかりません!

武藤コメント:現実には、ブログにメタデータが付与されていない。上記は、もしオントロジーの整備がうまくいけば・・という論文。

Weblog を対象とした評価表現抽出

Blogから評判情報を収集・分析するための技術のひとつとして,評判情報の核となる評価表現を抽出しつつ,発言全体が肯定的な評価であるか,否定的な評価であるかを判定するsemi-superviseな手法を提案している.

(Semi-supervised学習による評価表現と評判分類)
評価表現は,1どの対象について,2どの部分が,3どうなのかという3要素からなる.この論文では教師つき学習手法(ナイーブベイズ分類器)をEMアルゴリズムで補強する方法を提案している.論文の式(4),(5),(6),(7)を用いて識別器を学習させる.式(5)の値が分類結果.式(4)の値の変化が十分に小さくなることを学習の終了条件としている.

(データの準備)
1.文の切り出し
小数やイニシャルなどの中に使用されるピリオドや固有名中に使われる句点など,分割すべきでない箇所を除外するためのヒューリスティックスを導入
2.係り受け解析(CaboChaを利用)
3.三つ組(評価対象,属性,評価語)と周辺情報の抽出
※評価語候補に「ない」が連なる場合は,これを連結したものをひとつの素性として扱う.
三つ組
評価語の候補を,形容詞・形容動詞・動詞の「ある」とし,評価語にかかる文節の中から評価対象と属性を見つける.
評価対象の候補は文節中の具体名詞のみとし,属性の候補は文節中の抽象名詞のみに限定する.(抽象名詞かどうかの判定はNTTの日本語彙大系から作成した抽象名詞辞書とのマッチングに加え,「度」「性」という語尾を持つ名詞も抽象名詞とする.)

周辺情報
・ 文末の文節内の形態素
・文末の記号
・文に含まれる感動詞
・文に含まれる丸括弧の中身
・三つ組いずれかに係る文節内の形態素
・評価語候補が係る文節内の形態素
・評価語候補と同じ文節に含まれる形態素

※データのフィルタリング
以下の事例は削除した.
・既に存在する事例と全く同じ
・周辺情報が全くない
・対象・属性どちらも抽出できない
・評価語候補が名詞を連体修飾している
・評価語候補の係り先の文節に,形容詞または形容動詞語幹または感動詞が入っていない
・対象・属性に時期を表す語が入っている
・対象に名詞性述語接尾辞を含む
・対象・属性・評価語候補の間隔が16バイト以上あいている

(ラベル付け)
ラベルは以下の3つである.
・非評価
・肯定的評価
・否定的評価
※該当する三つ組が表す事象に対し,書き手が肯定的感情を抱いているかどうかを推測してラベル付けする.
※対象や属性が抽出されていない場合は,省略されていると考える.
※その文だけ見ても判定できないものは非評価とする.

(評価実験の結果)
λ=0.1,β=0.01のときの正解率が70.4%で最も高い.
ナイーブベイズ識別器のみの分類よりもEMアルゴリズムを導入した方が効果的である.

グルメ情報を含む Web 文書からのユーザ指向型評判情報抽出システムの開発

この論文では,ユーザの要求するグルメ情報を,ユーザとレストランなどのメタデータにより検索し,レストランなどの評価を検索結果として返すシステムを
提案している.論文内では,検索技術と評判情報抽出技術と実装の仕方について簡単に述べてある.
ここで用いられている評判情報抽出技術については次の論文に記されていたため,そちらの内容を抜粋する.

意見抽出を目的とした機械学習による属性ー評価値対同定

http://cl.aist-nara.ac.jp/~ryu-i/papers/NL165-4.pdf
レーダーチャートを作成することで文章中の意見を要約する研究をしている.
意見とは,対象,属性,評価値の3ツ組と定義する.

(意見要約処理)概要は論文の図1参照
1.属性,属性値,主観評価となりうる表現の収集
属性,属性値,主観評価をドメイン毎に収集する.
2.テキスト中の属性と属性値(もしくは主観評価)の対の抽出
!この論文ではこの部分について深く追求!
3.抽出した対のp/n判定
4.判定したp/nの値を用いた意見の要約

(属性と評価値の対の抽出方法)
1.候補(属性と評価値)の抽出
属性辞書と評価値辞書を用いて対象文書から評価値候補を探す
→評価値候補に対して,ある範囲内に存在する属性候補を網羅的に抽出する.
2.属性同定
評価値候補とそれと対となる可能性のある(この論文では評価値と同一文内もしくは前文を対象としている)属性候補集合があたえられた場合に,属性候補
集合のそれぞれの要素と評価値候補が対となるか否かの2値分類問題を考える.
・Soonらのモデル
Soonらのモデルの先行詞を属性,照応詞を評価値と置き換えて解析する.
※属性と評価値に関する可能な組み合わせを全て出力するため誤った対も出力してしまう.
・トーナメントモデル
複数存在する属性候補に対して候補間で比較を行い,勝ち抜き方式で対となる属性を決定する.

3.意見性判定
属性と評価値の対がちゃんと抽出できたとしても,その対が意見性の基準を満たさない場合は,抽出しないようにしなければならない.
→対象となる文節の前後文脈,対となる属性の表現のみを用いて意見性を持つか否かを判定する.
ここでもSoonらのモデルかトーナメントモデルを用いて意見性を持つか否かの2値分類問題を解く.

意見性を持つと判断された対(属性ー評価値)を意見として出力する.

※タグ付きコーパスを人手で作る必要があり,複数のブログからの意見抽出には向かないのではないだろうか?

(評価実験の結果,Soonらのモデルを用いた場合もトーナメントモデルを用いた場合も意見性のある対を抽出する精度は70%前後である)