Chapter 1: Introduction: Hacking on Twitter Data

Installing Python Development

  • www.python.org からダウンロードして Python をインストールせよ.
  • networkx,numpy パッケージのインストール
  • networkx で構築できるグラフのイメージ.

Collecting and Maipulating Twitter Data

  • twitter パッケージのインストール
  • Twitter REST API, Twitter search API を用いて,トレンド取得と検索してみよう.
  • Twitter search の結果を JSON 形式で出力(json パッケージの利用)
  • Twitter search API を用いて得たツイート群から text のみ取り出して,語の頻度解析(ただし,文を空白文字で区切って単語を同定する)
  • nltk を用いて頻度解析し,頻出する上位50語を抽出.
  • retweet されたツイートには "RT @screenName" または "via @screenName" の形式で元ツイートの発言者が記録される特性を利用して,retweet されたツイート("@screenName" で表現)とリツイートしたユーザの関係を抽出.
  • netowrkx を用いて,前述のリツイート関係を有向グラフとして表現.ついでにノード数,エッジ数,各ノードの出次数に言及.
  • 視覚化には Graphviz がお勧め.グラフを DOT 形式で出力する方法を商会.
  • Protovis(Web ベースの視覚化ツール)に喰わせるデータ・フォーマットについては,github に載せたソースを見てね.