Chapter 1: Introduction: Hacking on Twitter Data
Installing Python Development
Collecting and Maipulating Twitter Data
- twitter パッケージのインストール
- Twitter REST API, Twitter search API を用いて,トレンド取得と検索してみよう.
- Twitter search の結果を JSON 形式で出力(json パッケージの利用)
- Twitter search API を用いて得たツイート群から text のみ取り出して,語の頻度解析(ただし,文を空白文字で区切って単語を同定する)
- nltk を用いて頻度解析し,頻出する上位50語を抽出.
- retweet されたツイートには "RT @screenName" または "via @screenName" の形式で元ツイートの発言者が記録される特性を利用して,retweet されたツイート("@screenName" で表現)とリツイートしたユーザの関係を抽出.
- netowrkx を用いて,前述のリツイート関係を有向グラフとして表現.ついでにノード数,エッジ数,各ノードの出次数に言及.
- 視覚化には Graphviz がお勧め.グラフを DOT 形式で出力する方法を商会.
- Protovis(Web ベースの視覚化ツール)に喰わせるデータ・フォーマットについては,github に載せたソースを見てね.