2012-12-01から1ヶ月間の記事一覧

Twitter において自分がよく使う語は何か?

自分のツイートに含まれる語の傾向を知るため,頻度分布を求めた。 手順は以下のとおり:1.Twitter API を利用し,自らのタイムラインを取得する。(tweepy.API.user_timeline) $ python mytweets.py > mytweets.txtmytweets.py #coding: utf-8 import twee…

nltk.FreqDist および nltk.ConditionalFreqDist の plot() で日本語を出力させる方法

nltk.FreqDist クラスおよび nltk.ConditionalFreqDist クラスに含まれる plot() メソッドを利用した場合,軸(特に横軸)で日本語フォントが使えないという問題がある。 plot() メソッドでは内部的に matplotlib.pyplot を利用しており,日本語を出力するた…

nltk を用いたバイグラムの処理

頻度分布やバイグラムの練習 下記のページから「2009年1月20日,オバマ氏の大統領就任演説」のテキストを取得し,ファイル obama_inaugural_transcript.txt として保存する。 http://gaikoku.info/english/column/obama_inaugural_transcript.htm >>> import…