2012-01-01から1年間の記事一覧

Twitter において自分がよく使う語は何か?

自分のツイートに含まれる語の傾向を知るため,頻度分布を求めた。 手順は以下のとおり:1.Twitter API を利用し,自らのタイムラインを取得する。(tweepy.API.user_timeline) $ python mytweets.py > mytweets.txtmytweets.py #coding: utf-8 import twee…

nltk.FreqDist および nltk.ConditionalFreqDist の plot() で日本語を出力させる方法

nltk.FreqDist クラスおよび nltk.ConditionalFreqDist クラスに含まれる plot() メソッドを利用した場合,軸(特に横軸)で日本語フォントが使えないという問題がある。 plot() メソッドでは内部的に matplotlib.pyplot を利用しており,日本語を出力するた…

nltk を用いたバイグラムの処理

頻度分布やバイグラムの練習 下記のページから「2009年1月20日,オバマ氏の大統領就任演説」のテキストを取得し,ファイル obama_inaugural_transcript.txt として保存する。 http://gaikoku.info/english/column/obama_inaugural_transcript.htm >>> import…

scipy.stat.gaussian_kde()による確率密度推定

scipy.stats のインポート: >>> from scipy import statsGaussian kernel density estimation のためのクラスの定義: >>> class GaussianKernelDensityEstimation(object): """docstring for GaussianKernelDensityEstimation""" def __init__(self): self…

networkx の有向グラフ

networkx を用いて有向グラフを描いてみたら destination 側は矢印にならないのね。 少し見辛いが,これはこれとして諦めるしかない感じ。 import matplotlib.pyplot as plt import networkx as nx g = nx.DiGraph() g.add_edge('a', 'b') # a->b g.add_edge…

pandas で scatter matrix

pandas (Python Data Analysis Library) http://pandas.pydata.org/iris データを対象として scatter matrix を描画した。 >>> from pandas import * >>> from pandas.tools.plotting import * >>> import matplotlib.pyplot as plt >>> data = read_csv('ir…

pandas でヒストグラム

pandas (Python Data Analysis Library) http://pandas.pydata.org/http://archive.ics.uci.edu/ml/datasets/Iris にて公開されている Iris データを利用する。 iris.data と iris.names を持ってきて,ヘッダ行を加工した。 $ head iris.csv "sepal length"…

pandas のインストール

pandas (Python Data Analysis Library) http://pandas.pydata.org/以下は,python 2.7 上でのテスト結果である。 準備 pandas を利用するには numpy 1.6 以上が必要となる。 自分の環境は 1.5 だったため,easy_install を用いてバージョンアップする。 $ s…

arelle におけるコンテキスト情報内の日付処理

XBRL インスタンスのコンテキスト情報に含まれる「時点(instance)」および「期間(duration)」は,それぞれ「決算日」および「開始日と終了日」を表す。これらは arelle 内で以下の形式で表現される(以下は「前年度連結決算の時点情報」の例)。 contexts = …

Twitter クライアント数を数えてみた

Twitter streaming API を用いて取得した 2012.09.12 12:00-13:00 (UTC) のデータから,得られたツイート数は 164,378件。その中から source の値を取り出して Twitter クライアントの利用者数をカウントした。クライアント名の種類数は 2,415件。利用者数の…

はてなダイアリーからはてなブログへの引越し

従来からはてなダイアリーを便利に使っており,一方で1日の記事がひとまとめにされるのが気に入らなくて(ダイアリだからコンセプトは正しいのだが),はてなブログがサービスを開始した時点でとりあえずブログを開設しておいた。そして,やっと届いた「は…

日本語入力メソッド Mozc の設定 (Ubuntu)

# 入力時の句読点をカンマとピリオドに変更したかったのが,そもそものモチベーションである。1.mozc のアイコンから「設定」を選んでも「iBusの設定」ウィンドウが表示されない場合,「システム」→「設定」→「キーボード・インプットメソッド」と進む。 …

pygmaps を利用して Google 上にポイントを置く

pygmaps(Python wrapper for Google Maps JavaScript API V3) を使うと,簡単に Google Maps 上に点をプロットできる。また,パスも描けるようだ。Python って凄いね。 http://code.google.com/p/pygmaps/ #coding: utf-8 import pygmaps import webbrowser …

nltk.NaiveBayesClassifier を用いた文書分類

"nltk.NaiveBayesClassifier mecab" をキーワードに Google 検索しても出てくる件数が少ないから,自分で作ってみた。 # -*- coding: utf-8 -*- #学習サンプルおよびテストサンプルは以下のページに掲載されていたのを拝借した。 # 機械学習 はじめよう 第3…

mlpy (Machine Learning Python) の SVM を試す

mlpy : http://mlpy.sourceforge.net/例題として,UCI Repository で提供されている "Breast Cancer Wisconsin (Original) Data Set" を用いる。 http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Original) サンプル数:683 (本来のサンプ…

UbuntuへのMongoDBのインストール

MongoDB に登録するデータが UTF-8 で記述されている場合,Ubuntu のパッケージでは「UTF8 なしの SpiderMonky」がインストールされるため,使用不可。すなわち,SpiderMonkey と MongoDB を共にソースからコンパイルする必要がある。 既存のSpiderMonkey の…

Ubuntu 11.04 への CouchDB のインストール

CouchDB とは JSON 形式のデータをそのまま飲み込んでくれる DB です。 CouchDB のインストール 最初に libmozjs を入れておく。 $ sudo apt-get install libmozjs-dev 次に http://couchdb.apache.org/downloads.html から apache-couchdb-1.1.1.tar.gz を…

Ubuntu 11.04 への CouchDB のインストール

CouchDB とは JSON 形式のデータをそのまま飲み込んでくれる DB です。 CouchDB のインストール 最初に libmozjs を入れておく。 $ sudo apt-get install libmozjs-dev次に http://couchdb.apache.org/downloads.html から apache-couchdb-1.1.1.tar.gz を取…

winefish on Ubuntu

学生に利用させる TeX 編集環境として Emacs は(説明が)面倒ということで,直感的に使える TeX エディタを探したところ,winefish を見つけた。 尚,以下の説明において,予め TeX 環境が構築されていることを前提としている。 winefish のインストール Ub…

OpenStreetMap

OSM データの取得 API を叩いて,宇部市中心部の OSM データを得る。 緯度・経度の設定によるが,OSM ファイルのサイズは 329,273バイトだった。 $ wget http://api.openstreetmap.org/api/0.6/map?bbox=131.24,33.95,131.25,33.96 -O map.osm --2012-02-03 …

Java API for KML を用いた KML ファイル作成(基本中の基本)

トラッキングデータの地図上へのプロットが目的であるが,その前フリとして Java API for KML http://code.google.com/p/javaapiforkml/ を用いて KML (Keyhole Markup Language) ファイルを作ってみた。位置情報は意図的に大きく動かしてある。 import de.m…

牛タン焼き

1月19-21日の3日間,仕事のため福島県いわき市を訪れた。20日に仕事を終えたものの,自宅まで帰る手段がないため後泊をつけ,1人で食事(というか呑み)に出かけた。行き先は「地酒と海鮮料理こけし三代目」 http://www.abc-iwaki.com/co/kokeshi/ である…

武蔵のもつ鍋

宇部市にある居酒屋「武蔵」http://www.musashiking.com/ のもつ鍋(3人前)は,こんな感じでやってきて, 放っておくと野菜がしんなり。 別建てのモツを投入して,できあがり。 酔っているため,所々で手ぶれあり。