Yahoo! Japan Developer Network : 日本語形態素解析サービスの利用

/* * Yahoo! Japan ディベロッパーネットワーク: テキスト解析:形態素解析サービスの利用 * http://developer.yahoo.co.jp/webapi/jlp/ma/v1/parse.html * 2015.11.18 */ import java.net.HttpURLConnection; import java.net.URL; import java.net.URLEnc…

EMアルゴリズムによるGMMパラメータの推定

トピックモデルでは EM アルゴリズムを用いるのが一般的なのに,EM の理屈を理解できていない。 そこで,GMM (Gaussian Mixture Model) のパラメータ推定を対象とし, Simon J.D. Prince, Computer vision: models, learning and inference (2012) で勉強し…

2次元正規密度関数のヒートマップ

Simon J.D. Prince, Computer vision: models, learning and inference (2012) に頻繁に出てくるヒートマップに刺激されて真似てみた。 #coding: utf-8 import numpy as np import matplotlib.pyplot as plt import matplotlib.mlab as mlab def main(): x =…

scipy を用いた Latent semantic indexing

#coding: utf-8 import numpy as np from scipy import linalg ''' Latent semantic indexing ''' def main(): # P.Baldi et al., 確率モデルによるWebデータ解析法, 森北出版, pp.96-98 に # 掲載されている行列を用いる X = np.matrix([[1,1,0,0,0,0,0,0,0…

Windows form application でタイマーを使う

目的:一定の時間間隔ごとに特定の処理を行いたい。 using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; using System.Text; using System.Threading.Tasks; usin…

Kinect のスケルトン情報を取得&表示

スケルトン情報の取得に関するサンプルが沢山あるのだけれど,表示については(pygame の例はあれど)OpenCV のみで対処したサンプルが見つからず。 こんなのでよいのかしら? import cv2 import numpy as np import pykinect from pykinect import nui impo…

UniDic の能力はいかほど?

UniDic という辞書がありまして,優秀だというので試してみました。UniDic プロジェクト日本語トップページ - SourceForge.JP UniDic プロジェクト日本語トップページ - SourceForge.JPレビューや Twitter 等で使用される口語表現がターゲットであり,所謂,…

Microsoft 翻訳 API (Microsoft Translator) を利用するための準備

Microsoft 翻訳 API (Microsoft Translator) を利用するための準備について,手順をまとめました。目次 1.Microsoft アカウントの取得 2.Microsoft Azure Marketplace への登録 & 顧客ID (consumer ID)の取得 3.アプリケーションの登録 &顧客の秘密 …

Web へのアクセス

C#

C# の勉強を進めないとならない状況に追い込まれた。 文法書を読むのが面倒だから,何か作ってみようという訳で Web にアクセスするプログラムを書いてみた。 using System; using System.IO; using System.Text; // for Encoding //using System.Collection…

PyKinect : RGBカメラと距離カメラ

PyKinectを用いて Kinect のRGBカメラと距離カメラからのストリーミングデータを表示する。 2つのカメラから得られるデータを同時に表示する方法が分からない。 import cv2 import numpy as np import pykinect from pykinect import nui #import thread im…

Tweet Entities を利用した短縮URLの伸長

Twitter 上のツイートに含まれる URL は t.co によって短縮されている(プログラム冒頭の例を参照)。オリジナルの URL は Tweet Entities に記載されているから,これを利用して伸長する。Tweet Entities ・・・ https://dev.twitter.com/docs/tweet-entiti…

nltk.TextCollection.tf_idf の使い方

nltk.text.TextCollection クラスの説明は以下にある: http://nltk.googlecode.com/svn/trunk/doc/api/nltk.text.TextCollection-class.html TF-IDF とは TF(term frequency): 文書 d におけるトークン t の出現頻度 IDF(inverted document frequency) …

Twitter において自分がよく使う語は何か?

自分のツイートに含まれる語の傾向を知るため,頻度分布を求めた。 手順は以下のとおり:1.Twitter API を利用し,自らのタイムラインを取得する。(tweepy.API.user_timeline) $ python mytweets.py > mytweets.txtmytweets.py #coding: utf-8 import twee…

nltk.FreqDist および nltk.ConditionalFreqDist の plot() で日本語を出力させる方法

nltk.FreqDist クラスおよび nltk.ConditionalFreqDist クラスに含まれる plot() メソッドを利用した場合,軸(特に横軸)で日本語フォントが使えないという問題がある。 plot() メソッドでは内部的に matplotlib.pyplot を利用しており,日本語を出力するた…

nltk を用いたバイグラムの処理

頻度分布やバイグラムの練習 下記のページから「2009年1月20日,オバマ氏の大統領就任演説」のテキストを取得し,ファイル obama_inaugural_transcript.txt として保存する。 http://gaikoku.info/english/column/obama_inaugural_transcript.htm >>> import…

scipy.stat.gaussian_kde()による確率密度推定

scipy.stats のインポート: >>> from scipy import statsGaussian kernel density estimation のためのクラスの定義: >>> class GaussianKernelDensityEstimation(object): """docstring for GaussianKernelDensityEstimation""" def __init__(self): self…

networkx の有向グラフ

networkx を用いて有向グラフを描いてみたら destination 側は矢印にならないのね。 少し見辛いが,これはこれとして諦めるしかない感じ。 import matplotlib.pyplot as plt import networkx as nx g = nx.DiGraph() g.add_edge('a', 'b') # a->b g.add_edge…

pandas で scatter matrix

pandas (Python Data Analysis Library) http://pandas.pydata.org/iris データを対象として scatter matrix を描画した。 >>> from pandas import * >>> from pandas.tools.plotting import * >>> import matplotlib.pyplot as plt >>> data = read_csv('ir…

pandas でヒストグラム

pandas (Python Data Analysis Library) http://pandas.pydata.org/http://archive.ics.uci.edu/ml/datasets/Iris にて公開されている Iris データを利用する。 iris.data と iris.names を持ってきて,ヘッダ行を加工した。 $ head iris.csv "sepal length"…

pandas のインストール

pandas (Python Data Analysis Library) http://pandas.pydata.org/以下は,python 2.7 上でのテスト結果である。 準備 pandas を利用するには numpy 1.6 以上が必要となる。 自分の環境は 1.5 だったため,easy_install を用いてバージョンアップする。 $ s…

arelle におけるコンテキスト情報内の日付処理

XBRL インスタンスのコンテキスト情報に含まれる「時点(instance)」および「期間(duration)」は,それぞれ「決算日」および「開始日と終了日」を表す。これらは arelle 内で以下の形式で表現される(以下は「前年度連結決算の時点情報」の例)。 contexts = …

Twitter クライアント数を数えてみた

Twitter streaming API を用いて取得した 2012.09.12 12:00-13:00 (UTC) のデータから,得られたツイート数は 164,378件。その中から source の値を取り出して Twitter クライアントの利用者数をカウントした。クライアント名の種類数は 2,415件。利用者数の…

はてなダイアリーからはてなブログへの引越し

従来からはてなダイアリーを便利に使っており,一方で1日の記事がひとまとめにされるのが気に入らなくて(ダイアリだからコンセプトは正しいのだが),はてなブログがサービスを開始した時点でとりあえずブログを開設しておいた。そして,やっと届いた「は…

日本語入力メソッド Mozc の設定 (Ubuntu)

# 入力時の句読点をカンマとピリオドに変更したかったのが,そもそものモチベーションである。1.mozc のアイコンから「設定」を選んでも「iBusの設定」ウィンドウが表示されない場合,「システム」→「設定」→「キーボード・インプットメソッド」と進む。 …

pygmaps を利用して Google 上にポイントを置く

pygmaps(Python wrapper for Google Maps JavaScript API V3) を使うと,簡単に Google Maps 上に点をプロットできる。また,パスも描けるようだ。Python って凄いね。 http://code.google.com/p/pygmaps/ #coding: utf-8 import pygmaps import webbrowser …

nltk.NaiveBayesClassifier を用いた文書分類

"nltk.NaiveBayesClassifier mecab" をキーワードに Google 検索しても出てくる件数が少ないから,自分で作ってみた。 # -*- coding: utf-8 -*- #学習サンプルおよびテストサンプルは以下のページに掲載されていたのを拝借した。 # 機械学習 はじめよう 第3…

mlpy (Machine Learning Python) の SVM を試す

mlpy : http://mlpy.sourceforge.net/例題として,UCI Repository で提供されている "Breast Cancer Wisconsin (Original) Data Set" を用いる。 http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Original) サンプル数:683 (本来のサンプ…

UbuntuへのMongoDBのインストール

MongoDB に登録するデータが UTF-8 で記述されている場合,Ubuntu のパッケージでは「UTF8 なしの SpiderMonky」がインストールされるため,使用不可。すなわち,SpiderMonkey と MongoDB を共にソースからコンパイルする必要がある。 既存のSpiderMonkey の…

Ubuntu 11.04 への CouchDB のインストール

CouchDB とは JSON 形式のデータをそのまま飲み込んでくれる DB です。 CouchDB のインストール 最初に libmozjs を入れておく。 $ sudo apt-get install libmozjs-dev 次に http://couchdb.apache.org/downloads.html から apache-couchdb-1.1.1.tar.gz を…

Ubuntu 11.04 への CouchDB のインストール

CouchDB とは JSON 形式のデータをそのまま飲み込んでくれる DB です。 CouchDB のインストール 最初に libmozjs を入れておく。 $ sudo apt-get install libmozjs-dev次に http://couchdb.apache.org/downloads.html から apache-couchdb-1.1.1.tar.gz を取…