2011-09-01から1ヶ月間の記事一覧

twitterStreaming API + OAuth with Twitter4J 2.2.5-SNAPSHOT

OAuth 認証にて Twitter Streaming API を利用するプログラム例。 import java.io.*; import twitter4j.TwitterStream; import twitter4j.TwitterStreamFactory; import twitter4j.TwitterException; import twitter4j.StatusListener; import twitter4j.Sta…

Twitter Streaming API の仕様変更

先日,Twitter社から "Streaming API を SSL でのアクセスに変更する"旨のアナウンスがなされた。 Streaming API turning SSL only on September 29th https://dev.twitter.com/blog/streaming-api-turning-ssl-only-september-29th 要は http を https へ書…

SDカード上のファイルとしてデータを保存する。

Android 上で「SD カードへのデータ保存機能」を実装したい場合,SDカードの絶対パスにさえ注意すれば「ローカルファイルの読み書き」と同様のプログラムでいける。前提:Manifest ファイルにおいて,パーミッション WRITE_EXTERNAL_STORAGE を与える。以下…

Python から OCRソフト Tesseract を利用する

Python から Tesseract を利用するための python モジュールが以下のサイトにおいて公開されている。 python wrapper class for tesseract OCR (Linux & Mac & Cygwin) http://code.google.com/p/python-tesseract/プログラム例はこんなに短い! # -*- codin…

OCR Engine Tesseract 3.00

Tesseract のホームページ: http://code.google.com/p/tesseract-ocr/バージョンには 2.04 と 3.00 が存在するが,とりあえず今回は 3.00 を導入してみる. 必要なファイルのダウンロード http://code.google.com/p/tesseract-ocr/ から以下の3種類のファ…

Web検索API の比較

以下の2つの Web検索API を比較した. Yahoo! JAPAN の提供するアップグレード版ウェブ検索API http://developer.yahoo.co.jp/webapi/search/premium.html Google の提供する JSON/Atom Custom Search API http://code.google.com/intl/ja/apis/customsearc…

Google JSON/Atom Custom Search API の仕様

http://code.google.com/intl/ja/apis/customsearch/v1/overview.html 備忘録としてのメモ. 予備知識 Google Web Search API http://code.google.com/intl/ja/apis/websearch/docs/ は 2010年11月1日をもって廃止され(現在でもかろうじて動いているが,実…

Ubuntu への MeCab のインストール

Ubuntu のパッケージにも MeCab が含まれている.しかし,mecab にチェックを入れると,標準辞書にも自動的にチェックが入る.自分が入れたいのは UTF-8 対応の辞書である(これもパッケージに含まれている).結局,標準辞書が必要かどうか分からず,調べる…

Yahoo! JAPAN の「アップグレード版ウェブ検索API」

2011年3月31日付けで Yahoo!検索 Web API のサービスが変更されていた. http://developer.yahoo.co.jp/webapi/search/premium.html (ずっと Google の AJAX を利用していたため,気付かなかったのだ)平たく言えば,従来型の API を叩いても "Service unav…

おわりに : Chapter 1-4 を読んだ感想

解析の背景,コードの説明がともに詳細に書かれている.Twitter REST API や search API を事前に抑えておけば,すいすい読める. Chapter 4 では Redis を用いたデータベースの存在が前提となる.自分でデータベースを作り,プログラムを動かさないと,ピン…

Chapter 4: Twitter: Friends, Followers, and Setwise Operations

RESTful and OAuth-Clasdded APIs (メモ) REST については,"山本陽平,Webを支える技術,技術評論社 (2010)" を読む方が早いし,詳しい. 本書で用いるクライアントでは,Python の twitter パッケージを用いる. Twitter API の概要および Twitter API "/u…

Chapter 3: Mailboxes: Oldies but Goodies

(言い訳) この章は完全に読み飛ばす.

Chapter 2: Microformats: Semantic Markup and Common Sense Collide

(言い訳) マイクロフォーマットに興味がないため,流し読み.(メモ) マイクロフォーマットはHTML(またはXHTML)ウェブページにおける、意味を表現するための小さなマークアップである。(ja.wikipedia.org より引用) HTML パーサとして Bequtiful Soup を利…

Chapter 1: Introduction: Hacking on Twitter Data

Installing Python Development www.python.org からダウンロードして Python をインストールせよ. networkx,numpy パッケージのインストール networkx で構築できるグラフのイメージ. Collecting and Maipulating Twitter Data twitter パッケージのイン…

はじめに

M.A.Russell, Mining the Social Web, O’Relly Media, Inc., 2011 の Chapter 1〜4 を読んだから,読書メモとして公開する.ただし,興味があるのは Twitter ゆえ,関連しない Chapter 3 を読み飛ばした. Mining the Social Web作者: Matthew A. Russell出…

ブログからの本文抽出:Java vs Python

div タグ + class 属性を利用してブログから本文を抽出するにあたり,Java と Python の実装を比較した.結果は Python の圧倒的勝利. Java での記述 import java.io.*; import java.net.URL; import org.w3c.tidy.Tidy; import org.w3c.dom.Document; impo…

リツイート関係の視覚化(情報伝播編)

M.A.Russell, Mining the Social Web, p.17 に記載のあった,RT関係(情報伝播の様子)を視覚化するプログラム https://github.com/ptwobrussell/Mining-the-Social-Web/blob/master/python_code/introduction__retweet_visualization.py を取ってきて,Prot…

リツイート関係の視覚化

M.A.Russell, Mining the Web, pp.4-16 に掲載されている "Twitter上でのリツイート関係の視覚化" を試してみた. ここで,ノードは Twitter ユーザ名,エッジは ツイートがretweet された関係を示している.プログラムは以下のとおり.本に載っているまま.…

Python + twitter 1.6.1 による Twitter 検索

こんなプログラムを書いて・・・ #coding: utf-8 import twitter twitter_search = twitter.Twitter(domain="search.twitter.com") search_results = twitter_search.search(q="Evernote", rpp=100, page=1) tweets = [r['text'] for r in search_results['r…

Eclipse + PyDev における unresolved import

easy_install を用いて twitter 1.6.1 をインストールした. プログラム中で "import twitter" とすると,コンソールや IDLE からは見えているのに, Eclipse 上の PyDev 環境では "unresolved import" と指摘される.対処法は以下のとおり: 当該 PyDev Por…

書評:みんなのPython 改訂版

いまさら感もあるが, 柴田淳,みんなのPython 改訂版,ソフトバンククリエイティブ,2009. を読んだから,評価を述べる。 (2011年9月15日読了。といっても,後半は必要になった時点で読めばよいと判断して,ページをめくっただけ。) みんなのPython 改訂…

Windows7 への Python インストールおよび自然言語処のためのモジュール整備

Python のインストール Windows 7 に Python 開発環境を構築するため,+http://www.python.org/download/ から Python 2.7.2 をダウンロード。(3.2.2 も置いてあるが,2.* と 3.* では Python の仕様が異なるらしい) 具体的には Python 2.7.2 Windows Inst…

Eclipse on Windows から Eclipse on Linux へのプロジェクトの移行

Eclipse on Windows で開発したプログラムを Linux (Ubuntu) へ移行させる方法を以下に述べる. Eclipse on Windows 側で,プロジェクトを zip ファイルに固める. ssh なり DropBox なりを用いて Linux 側へファイルを移動し,workspace 下に展開. Eclipse…

Ubuntu への Tomcat のインストール & セットアップ

(注意) Eclipse を用いて Web アプリケーション(JSP & Servlet)を作る際,Ubuntu がデフォルトで構成する Tomcat6 のディレクトリ構成との不整合が問題となる.故に,以下は「あくまでも」とりあえず Tomcat を動かしたい場合のメモとなる.Synapticパッケ…

emacs-evernote-mode

Emacs から Evernote ノートの作成/編集を可能とする emacs-evernote-mode を見つけた. 以下は,自分の計算機環境にセットアップした際のメモである. インストール & セットアップ インストール手順は以下のとおり:まず,ruby が入っていなかったため,…