2009-01-01から1年間の記事一覧

kindle2

Amazon.com: Older, 2nd generation Kindle Wireless Reading Device, Free 3G, 6" Display, White 配達経路の追跡 こんな感じでした. Date Time Location Event Details December 3, 2009 11:06:00 AM Jp - Osaka JP Delivered December 2, 2009 01:01:00 …

スルーできません

ドライブスルーと書かれているものの,普通の車ではスルーできず,投函後はバックすることになりそうです.

EmacsとUTF-8

上記のプログラムにより UTF-8 に変換できたはずのファイルを emacs で開くと文字化けする.しかし,プログラムに自信がないから,どっちが正しいか分からん.vi, gedit, Mozilla のすべてが「UTF-8だ」と判定しているのにも関わらず,emacs は意固地である…

Webページを文字コードを変えずに取得して,コード判定 & コード変換

コード判定には juniversalchardet : Java port of universalchardet を用いる.ここから juniversalchardet-1.0.3.jar を落としてきて,適当なディレクトリに保存.文字コード(encoding)を判定できたら,byte[] 型に入れたデータと合わせて,String へ変換…

濃霧

そう言えば今朝は濃霧でしたね.

コレクションクラスに関する有用リンク

以下は自分のためのメモ アプリケーションに最適なJavaコレクションクラスを選ぼう(2/3):CodeZine(ある程度,コレクションクラスを理解できたらよむべき.「最適なコレクションクラスの選択」と題して,各クラスの特徴を説明している)

コレクションクラス

学生が set や map などのコレクションクラスの勉強を始めたから,入門として学び易そうなページをリストアップ. はじめてのJava入門[コレクションフレームワーク(コレクションフレームワークとは)](generics に対応していないが,シンプルな内容) (詳細…

Sen の IllegalArgumentException の原因 on Yamamoto's machine

VMのメモリ不足が原因の場合がある。 実行時のオプションで-Xms(初期ヒープサイズ)、-Xmx(最大ヒープサイズ)を指定(例:最大ヒープサイズを256MBにするには、-Xmx256mを指定) $ java -Xmx256m Mai95Co以上、http://d.hatena.ne.jp/Kappuccino/mobile?of=1…

(メモ)共起ペア数を削減しないと・・・

毎日新聞データ(経済面)の1月分の記事本文からウィンドウ共起(windows size = 2)をとると,約 44,000個のペアが得られた. 事前に行った処理は以下のとおり: ・多少の辞書登録 ・品詞の絞り込みルール: if((品詞 == 名詞 && !(細分類 == 数 || 細分類…

新聞記事における共起の事前調査

毎日新聞'95 経済面について,1995年1月1日の記事本文から以下の条件で語の共起を抽出した. 段落をひとつの文章とみなす. 取り出す形態素の品詞を名詞,形容詞,動詞とする. ウィンドウ共起を用い,そのウィンドウサイズを 10とする. 抽出された共起ペア…

共起の定義

文共起:同じ文に含まれている語を共起語として抽出する. ウィンドウ共起:一定の語を収容するウィンドウをテキストに沿って移動させながら,ウィンドウ内に同時に含まれている語を共起語として抽出する. 語彙統合パターン:次の論文をチェック!田淵ら,…

HashMap のキーに自作クラスを使うには

以下のように自作のクラスを定義して,HashMap という形で使いたいとする. class CoPair { String s1; String s2; .... }この場合,CoPair クラス内で equals(CoPair cp) と hashCode() の2つのメソッドを オーバーライドしなければならない.詳細は エン…

TeXで subfigure を使う.

Ubuntu では以下のとおりパッケージを入れれば OK.(余分なものもたくさん入るけど) sudo apt-get install texlive-latex-extra

Conficker.worm

新型インフルエンザが心配な昨今,仕事で使う windows マシンが Conficker に感染した.原因は多分,複数の学生がUSBメモリを抜き差ししたため.駆除には相当な時間がかかりそう.頑張れ!windowsマシン.

予測もいいけど,困ったら最新のマニュアルを読め

既に日越えである.それはそれとして・・・ Java のオーバーライドについて.HashSetクラスを継承の上,contains()メソッドをオーバーライドしたいという要求が発生した.最初に書いたコードがこれ. public class AnySet<E> extends HashSet<E> { @Override publi</e></e>…

不要語リストの作成準備

毎日新聞記事データ(1面の記事のみ)を Sen にかけて単語(名詞のみ)の頻度を調べた.1文字からなる形態素は別として,2文字以上の形態素のうち不要語になりそうなものを挙げる.フォーマットは「形態素:頻度」である.なお,途中で力尽きたため,全てを…

Senを呼び出すプログラムの書き方

Sen の API を利用したプログラムの実行は $ java -Dsen.home=${SEN_HOME} foo のように sen.home を指定してもよいが,もっと楽をするならば以下のいずれかのコードを書けばよい.[方法その1] プログラム内で環境変数 sen.home を定義する System.setPrope…

全角のアルファベット・数字を半角に変換する方法

http://www7a.biglobe.ne.jp/~java-master/samples/string/

初出

$ java Mainichi95 Exception in thread "main" java.lang.OutOfMemoryError: Java heap space at java.util.Arrays.copyOfRange(Arrays.java:3209) at java.lang.String.<init>(String.java:215) at java.io.BufferedReader.readLine(BufferedReader.java:331) at</init>…

idea for C.Hora

アイデア・メモ

ニュース〜分野:経済,国際,国内など〜の記事を形態素解析して,文内での語の共起を調べる.ここで共起する語の数は問わない(2, 3, 4 くらいか) 共起 co(t1, ..., tn) と為替・日経平均株価との関連をモデル化する.変動の上下を目的変数とするロジステ…

過去の日経平均株価の入手

日経平均プロフィールで得られる日次データは,指定した年月日の株価しか出ない. YAHOO! JAPAN ファイナンスでは,指定した期間の日次・週次・月次データが一挙に得られる.

過去の為替レートの入手

OANDA.com -- The currency Site から Historical Currency Exchange Rates を入手可能である.(ページの内容を詳しく読んでいないが)所望の 1995年の日・ドル為替も入手できた.なお,出力形式は HTML, ASCII, CSV から選べる(便利!).このデータと毎…

EDR日本語単語辞書を取り扱うクラス(本日,改良)

日本語単語辞書を取り扱うクラス EDRJapaneseWordDic において,対応する概念が複数存在する場合について以下の変更を加えた.与えられた単語に対応する概念が複数,存在する場合;例えば単語「梨」に対して「梨という植物」と「梨という植物の果実」の2つ…

文書間の分離度

保良さんからいただいた2つの文書集合(5文書/クラス)について,それらの分離度を測定した.これらの文書集合は,互いの性質(=記述内容)が異なっているはず・・・と目論んで,ネットから収集したものである. 各文書について正規化tf値を求める.ただ…

Ubuntu でユーザにルート権限を与える方法

sudo adduser username ・・・ユーザ username を登録 sudo adduser username admin ・・・ admin権限を付与する

ゆとりのある1日

講義がないと,こんなに幸せなものかと実感.しかし,後期は全ての曜日に少なくとも1つ講義が入っているんだよなぁ.以下は面白い数字について: #include <stdio.h> main() { int c = 142857, i; for(i = 1; i <=7; i++){ printf("%d * %d = %d\n", c, i, c*i); } }</stdio.h>

はてなブックマークで使用されたタグの分析

SBM

1044名のはてブ・ユーザについて,付与されているタグ文字列を IPA電子辞書と突き合わせた結果,71226個(厳密には種類数)のうち 60019個(84%)のタグ文字列が辞書に掲載されていなかった. もっとも形態素解析をしていないため,複合語や文になっている文…

重要段落の評価指標

各段落に含まれる単語の tf・idf値の合計・・・問題点:段落が長くなればそれに比例して大きくなる. 各段落に含まれる単語の tf・idf値の合計 / その段落に含まれる文の数・・・問題点:長い1文が含まれる場合,その段落の評価値が大きくなる. 各段落に含…

形態素解析システム sen における辞書への単語登録

以下は sen-1.2.2.1 を用いた場合の単語登録について述べている.バージョンによって build.xml の書式が異なるため,適時読み替えること.sen が利用する辞書は /usr/local/sen/dic/dic.csv である.このファイルの各行(レコード)は次のようになっている…