2009-10-01から1ヶ月間の記事一覧

Conficker.worm

新型インフルエンザが心配な昨今,仕事で使う windows マシンが Conficker に感染した.原因は多分,複数の学生がUSBメモリを抜き差ししたため.駆除には相当な時間がかかりそう.頑張れ!windowsマシン.

予測もいいけど,困ったら最新のマニュアルを読め

既に日越えである.それはそれとして・・・ Java のオーバーライドについて.HashSetクラスを継承の上,contains()メソッドをオーバーライドしたいという要求が発生した.最初に書いたコードがこれ. public class AnySet<E> extends HashSet<E> { @Override publi</e></e>…

不要語リストの作成準備

毎日新聞記事データ(1面の記事のみ)を Sen にかけて単語(名詞のみ)の頻度を調べた.1文字からなる形態素は別として,2文字以上の形態素のうち不要語になりそうなものを挙げる.フォーマットは「形態素:頻度」である.なお,途中で力尽きたため,全てを…

Senを呼び出すプログラムの書き方

Sen の API を利用したプログラムの実行は $ java -Dsen.home=${SEN_HOME} foo のように sen.home を指定してもよいが,もっと楽をするならば以下のいずれかのコードを書けばよい.[方法その1] プログラム内で環境変数 sen.home を定義する System.setPrope…

全角のアルファベット・数字を半角に変換する方法

http://www7a.biglobe.ne.jp/~java-master/samples/string/

初出

$ java Mainichi95 Exception in thread "main" java.lang.OutOfMemoryError: Java heap space at java.util.Arrays.copyOfRange(Arrays.java:3209) at java.lang.String.<init>(String.java:215) at java.io.BufferedReader.readLine(BufferedReader.java:331) at</init>…

idea for C.Hora

アイデア・メモ

ニュース〜分野:経済,国際,国内など〜の記事を形態素解析して,文内での語の共起を調べる.ここで共起する語の数は問わない(2, 3, 4 くらいか) 共起 co(t1, ..., tn) と為替・日経平均株価との関連をモデル化する.変動の上下を目的変数とするロジステ…

過去の日経平均株価の入手

日経平均プロフィールで得られる日次データは,指定した年月日の株価しか出ない. YAHOO! JAPAN ファイナンスでは,指定した期間の日次・週次・月次データが一挙に得られる.

過去の為替レートの入手

OANDA.com -- The currency Site から Historical Currency Exchange Rates を入手可能である.(ページの内容を詳しく読んでいないが)所望の 1995年の日・ドル為替も入手できた.なお,出力形式は HTML, ASCII, CSV から選べる(便利!).このデータと毎…

EDR日本語単語辞書を取り扱うクラス(本日,改良)

日本語単語辞書を取り扱うクラス EDRJapaneseWordDic において,対応する概念が複数存在する場合について以下の変更を加えた.与えられた単語に対応する概念が複数,存在する場合;例えば単語「梨」に対して「梨という植物」と「梨という植物の果実」の2つ…

文書間の分離度

保良さんからいただいた2つの文書集合(5文書/クラス)について,それらの分離度を測定した.これらの文書集合は,互いの性質(=記述内容)が異なっているはず・・・と目論んで,ネットから収集したものである. 各文書について正規化tf値を求める.ただ…

Ubuntu でユーザにルート権限を与える方法

sudo adduser username ・・・ユーザ username を登録 sudo adduser username admin ・・・ admin権限を付与する

ゆとりのある1日

講義がないと,こんなに幸せなものかと実感.しかし,後期は全ての曜日に少なくとも1つ講義が入っているんだよなぁ.以下は面白い数字について: #include <stdio.h> main() { int c = 142857, i; for(i = 1; i <=7; i++){ printf("%d * %d = %d\n", c, i, c*i); } }</stdio.h>

はてなブックマークで使用されたタグの分析

SBM

1044名のはてブ・ユーザについて,付与されているタグ文字列を IPA電子辞書と突き合わせた結果,71226個(厳密には種類数)のうち 60019個(84%)のタグ文字列が辞書に掲載されていなかった. もっとも形態素解析をしていないため,複合語や文になっている文…

重要段落の評価指標

各段落に含まれる単語の tf・idf値の合計・・・問題点:段落が長くなればそれに比例して大きくなる. 各段落に含まれる単語の tf・idf値の合計 / その段落に含まれる文の数・・・問題点:長い1文が含まれる場合,その段落の評価値が大きくなる. 各段落に含…

形態素解析システム sen における辞書への単語登録

以下は sen-1.2.2.1 を用いた場合の単語登録について述べている.バージョンによって build.xml の書式が異なるため,適時読み替えること.sen が利用する辞書は /usr/local/sen/dic/dic.csv である.このファイルの各行(レコード)は次のようになっている…

重要段落の抽出

ひとつの文書の中から重要と思われる段落を抽出する作業を学生に任せている.段落を文書をとみなして tf.idf値を出してもらうと,その値がゼロとなるケースが生じた.ひとつの文書はあるテーマにそって述べつつ完結するから,特定の単語が全ての段落に出現す…

今日の成果

EDR電子辞書(日本語単語辞書,概念辞書)を用いて,与えられた単語の概念を得て,さらにその上位概念を再帰的に取得するプログラムを作った.(ディレクトリは EDRDictionary ・・・忘れないようにメモ)結果を眺めていると TRF → TRFという音楽グループ名 …

意味の多重性

EDR電子辞書:日本語単語辞書と概念辞書を利用してある単語の意味(概念)を引っ張ってくるわけだが,日本語単語辞書に問い合わせると複数の意味が結びついていることが分かった.当然のことだが,意味は一意に決まらない. 以下は単語「陰り」に対する概念…

PageRank に関する Google の公式見解

http://jp.blogherald.com/2009/10/16/google-pagerank-finally-demoted-but-remains-on-toolbar/

テクノラティジャパン サービス終了

下記のメールが届きました. 栄枯盛衰というやつでしょうか. 研究データとして利用できなくなりました. ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ テクノラティジャパン サービス終了のお知らせ ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 日頃はテクノラ…

オブジェクトをソートする方法

以下のページに ArrayList に格納したオブジェクトをソートする方法が書かれている。 予想通り Comparator を実装するわけね。http://www.kadoppe.net/2008/02/javaarraylist.htmlしかし、ソート対象のクラスの中に「大小比較を行うメソッド」があると理想的…

Ubuntu から Fedora の LVM へアクセスする方法

以下のページに全てのコマンド列が書かれている. (Fedora の LVM が特殊なため,面倒なステップを踏まないとならないみたい) Accessing a Fedora Logical Volume from Ubuntu

Ubuntu でのホスト名の変更

/etc/hostname の中身を書き換える.

Ubuntu でのユーザ登録

$ sudo adduser username

以前,作った web_collection.c を動かすための環境整備. ubuntuへのインストール:libxml2 と tidy $ sudo apt-get install libxml2-dev $ sudo apt-get install libtidy-dev

はてなブックマークを利用する際に出てくる「おすすめタグ」について

SBM

既にブックマークしたユーザが付与したタグが「おすすめタグ」として提示されるのが基本で,2009-09-28以降は閲覧している(これからブックマークしようとしている)ページの本文情報に基づいて「おすすめタグ」を提示するようだ. http://hatena.g.hatena.n…