2010-01-01から1年間の記事一覧

JGAP

Java Genetic Algorithm Package "JGAP" http://jgap.sourceforge.net/ を用いて,Rastrign 関数の最適化を試みるプログラム. import java.io.*; import org.jgap.*; import org.jgap.impl.DoubleGene; import org.jgap.impl.DefaultConfiguration; public …

最近のCPU負荷

半端ないくらい,CPUが働いている.自分もこれ位,働かねば.

Ubuntu 10.10 Desktop on Dell Inspiron Mini 1210 の設定

無線LANが遅い問題への対策 無線LANインタフェースは次のように見えている。 $ iwconfig lo no wireless extensions. eth0 no wireless extensions. eth1 IEEE 802.11 Access Point: Not-Associated Link Quality:5 Signal level:215 Noise level:170 Rx inv…

Dell Inspiron Mini 1210 への Ubuntu 10.10 Desktop のインストール

Ubuntu のインストール Ubuntu 10.10 Desktop 日本語 Remix CD を落としてきて,CD-R に焼く。 マシンを CD/DVD からブートするように設定してインストールを開始すると,最初に b43-phy0 ERROR: Firmware file "b43/ucode15.fw" not found. というメッセー…

宇部まつり(2010.11.07)

天気も曇りと晴れを行ったりきたりで,なんとかもってくれた。 自分達の担当ブースは,写真のように,行列ができてしまった。 整理券を配布する等,工夫が必要というのが,今回の反省点。

何も見えてこない・・・

crawler4j

http://code.google.com/p/crawler4j/ に掲載されているサンプルプログラムの動かし方: (真面目に調べる余裕がないから,とりあえずのメモ) javac -cp crawler4j-2.2.jar:lib/*.jar:. Controller.java java -cp crawler4j-2.2.jar:lib/commons-codec-1.4.…

中間発表の打ち上げ

10月27日に行われた卒研中間発表の打ち上げ風景.いや,風景でなく,これから皆の胃袋に収まる食材の皆様. (AFを効かせなかったからボケた)

tanimoto係数

tanimoto係数は集合間の類似度を測る指標である.定義はhttp://nlp.nagaokaut.ac.jp/tanimoto%E4%BF%82%E6%95%B0 なんかを見て下さい. 以下は tanimoto 係数を求めるプログラム. // tanimoto係数(実数版) import java.io.*; import java.util.Map; impor…

SBMで利用されているタグの使用頻度に関する基礎調査

1215個のURL(ブックマーク)に付与されたタグを,その出現頻度の降順に並べた場合の top 30 を以下に示す. あとで読む:753 Web:733 *あとで読む:605 JavaScript:401 webデザイン:399 web制作:395 webサービス:363 まとめ:361 これはすごい:357 ネタ:351 de…

「あとで読む」との共起

はてなブックマークにて各URLに付与されたタグの分析. 同一のURLに付与されたタグの対を「共起する」と定義し,その頻度を調べた結果が以下のとおり. 各タグの出現頻度を分母に持ってくる自己相互情報量などを使わないと,特性を見出せないだろう. あとで…

取得したWebページをディスクへ保存

archive という名前が恥ずかしいけれど,他に思いつかず,つい・・ import java.io.*; import web.WebPage; public class WebArchive { // 指定された URL のコンテンツを取得し,ファイルに保存する // prefix : 保存する際のディレクトリの前置文字列 // …

Content-Type の取得

import java.io.*; import java.net.*; public class tmp { public static void main(String[] args){ try { //String url = "http://d.hatena.ne.jp/hmwr_k/20090110/1231563213"; String url = "http://www.nara-tokusan.com/flash/top.swf"; URI uri = ne…

Weka を用いたクラスタリング

k-means法により Iris データをクラスタリングした. import java.io.*; import weka.core.*; import weka.clusterers.*; import weka.filters.*; import weka.filters.unsupervised.attribute.Remove; public class WekaClustering { public static void ma…

WEKA

WEKA のページ (http://www.cs.waikato.ac.nz/ml/weka/)中の Download から "Other platforms (Linux etc.)"用の weka-3-6-3.zip をダウンロード.ただし,張られているリンク先は weka-3-6-2.zip のため,http://prdownloads.sourceforge.net/weka/weka-3-6…

2つの集合(java.util.set)の比較

各集合に含まれる要素の一致を調べるには equals メソッドを用いる。 import java.io.*; import java.util.HashSet; public class set { public static void main(String[] args){ HashSet<String> a = new HashSet<String>(); HashSet<String> b = new HashSet<String>(); HashSet<String> c = new H</string></string></string></string></string>…

長い URL に DB 撃沈

データベースへの登録データ数が 7,000件を越え,順調〜と構えていたら,次の長い長いURLにぶつかり,あえなく撃沈. http://www.geocities.co.jp/Technopolis/8931/index15.html#%E3%83%BB%E7%8E%8B%E6%A7%98%E3%81%AE%E9%A3%B2%E3%81%BF%E5%B1%8B%E3%81%95…

文字列中のシングルクォートとSQL文

タグ文字列にシングルクォートが含まれるため,MySQL に怒られる select文の例. (逃げる訳にいかないから)予め文字列をスキャンして,シングルクォートをエスケープさせるように,プログラムを作り替えよう. select * from tag_table where (tag)=('e'tu…

文字列がURLエンコーディングされているかの判定

URLの一部(ホスト部)が「URL エンコーディングされているか否かを予め判定したい」という要求が生じたため,下記のように正規表現を用いて判定を行った.ルールは「URLエンコードされた結果は "%xy" が繰り返される.ここで x,y は16進数」とした(ただし…

ネットからコンテンツを取ってきて,juniversalchardet で文字コード判定

import java.io.*; import java.net.URL; import java.util.ArrayList; import org.mozilla.universalchardet.UniversalDetector; public class test{ public static void main(String args[]){ UniversalDetector detector = new UniversalDetector(null); …

URLのパス名から導出されたハッシュ値の分布

パスの先頭文字では駄目だと分かったから,次はハッシュ値を使ってみた. と言っても,ハッシュ関数は「パスを構成する文字の文字コードの和 % 10」という単純なもの.上記と同じく,約30万件のデータを分析した結果を以下に示す. フォーマットは「ハッシュ…

URLのパス名における先頭文字の分布

URL のパス部分,例えば "http://www.host.com/foo/bar.html" のうち "foo/bar" の部分について,その先頭文字(ここでは 'f')の分布を調べた. (注)厳密なパス名には先頭のスラッシュが含まれており,"/foo/bar.html" が正しいが,話を簡単にするため「…

はてなブックマークの時刻形式を MySQL の DATETIME 形式へ変換

// はてなブックマークの時刻形式 "2010-02-01T15:20:57+09:00" を // MySQL の DATETIME 形式 "2010-02-01 15:20:57" に変換 static String hatenaDate2mysqlDate(String hatenaDate){ int pLoc = hatenaDate.indexOf('+'); // '+'位置の検出 String s1 = h…

URLクラスの利用

import java.io.*; import java.net.URL; public class url { public static void main(String[] args){ String s = "http://search.yahoo.co.jp/search?p=pattern&aq=-1&oq=&ei=UTF-8&fr=top_ga1_sa&x=wrt"; try { URL url = new URL(s); System.out.printl…

HTTPステータスを得る.

import java.io.*; import java.net.*; public class tmp { public static void main(String[] args){ try { URI uri = new URI("http://d.hatena.ne.jp/hmwr_k/20090110/1231563213"); HttpURLConnection connection = (HttpURLConnection)uri.toURL().open…

タグの書き方にもいろいろある.

上記のように "Webサービス" という形でひとつの単語(用語?)を指定するのが一般的かと思っていたが,自らカンマを挟んで "名古屋,集客,セミナー" と書くユーザも存在する. また,",国際問題" のように先頭にカンマを入れるケースも発見.先頭に "*" を付…

はてなブックマークユーザの使用するタグの頻度

約19,000名のはてなブックマークユーザのデータを取得し,彼らが使用しているタグの頻度を調べた. 用いられているタグの種類数は 212,762個. 調査結果を定性的に見る限り,偏りがある感じ(情報分野に関心をもつ方が多いようだ).youtube をブックマーク…

ディレクトリ配下の全てのファイル名(パス名)を得る

import java.io.File; public class test { public static void main(String[] args){ // ディレクトリ TEST 配下の全てのファイル名(パス名)を得る File[] fileList = (new File("TEST")).listFiles(); for(int i = 0; i < fileList.length; i++){ System…

就職活動支援

昨日,内々定をいただいた学生が1名.内定率は85%.未定者数は5名.しかし,先が見えない.

卒業生からいただいカープ・クッキー

卒業生(正確には修了生)のFさん.広島および関西での新人研修を終え,配属が山口になったそうで,アポなしで挨拶に来られた.トレーナーが本学科出身のKさんだそうで,気が強いところが共通点.馬が合うのか,はたまた喧嘩してしまうのか? 次の機会に是非…