データの特性と X-means on Weka の振る舞い
2次元,2個/クラスのサンプルを与えた場合
4クラスのデータを想定.
x-means のオプション設定は kMin=2, kMax=5.
データ:
1.0,1.0,label1 1.1,1.0,label1 4.0,1.0,label2 4.1,1.0,label2 1.0,4.0,label3 1.0,4.1,label3 4.0,4.0,label4 4.1,4.0,label4
結果は,2個のクラスタと認識.クラスあたりのサンプルが少ないため,クラス内分散が大きめに評価されたのか?
Cluster centers : 2 centers Cluster 0 3.033333333333333 3.016666666666667 Cluster 1 1.05 1.0 Distortion: 3.874189 BIC-Value : -13.679484 Clustered Instances 0 6 ( 75%) 1 2 ( 25%)
2次元,3個/クラスのサンプルを与えた場合
4クラスのデータを想定.
x-means のオプション設定は kMin=2, kMax=5.
データ:
1.0,1.0,label1 1.1,1.0,label1 1.0,1.1,label1 4.0,1.0,label2 4.1,1.0,label2 4.1,1.1,label2 1.0,4.0,label3 1.0,4.1,label3 1.1,4.1,label3 4.0,4.0,label4 4.1,4.0,label4 4.1,4.1,label4
このデータの場合,4個のクラスタと認識.
Cluster centers : 4 centers Cluster 0 4.066666666666666 4.033333333333333 Cluster 1 4.066666666666666 1.0333333333333334 Cluster 2 1.0333333333333334 4.066666666666666 Cluster 3 1.0333333333333334 1.0333333333333334 Distortion: 5.841547 BIC-Value : -8.862267 Clustered Instances 0 3 ( 25%) 1 3 ( 25%) 2 3 ( 25%) 3 3 ( 25%)
3次元,3個/クラスのサンプルを与えた場合
4クラスのデータを想定.
x-means のオプション設定は kMin=2, kMax=5.
データ:
1.0,1.0,1.0,label1 1.1,1.0,1.0,label1 1.0,1.1,1.0,label1 4.0,1.0,1.0,label2 4.1,1.0,1.0,label2 4.1,1.1,1.0,label2 1.0,4.0,4.0,label3 1.0,4.1,4.0,label3 1.1,4.1,4.0,label3 4.0,4.0,4.0,label4 4.1,4.0,4.0,label4 4.1,4.1,4.0,label4
このデータの場合,4個のクラスタと認識.低次元のためか,サンプル数の方が大切かな?
Cluster centers : 4 centers Cluster 0 4.066666666666666 4.033333333333333 4.0 Cluster 1 1.0333333333333334 4.066666666666666 4.0 Cluster 2 4.066666666666666 1.0333333333333334 1.0 Cluster 3 1.0333333333333334 1.0333333333333334 1.0 Distortion: 5.873967 BIC-Value : -0.019638 Clustered Instances 0 3 ( 25%) 1 3 ( 25%) 2 3 ( 25%) 3 3 ( 25%)
ISOLET Data Set
多次元データに対する Weka の挙動を調べるための実験.
UCIレポジトリに置いてある ISOLET Data Set
UCI Machine Learning Repository: ISOLET Data Setのうち,isolet1+2+3+4.data を用いる.
26クラス,サンプル数 6238個,次元数 617.
x-means のオプション設定は kMin=2, kMax=30.
実行結果は以下のとおり.短時間で処理を終えたが,4クラスタと認識.
XMeans ====== Requested iterations : 1 Iterations performed : 1 Splits prepared : 2 Splits performed : 2 Cutoff factor : 0.5 Percentage of splits accepted by cutoff factor : 0 % ------ Cutoff factor : 0.5 ------ Cluster centers : 4 centers Distortion: 30719.105928 BIC-Value : -2991366.038678 Clustered Instances 0 1352 ( 22%) 1 1394 ( 22%) 2 1568 ( 25%) 3 1924 ( 31%)