データの特性と X-means on Weka の振る舞い

2次元,2個/クラスのサンプルを与えた場合

4クラスのデータを想定.
x-means のオプション設定は kMin=2, kMax=5.

データ:

1.0,1.0,label1
1.1,1.0,label1
4.0,1.0,label2
4.1,1.0,label2
1.0,4.0,label3
1.0,4.1,label3
4.0,4.0,label4
4.1,4.0,label4

結果は,2個のクラスタと認識.クラスあたりのサンプルが少ないため,クラス内分散が大きめに評価されたのか?

Cluster centers                 : 2 centers

Cluster 0
            3.033333333333333 3.016666666666667
Cluster 1
            1.05 1.0

Distortion: 3.874189
BIC-Value : -13.679484
Clustered Instances

0      6 ( 75%)
1      2 ( 25%)

2次元,3個/クラスのサンプルを与えた場合

4クラスのデータを想定.
x-means のオプション設定は kMin=2, kMax=5.

データ:

1.0,1.0,label1
1.1,1.0,label1
1.0,1.1,label1
4.0,1.0,label2
4.1,1.0,label2
4.1,1.1,label2
1.0,4.0,label3
1.0,4.1,label3
1.1,4.1,label3
4.0,4.0,label4
4.1,4.0,label4
4.1,4.1,label4

このデータの場合,4個のクラスタと認識.

Cluster centers                 : 4 centers

Cluster 0
            4.066666666666666 4.033333333333333
Cluster 1
            4.066666666666666 1.0333333333333334
Cluster 2
            1.0333333333333334 4.066666666666666
Cluster 3
            1.0333333333333334 1.0333333333333334

Distortion: 5.841547
BIC-Value : -8.862267
Clustered Instances

0       3 ( 25%)
1       3 ( 25%)
2       3 ( 25%)
3       3 ( 25%)

3次元,3個/クラスのサンプルを与えた場合

4クラスのデータを想定.
x-means のオプション設定は kMin=2, kMax=5.

データ:

1.0,1.0,1.0,label1
1.1,1.0,1.0,label1
1.0,1.1,1.0,label1
4.0,1.0,1.0,label2
4.1,1.0,1.0,label2
4.1,1.1,1.0,label2
1.0,4.0,4.0,label3
1.0,4.1,4.0,label3
1.1,4.1,4.0,label3
4.0,4.0,4.0,label4
4.1,4.0,4.0,label4
4.1,4.1,4.0,label4

このデータの場合,4個のクラスタと認識.低次元のためか,サンプル数の方が大切かな?

Cluster centers                 : 4 centers

Cluster 0
            4.066666666666666 4.033333333333333 4.0
Cluster 1
            1.0333333333333334 4.066666666666666 4.0
Cluster 2
            4.066666666666666 1.0333333333333334 1.0
Cluster 3
            1.0333333333333334 1.0333333333333334 1.0

Distortion: 5.873967
BIC-Value : -0.019638
Clustered Instances

0       3 ( 25%)
1       3 ( 25%)
2       3 ( 25%)
3       3 ( 25%)

ISOLET Data Set

多次元データに対する Weka の挙動を調べるための実験.

UCIレポジトリに置いてある ISOLET Data Set
UCI Machine Learning Repository: ISOLET Data Setのうち,isolet1+2+3+4.data を用いる.
26クラス,サンプル数 6238個,次元数 617.
x-means のオプション設定は kMin=2, kMax=30.

実行結果は以下のとおり.短時間で処理を終えたが,4クラスタと認識.

XMeans
======
Requested iterations            : 1
Iterations performed            : 1
Splits prepared                 : 2
Splits performed                : 2
Cutoff factor                   : 0.5
Percentage of splits accepted
by cutoff factor                : 0 %
------
Cutoff factor                   : 0.5
------

Cluster centers                 : 4 centers

Distortion: 30719.105928
BIC-Value : -2991366.038678
Clustered Instances

0      1352 ( 22%)
1      1394 ( 22%)
2      1568 ( 25%)
3      1924 ( 31%)