登录
首页精彩阅读聚类分析中分类数的确定问题
聚类分析中分类数的确定问题
2018-06-05
收藏

聚类分析中分类数的确定问题

聚类的目的是为了分类,但到底分多少类合适呢?迄今为止它上没有得到完全解决。

Demirmen曾提出根据树状结构图来分类的准则:

1.任何类都必须在临近类中是突出的

2.各类所包含的元素不应过多

3.分类数应该符合使用目的

4.采用集中聚类法,聚类图上应发现相同的类

这些准则是对分类数的探索之一。SAS软件中作聚类分析,可以控制CCC,PSEUDO选项,这两组选项对分类数的确定有一定的参考意义。CCC在高惠璇编著的STAT使用手册中译作立方聚类标准,它与R和半偏R统计量相关。值得注意的是,它的计算需要方差矩阵存在特征值,它不用在SINGLE聚类方法中。PSEUDO选项可以得到伪的F统计量和t统计量,分别反映当前水平下所有类分离程度和最近合并的两个类间的分离程度。该选项用在数据是坐标型的(等同的),或者是用在聚类方法为AVERAGE,CENTROID,WARD时。

通常会认为CCC的值大于2或3反映聚类的好,伪F统计量较大显示聚类,伪t统计量提示分类结点的选择。

看看STAT文档中的例子“Cluster Analysis of Fisher’s Iris Data”:

.........................

proc cluster data=iris method=ward print=15ccc pseudo;
var petal: sepal:;
copy species;
run;
proc tree noprintncl=3out=out;
copy petal: sepal: species;
run;

...................................

 

结果如下图:

 


数据分析咨询请扫描二维码

客服在线
立即咨询