聚类分析用于将样本进行分类处理,通常是以定量数据作为分类标准;用户可自行设置聚类数量,如果不进行设置,系统会提供默认建议;通常情况下,建议用户设置聚类数量介于3~6个之间。以下进行说明。
聚类
1.准备工作
(1) 研究目的
聚类分析是根据事物本身的特性研究个体分类的方法,聚类分析的原则是同一类别的个体有较大相似性,不同类别的个体差异比较大。
(2) 数据类型
1)定量:数字有比较意义,比如数字越大代表满意度越高,量表为典型定量数据。
2)定类:数字无比较意义,比如性别,1代表男,2代表女。
PS:SPSSAU会根据数据类型自动选择聚类方法。
K-modes聚类:数据类型仅定类时。
2.上传数据到SPSSAU
登录账号后进入SPSSAU页面,点击右上角“上传数据”,将处理好的数据进行“点击上传文件”上传即可。
3.SPSSAU操作
(1)拖拽分析项
1) SPSSAU进阶方法→聚类。
SPSSAU仪表盘
2)检查
检查分析项是否都在左侧分析框中。
3)进行拖拽
(2)选择参数
聚类个数:聚类个数设置为几类主要以研究者的研究思路为标准,如果不进行设置,SPSSAU默认聚类个数为3,通常情况下,建议设置聚类数量介于3~6个之间。
标准化:聚类算法是根据距离进行判断类别,因此一般需要在聚类之前进行标准化处理,SPSSAU默认是选中进行标准化处理。数据标准化之后,数据的相对大小意义还在(比如数字越大GDP越高),但是实际意义消失了。
保存类别:分析选择保存‘保存类别’,SPSSAU会生成新标题用于标识,也可以右上角“我的数据”处查看到分析后的“聚类类别”。
新标题类似如下:Cluster_********。
4.SPSSAU分析
(1)聚类类别基本情况汇总分析
分析结果来源于SPSSAU
使用聚类分析对样本进行分类,使用Kmeans聚类分析方法,从上表可以看出:最终聚类得到4类群体,此4类群体的占比分别是20.00%, 30.00%, 20.00%, 30.00%。整体来看, 4类人群分布较为均匀,整体说明聚类效果较好。
SPSSAU分析建议
(2)聚类类别汇总图分析
上图可以直观的看到各个类别所占百分比,4类群体的占比分别是20.00%, 30.00%, 20.00%, 30.00%。
(3)聚类类别方差分析差异对比
分析结果来源于SPSSAU
使用方差分析去探索各个类别的差异特征,从上表可知:聚类类别群体对于所有研究项均呈现出显著性(p<0.05),意味着聚类分析得到的4类群体,他们在研究项上的特征具有明显的差异性,具体差异性可通过平均值进行对比,并且最终结合实际情况,对聚类类别进行命名处理。
(4)聚类项重要性对比
从上述结果看,所有研究项均呈现出显著性,说明不同类别之间的特征有明显的区别,聚类的效果较好。
(5)聚类中心
分析结果来源于SPSSAU
5.其它说明
(1)聚类中心是什么?
聚类中心是聚类类别的中心点情况,比如某类别时年龄对应的聚类中心为20,意味着该类别群体年龄基本在20岁左右。初始聚类中心基本无意义,它是聚类算法随机选择的聚类点,如果需要查看聚类中心情况,需要关注于最终聚类中心。实际分析时聚类中心的意义相对较小,其仅为聚类算法的计算值而已。
(2)k-prototype聚类是什么?
如果说聚类项中包括定类项,那么SPSSAU默认会进行K-prototype聚类算法(而不是kmeans算法)。定类数据不能通过数字大小直接分析距离,因而需要使用K-prototype聚类算法。
(3)聚类分析时SSE是什么意思?
在进行Kmeans聚类分析时SPSSAU默认输出误差平方和SSE值,该值可用于测量各点与中心点的距离情况,理论上是希望越小越好,而且如果同样的数据,聚类类别越多则SSE值会越小(但聚类类别过多则不便于分析)。
SSE指标可用于辅助判断聚类类别个数,建议在不同聚类类别数量情况下记录下SSE值,然后分析SSE值的减少幅度情况,如果发现比如从3个聚类到4个类别时SSE值减少幅度明显很大,那么此时选择4个聚类类别较好。
更多干货请登录SPSSAU官方网站查看。 |