第14章 聚类分析与判别分析.ppt
《第14章 聚类分析与判别分析.ppt》由会员分享,可在线阅读,更多相关《第14章 聚类分析与判别分析.ppt(83页珍藏版)》请在麦多课文档分享上搜索。
1、第14章 聚类分析与判别分析,介绍: 1、聚类分析2、判别分析分类学是人类认识世界的基础科学。聚类分析和判别分析是研究事物分类的基本方法,广泛地应用于自然科学、社会科学、工农业生产的各个领域。,14.1.1 聚类分析,根据事物本身的特性研究个体分类的方法,原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。 根据分类对象的不同,分为样品(观测量)聚类和变量聚类两种: 样品聚类:对观测量(Case)进行聚类(不同的目的选用不同的指标作为分类的依据,如选拔运动员与分课外活动小组) 变量聚类:找出彼此独立且有代表性的自变量,而又不丢失大部分信息。在生产活动中不乏有变量聚类的实例,如:衣服号码
2、(身长、胸围、裤长、腰围)、鞋的号码。变量聚类使批量生产成为可能。,14.1.2 判别分析,判别分析是根据表明事物特点的变量值和它们所属的类,求出判别函数。根据判别函数对未知所属类别的事物进行分类的一种分析方法。 在自然科学和社会科学的各个领域经常遇到需要对某个个体属于哪一类进行判断。如动物学家对动物如何分类的研究和某个动物属于哪一类、目、纲的判断。 不同:判别分析和聚类分析不同的在于判别分析要求已知一系列反映事物特征的数值变量的值,并且已知各个体的分类(训练样本)。,14.1.3 聚类分析与判别分析的SPSS过程,在AnalyzeClassify下: K-Means Cluster: 观测量
3、快速聚类分析过程 Hierarchical Cluster:分层聚类(进行观测量聚类和变量聚类的过程 Discriminant:进行判别分析的过程,14.2 快速样本聚类过程(Quick Cluster),使用 k 均值分类法对观测量进行聚类 可使用系统的默认选项或自己设置选项,如分为几类、指定初始类中心、是否将聚类结果或中间数据数据存入数据文件等。 快速聚类实例(P342,data14-01a):使用系统的默认值进行:对运动员的分类(分为4类) AnalyzeClassifyK-Means Cluster Variables: x1,x2,x3 Label Case By: no Numbe
4、r of Cluster: 4 比较有用的结果:聚类结果形成的最后四类中心点(Final Cluster Centers) 和每类的观测量数目(Number of Cases in each Cluster) 但不知每个运动员究竟属于哪一类?这就要用到Save选项,14.2 快速样本聚类过程(Quick Cluster)中的选项,使用快速聚类的选择项: 类中心数据的输入与输出:Centers选项 输出数据选择项:Save选项 聚类方法选择项:Method选项 聚类何时停止选择项:Iterate选项 输出统计量选择项:Option选项,14.2 指定初始类中心的聚类方法例题P343,数据同上(d
5、ata14-01a):以四个四类成绩突出者的数据为初始聚类中心(种子)进行聚类。类中心数据文件data14-01b(但缺一列Cluster_,不能直接使用,要修改)。对运动员的分类(还是分为4类) AnalyzeClassifyK-Means Cluster Variables: x1,x2,x3 Label Case By: no Number of Cluster: 4 Center: Read initial from: data14-01b Save: Cluster membership和Distance from Cluster Center 比较有用的结果(可将结果与前面没有初始
6、类中心比较): 聚类结果形成的最后四类中心点(Final Cluster Centers) 每类的观测量数目(Number of Cases in each Cluster) 在数据文件中的两个新变量qc1_1(每个观测量最终被分配到哪一类)和 qc1_2(观测量与所属类中心点的距离),14.3 分层聚类(Hierarchical Cluster),分层聚类方法: 分解法:先视为一大类,再分成几类 凝聚法:先视每个为一类,再合并为几大类 可用于观测量(样本)聚类(Q型)和变量聚类(R型) 一般分为两步(自动,可从Paste的语句知道,P359): Proximities:先对数据进行的预处理(
7、标准化和计算距离等) Cluster:然后进行聚类分析 两种统计图:树形图(Dendrogram)和冰柱图(Icicle) 各类型数据的标准化、距离和相似性计算P348-354 定距变量、分类变量、二值变量 标准化方法p353:Z Scores、Range -1 to 1、 Range 0 to 1等,14.3.4 用分层聚类法进行观测量聚类实例P358,对20种啤酒进行分类(data14-02),变量包括:Beername(啤酒名称)、calorie(热量)、sodium(钠含量)、alcohol(酒精含量)、 cost(价格) AnalyzeClassify Hierarchical Cl
8、uster: Variables: calorie,sodium,alcohol, cost 成分和价格 Label Case By: Beername Cluster:Case, Q聚类 Display: 选中Statistics,单击Statistics Agglomeration Schedule 凝聚状态表 Proximity matrix:距离矩阵 Cluster membership:Single solution:4 显示分为4类时,各观测量所属的类 Method: Cluster (Furthest Neighbor), Measure-Interval (Squared Eu
9、clidean distance), Transform Value (Range 0-1/By variable (值-最小值)/极差) Plots: (Dendrogram) Icicle(Specified range of cluster, Start-1,Stop-4, by-1), Orientation (Vertical纵向作图) Save: Cluster Membership(Single solution 4) 比较有用的结果:根据需要进行分类,在数据文件中的分类新变量clu4_1等,14.3.5 用分层聚类法进行变量聚类,变量聚类,是一种降维的方法,用于在变量众多时寻找
10、有代表性的变量,以便在用少量、有代表性的变量代替大变量集时,损失信息很少。 与进行观测量聚类雷同,不同点在于: 选择Variable而非Case Save选项失效,不建立的新变量,14.3.6 变量聚类实例1 P366,上面啤酒分类问题data14-02。 AnalyzeClassify Hierarchical Cluster: Variables: calorie,sodium,alcohol, cost 成分和价格 Cluster:Variable, R聚类 Method: Cluster Method :Furthest Neighbor Measure-Interval:Pearso
11、n Correlation Transform Values:Z Score (By Variable) Plots: Dendrogram 树型图 Statistics:Proximity matrix:相关矩阵 比较有用的结果:根据相关矩阵和树型图,可知calorie(热量)和alcohol(酒精含量)的相关系数最大,首先聚为一类。从整体上看,聚为三类是比较好的结果。至于热量和酒精含量选择哪个作为典型指标代替原来的两个变量,可以根据专业知识或测度的难易程度决定。,14.3.6 变量聚类实例2 P368,有10个测试项目,分别用变量X1-X10表示,50名学生参加测试。想从10个变量中选择几
12、个典型指标。data14-03 AnalyzeClassify Hierarchical Cluster: Variables: X1-X10 Cluster:Variable, R聚类 Method: Cluster Method :Furthest Neighbor Measure-Interval:Pearson Correlation Plots: Dendrogram 树型图 Statistics:Proximity matrix相关矩阵 比较有用的结果:可以从树型图中看出聚类过程。具体聚为几类最为合理,根据专业知识来定。而每类中的典型指标的选择,可用p370的相关指数公式的计算,然
13、后比较类中各个变量间的相关指数,哪个大,就选哪个变量作为此类的代表变量。,14.4 判别分析P374,判别分析的概念:是根据观测到的若干变量值,判断研究对象如何分类的方法。 要先建立判别函数 Y=a1x1+a2x2+.anxn,其中:Y为判别分数(判别值),x1 x2.xn为反映研究对象特征的变量,a1 a2.an为系数 SPSS对于分为m类的研究对象,建立m个线性判别函数。对于每个个体进行判别时,把观测量的各变量值代入判别函数,得出判别分数,从而确定该个体属于哪一类,或计算属于各类的概率,从而判别该个体属于哪一类。还建立标准化和未标准化的典则判别函数。 具体见下面吴喜之教授有关判别分析的讲义
14、,补充:聚类分析与判别分析,以下的讲义是吴喜之教授有关聚类分析与判别分析的讲义,我觉得比书上讲得清楚。 先是聚类分析一章 再是判别分析一章,聚类分析,分类,俗语说,物以类聚、人以群分。 但什么是分类的根据呢? 比如,要想把中国的县分成若干类,就有很多种分类法; 可以按照自然条件来分, 比如考虑降水、土地、日照、湿度等各方面; 也可以考虑收入、教育水准、医疗条件、基础设施等指标; 既可以用某一项来分类,也可以同时考虑多项指标来分类。,聚类分析,对于一个数据,人们既可以对变量(指标)进行分类(相当于对数据中的列分类),也可以对观测值(事件,样品)来分类(相当于对数据中的行分类)。 比如学生成绩数据
15、就可以对学生按照理科或文科成绩(或者综合考虑各科成绩)分类, 当然,并不一定事先假定有多少类,完全可以按照数据本身的规律来分类。 本章要介绍的分类的方法称为聚类分析(cluster analysis)。对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。这两种聚类在数学上是对称的,没有什么不同。,饮料数据(drink.sav ),16种饮料的热量、咖啡因、钠及价格四种变量,如何度量远近?,如果想要对100个学生进行分类,如果仅仅知道他们的数学成绩,则只好按照数学成绩来分类;这些成绩在直线上形成100个点。这样就可以把接近的点放到一类。 如果还知道他们的物理成绩,这样数学和物理成绩就形成二维平
16、面上的100个点,也可以按照距离远近来分类。 三维或者更高维的情况也是类似;只不过三维以上的图形无法直观地画出来而已。在饮料数据中,每种饮料都有四个变量值。这就是四维空间点的问题了。,两个距离概念,按照远近程度来聚类需要明确两个概念:一个是点和点之间的距离,一个是类和类之间的距离。 点间距离有很多定义方式。最简单的是歐氏距离,还有其他的距离。 当然还有一些和距离相反但起同样作用的概念,比如相似性等,两点越相似度越大,就相当于距离越短。 由一个点组成的类是最基本的类;如果每一类都由一个点组成,那么点间的距离就是类间距离。但是如果某一类包含不止一个点,那么就要确定类间距离, 类间距离是基于点间距离
17、定义的:比如两类之间最近点之间的距离可以作为这两类之间的距离,也可以用两类中最远点之间的距离作为这两类之间的距离;当然也可以用各类的中心之间的距离来作为类间距离。在计算时,各种点间距离和类间距离的选择是通过统计软件的选项实现的。不同的选择的结果会不同,但一般不会差太多。,向量x=(x1, xp)与y=(y1, yp)之间的距离或相似系数:,欧氏距离: Euclidean,平方欧氏距离: Squared Euclidean,夹角余弦(相似系数1) : cosine,Pearson correlation (相似系数2):,Chebychev: Maxi|xi-yi|,Block(绝对距离): S
18、i|xi-yi|,Minkowski:,当变量的测量值相差悬殊时,要先进行标准化. 如R为极差, s 为标准差, 则标准化的数据为每个观测值减去均值后再除以R或s. 当观测值大于0时, 有人采用Lance和Williams的距离,类Gp与类Gq之间的距离Dpq (d(xi,xj)表示点xi Gp和xj Gq之间的距离),最短距离法:,最长距离法:,重心法:,离差平方和: (Wald),类平均法:,(中间距离, 可变平均法,可变法等可参考各书). 在用欧氏距离时, 有统一的递推公式 (假设Gr是从Gp和Gq合并而来):,Lance和Williams给出(对欧氏距离)统一递推公式: D2(k,r)
19、=apD2(k,p)+aqD2(k,q)+bD2(p,q) +g|D2(k,p)-D2(k,q)| 前面方法的递推公式可选择参数而得: 方法 ai (i=p,q) b g 最短距离 0 -1/2 最长距离 0 1/2 重心 ni/nr -apaq 0 类平均 ni/nr 0 0 离差平方和(ni+nk)/ (nr+nk) -nk/ (nr+nk) 0 中间距离 1/2 -1/4 0 可变法 (1-b)/2 b(1) 0 可变平均 (1- b) ni/nr b(1) 0,有了上面的点间距离和类间距离的概念,就可以介绍聚类的方法了。这里介绍两个简单的方法。,事先要确定分多少类:k-均值聚类,前面说
20、过,聚类可以走着瞧,不一定事先确定有多少类;但是这里的k-均值聚类(k-means cluster,也叫快速聚类,quick cluster)却要求你先说好要分多少类。看起来有些主观,是吧! 假定你说分3类,这个方法还进一步要求你事先确定3个点为“聚类种子”(SPSS软件自动为你选种子);也就是说,把这3个点作为三类中每一类的基石。 然后,根据和这三个点的距离远近,把所有点分成三类。再把这三类的中心(均值)作为新的基石或种子(原来的“种子”就没用了),重新按照距离分类。 如此叠代下去,直到达到停止叠代的要求(比如,各类最后变化不大了,或者叠代次数太多了)。显然,前面的聚类种子的选择并不必太认真
21、,它们很可能最后还会分到同一类中呢。下面用饮料例的数据来做k-均值聚类。,假定要把这16种饮料分成3类。利用SPSS,只叠代了三次就达到目标了(计算机选的种子还可以)。这样就可以得到最后的三类的中心以及每类有多少点,根据需要,可以输出哪些点分在一起。结果是:第一类为饮料1、10;第二类为饮料2、4、8、11、12、13、14;第三类为剩下的饮料3、5、6、7、9、15、16。,SPSS实现(聚类分析),K-均值聚类 以数据drink.sav为例,在SPSS中选择AnalyzeClassifyK-Menas Cluster, 然后把calorie(热量)、caffeine(咖啡因)、sodium
22、(钠)、price(价格)选入Variables, 在Number of Clusters处选择3(想要分的类数), 如果想要知道哪种饮料分到哪类,则选Save,再选Cluster Membership等。 注意k-均值聚类只能做Q型聚类,如要做R型聚类,需要把数据阵进行转置。,事先不用确定分多少类:分层聚类,另一种聚类称为分层聚类或系统聚类(hierarchical cluster)。开始时,有多少点就是多少类。 它第一步先把最近的两类(点)合并成一类,然后再把剩下的最近的两类合并成一类; 这样下去,每次都少一类,直到最后只有一大类为止。显然,越是后来合并的类,距离就越远。再对饮料例子来实施
23、分层聚类。,对于我们的数据,SPSS输出的树型图为,聚类要注意的问题,聚类结果主要受所选择的变量影响。如果去掉一些变量,或者增加一些变量,结果会很不同。 相比之下,聚类方法的选择则不那么重要了。因此,聚类之前一定要目标明确。 另外就分成多少类来说,也要有道理。只要你高兴,从分层聚类的计算机结果可以得到任何可能数量的类。但是,聚类的目的是要使各类距离尽可能的远,而类中点的距离尽可能的近,而且分类结果还要有令人信服的解释。这一点就不是数学可以解决的了。,SPSS实现(聚类分析),分层聚类 对drink.sav数据在SPSS中选择AnalyzeClassifyHierarchical Cluster
24、, 然后把calorie(热量)、caffeine(咖啡因)、sodium(钠)、price(价格)选入Variables, 在Cluster选Cases(这是Q型聚类:对观测值聚类),如果要对变量聚类(R型聚类)则选Variables, 为了画出树状图,选Plots,再点Dendrogram等。,啤酒成分和价格数据(data14-02),啤酒名 热量 钠含量 酒精 价格 Budweiser 144.00 19.00 4.70 .43 Schlitz 181.00 19.00 4.90 .43 Ionenbrau 157.00 15.00 4.90 .48 Kronensourc 170.00
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
2000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 14 聚类分析 判别分析 PPT
