一、聚类模型

所谓聚类，就是将样本划分为由类似的对象组成多个类的过程。聚类后，可以更加准确在每个类中单独使用统计模型进行估计、分析或者预测；也可以探究不同类之间的相关性和主要差异。

聚类和分类的区别：分类是已知类别的，聚类的类别未知。

二、K-means聚类算法

以下步骤实际上只改变了K-means算法流程步骤的第2步。

指定需要划分的簇的个数K值（类的个数）；
随机选取一个样本作为第一个聚类中心
计算每个样本与当前已有聚类中心的最短距离（即与最近一个聚类中心的距离），这个值越大，表示被选取作为聚类中心的概率较大；最后，用轮盘法（根据概率大小来进行抽选）选出下一个聚类中心；
重复步骤二，直到选出K个聚类中心。选出K个初始聚类中心后，就继续使用标准的K-means算法了。
计算其余的各个数据对象到这K个初始聚类中心的距离，把数据对象划归到距离它最近的那个中心所处的簇类中；
调整新类并且重新计算出新类的中心；
循环步骤三和四，看中心是否收敛（不变），如果收敛或者达到迭代次数，则停止循环。

K-means++算法选择初始聚类中心的基本原则是：初始的聚类中心之间的相互距离要尽量远离。

导入数据 — 分析 — 分类 — K-均值聚类分析 — 右移自变量和个案标注依据（分类对象）— 填写聚类数（K）— 迭代 — 调整最大迭代次数 — 保存 — 勾选聚类成员、与聚类中心的距离 — 选项 — 勾选初始聚类中心、每个个案的聚类信息 — 确定

分几类取决于个人的经验和感觉，通常的做法是多尝试几个K值，看分成几类的结果更好解释，更符合分析目的等。

文章知识点与官方知识档案匹配，可进一步学习相关知识算法技能树首页概览34059 人正在系统学习中

来源：ICISTRUE

声明：本站部分文章及图片转载于互联网，内容版权归原作者所有，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！