SPSS Modeler决策树算法比较

SPSS Modeler包含了多种决策树算法,包括C5.0、CHAIN、QUEST、C&R和决策列表,他们都可以通过构建树来生成分类规则。那么他们在使用过程中到底有些什么样的区别呢?

SPSS

决策树分类算法虽然看上去是一种简单的分类技术,但是其在机器学习的领域当中却是使用得非常的广泛。决策树的原理非常简单,正如名字所描述的,决策树最后的得出结果就是一棵树,如下图所示:

SPSS

SPSS Modeler包含了多种决策树算法,包括C5.0、CHAIN、QUEST、C&R和决策列表,他们都可以通过构建树来生成分类规则。那么他们在使用过程中到底有些什么样的区别呢们从以下几点开始比较:

1.在做分类模型的时候,我们需要告诉它,我的输出目标(分类目标)是什么,比如在客户流失分析中,目标就是客户是流失还是不流失,那么是否流失这个指标就是我的目标,我要通过给它输入的影响因素,让它去学习,到底什么样的条件下,客户是流失的,什么样的条件下,客户是不流失的,因此,首先我们看下,这些算法中,在输出目标类型的选择是否有所区分/p>

输出目标类型一般分为两种,一种是字符型的,一种是连续数值型的。C5.0、QUEST和决策列表只支持目标类型是字符型的,而C&R和CHAIN既支持字符型,也支持数值型。因此,所有这五类算法都可以用来创建信用卡风险模型,因为它的输出目标就是有风险或者是无风险,但是只有C&R和CHAIN可以用来创建模型预测下一年客户花费的金额会是多少。

2.前面讲的是输出目标的类型,而第二点要比较的,是输出目标的拆分类型,拆分类型有两种,一种是二元(就是只分为两类),另一种相对应来说就是多元(三类及以上),那在这5个算法中,C&R和QUEST中支持二元分类,而CHAIN、C5.0和决策列表不管输出目标拆分为多少组,都支持。

3.在构建决策树的过程中,最核心的内容就是如何对树进行分支,这涉及到一个问题,就是决定它分支节点选择的标准是什么,那么以上五种算法各自标准都不一样。C5.0使用的标准是信息度量(Information gain ratio);C&R使用的是离差度量(Dispersion measure);CHAIN使用的是卡方检验(Chi-square test);QUEST针对输入指标是分类型的,使用卡方检验(Chi-square test),对输入指标是数值型的,使用方差分析(Analysis of variance,简称ANOVA); 决策列表使用统计置信度(Statistical confidence)。那么这里每个标准都有自己的计算公式,这在基本的统计方面的书或者百度上都有很详细的介绍,大家有兴趣可以找相关的资料看看,这里就不具体介绍。由于各个算法使用的标准不同,因此生成的模型及其预测结果也会有所差异。

4.在做数据挖掘分析的时候,很多时候是需要结合业务经验来更好地构建数据挖掘模型,在应用决策树的时候,有些算法是可以跟分析人员互动,而不是完全依赖自身标准来生长树的,比如说CHAIN、QUEST和C&R这三类决策树,在SPSS Modeler节点上,可以选择直接生成模型,或者是启动交互对话的,如果是启动交互对话,那么你就可以选择你从业务经验上认为是重要因素的指标作为生长节点,默认会自动计算分割条件,或者你也可以自定义分割条件;决策列表也可以启动交互对话,来自定义规则;而C5.0则没有交互模式。

5. 在使用这些算法时,你可能会注意到, SPSS Modeler上,CHAIN、QUEST、C&R的设置面板上都有选项让你选择是否需要Bagging选项,使用Bagging技术,那么每轮的训练集由从初始的训练集中随机取出的n个训练倒组成,初始训练例在某轮训练集中可以出现多次或根本不出现训练之后可得到一个预测函数序列, 最终的预测函数对分类问题采用投票方式得到最终结果 。这样可以很好地提高学习算法准确度,C5.0和决策列表则没有Bagging选项。

6.与Bagging技术类似,还有另外一种技术是Boosting, 在SPSS Modeler上,C5.0、CHAIN、QUEST、C&R这些算法的设置面板上都有选项让你选择是否需要Boosting(即提升技术),Boosting技术就是通过不断迭代来产生分类器组合的算法,在每次迭代的过程中,Boosting在训练样本总集进行放回抽样构建一个新的训练集,并且每一次迭代都会自适应地改变训练样本的分布,以此使得接下来新产生的基分类器把“重点”放在那些错分的样本上,就这样通过多次迭代,就能够产生多个基分类器,最后通过对每个分类器的预测结果进行加权预测,以此得到组合分类器的目的,这一技术可以很好地增加模型准确度,当然,它的计算量也会是原来的n倍(n就是Boosting的成分模型数量),时间也会更长些。C5.0和决策列表就没有Boosting这个选项了。

介绍了这么多差别,给大家总结一下,如下表:

SPSS

以上就是这5种算法的区别,别看简单,其实很有用,如果您没能记住,或者是对这些算法都不是太了解,那么……也没有关系,因为在SPSS Modeler平台上,还有自动建模器,包括自动分类、自动聚类以及自动数值,这些节点可以帮助您自动选择最优的三个算法供您参考,有兴趣的可以自己试试,当然,要得到更加优化的模型,对算法还是需要有一些了解的,以后,我们也会多发布一些算法方面的文章供大家参考。

SPSS Modeler 试用版下载地址: http://bigdata.evget.com/product/168.html

更多大数据与分析相关行业资讯、解决方案、案例、教程等请点击查看>>>

详情请咨询在线客服!

客服热线:

标签:大数据BI数据可视化数据分析Hadoop

来源:慧都

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2016年6月19日
下一篇 2016年6月19日

相关推荐

发表回复

登录后才能评论