决策树算法代码
‘壹’ 决策树算法基础 ID3与C4.5
决策树算法基础:ID3与C4.5
设X是一个取有限个值得离散随机变量,其概率分布为P(X=xi)=pi, i=1,2,…,n。则随机变量X的信息熵为
条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。H(Y|X)的计算公式为
所以决策树分支后信息总熵H(D|A)=P1*H1+P2*H2+...+Pn*Hn,(特征A条件下D的经验条件熵)
所以信息增益ΔH=H(D)-H(D|A)
H(D|A)越小,ΔH越大,该特征A越适合作为当前的决策节点。
选取最佳特征伪代码:
计算信息总熵H(D)
遍历每一个特征下的关于D的经验条件熵H(D|A)
计算每一个特征的信息增益ΔH
将信息增益ΔH最大的特征作为最佳特征选为当前决策节点
ID3算法伪代码:
如果第一个标签的数量等于所有的标签数量,说明这是一个单节点树,返回这个标签作为该节点类
如果特征只有一个,说明这是一个单节点树,用多数表决法投票选出标签返回作为该节点类
否则,按信息增益最大的特征A作为当前决策节点,即决策树父节点
如果该特征的信息增益ΔH小于阈值,则用多数表决法投票选出标签返回作为该节点类
否则,对于该特征A的每一个可能值ai,将原空间D分割为若干个子空间Di
对于若干个非空子集Di,将每个Di中实例数最大的类作为标记,构建子节点
以Di为训练空间,递归调用上述步骤
由于信息增益存在偏向于选择取值较多的特征的问题,而C4.5算法中,将ID3算法里的信息增益换成信息增益比,较好地解决了这个问题。
决策树的优点在于计算量简单,适合有缺失属性值的样本,适合处理不相关的特征。而缺点是容易过拟合,可以通过剪枝来简化模型,另外随机森林也解决了这个问题。
‘贰’ 常见决策树分类算法都有哪些
在机器学习中,有一个体系叫做决策树,决策树能够解决很多问题。在决策树中,也有很多需要我们去学习的算法,要知道,在决策树中,每一个算法都是实用的算法,所以了解决策树中的算法对我们是有很大的帮助的。在这篇文章中我们就给大家介绍一下关于决策树分类的算法,希望能够帮助大家更好地去理解决策树。
1.C4.5算法
C4.5算法就是基于ID3算法的改进,这种算法主要包括的内容就是使用信息增益率替换了信息增益下降度作为属性选择的标准;在决策树构造的同时进行剪枝操作;避免了树的过度拟合情况;可以对不完整属性和连续型数据进行处理;使用k交叉验证降低了计算复杂度;针对数据构成形式,提升了算法的普适性等内容,这种算法是一个十分使用的算法。
2.CLS算法
CLS算法就是最原始的决策树分类算法,基本流程是,从一棵空数出发,不断的从决策表选取属性加入数的生长过程中,直到决策树可以满足分类要求为止。CLS算法存在的主要问题是在新增属性选取时有很大的随机性。
3.ID3算法
ID3算法就是对CLS算法的最大改进是摒弃了属性选择的随机性,利用信息熵的下降速度作为属性选择的度量。ID3是一种基于信息熵的决策树分类学习算法,以信息增益和信息熵,作为对象分类的衡量标准。ID3算法结构简单、学习能力强、分类速度快适合大规模数据分类。但同时由于信息增益的不稳定性,容易倾向于众数属性导致过度拟合,算法抗干扰能力差。
3.1.ID3算法的优缺点
ID3算法的优点就是方法简单、计算量小、理论清晰、学习能力较强、比较适用于处理规模较大的学习问题。缺点就是倾向于选择那些属性取值比较多的属性,在实际的应用中往往取值比较多的属性对分类没有太大价值、不能对连续属性进行处理、对噪声数据比较敏感、需计算每一个属性的信息增益值、计算代价较高。
3.2.ID3算法的核心思想
根据样本子集属性取值的信息增益值的大小来选择决策属性,并根据该属性的不同取值生成决策树的分支,再对子集进行递归调用该方法,当所有子集的数据都只包含于同一个类别时结束。最后,根据生成的决策树模型,对新的、未知类别的数据对象进行分类。
在这篇文章中我们给大家介绍了决策树分类算法的具体内容,包括有很多种算法。从中我们不难发现决策树的算法都是经过不不断的改造趋于成熟的。所以说,机器学习的发展在某种程度上就是由于这些算法的进步而来的。
‘叁’ python中的sklearn中决策树使用的是哪一种算法
sklearn中决策树分为DecisionTreeClassifier和DecisionTreeRegressor,所以用的算法是CART算法,也就是分类与回归树算法(classification and regression tree,CART),划分标准默认使用的也是Gini,ID3和C4.5用的是信息熵,为何要设置成ID3或者C4.5呢
‘肆’ 瀹㈡埛淇$敤璇勪环妯″瀷镄勫疄鐜
瀹㈡埛淇$敤璇勪环妯″瀷锛屽彲浠ョ粨钖圫QL镊甯︾殑鍐崇瓥镙戞垨绁炵粡缃戠粶绠楁硶瑙e喅锛屽叿浣撶殑姝ラょ湅镊甯︾殑鏁欑▼灏辫屻傛帹钻愬喅绛栨爲锛屾寲鎺樼殑鐭ヨ瘑链夎缉濂界殑瑙i喷镐с
🌳鍐崇瓥镙戠畻娉
鎺ㄨ崘鍐崇瓥镙戯纴鎸栨帢镄勭煡璇嗘湁杈冨ソ镄勮В閲婃с
🧠绁炵粡缃戠粶绠楁硶
鍙浠ョ粨钖圫QL镊甯︾殑鍐崇瓥镙戞垨绁炵粡缃戠粶绠楁硶瑙e喅銆
📊鍓嶅彴灞旷幇宸ュ叿
鍓嶅彴鏄剧ず绋嫔簭涓昏佹槸鍊熷姪congos鎴栬匓O鍓嶅彴灞旷幇宸ュ叿锛孋#寮鍙戝嚭鐣岄溃钖庣洿鎺ヨ皟鐢ㄨ繖浜涘伐鍏烽噷鎸傝浇镄勬姤琛ㄦ垨钥呮寲鎺樼粨鏋灭殑鐣岄溃銆
‘伍’ 决策树的算法
C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:
1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;
2) 在树构造过程中进行剪枝;
3) 能够完成对连续属性的离散化处理;
4) 能够对不完整数据进行处理。
C4.5算法有如下优点:产生的分类规则易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。此外,C4.5只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。
具体算法步骤如下;
1创建节点N
2如果训练集为空,在返回节点N标记为Failure
3如果训练集中的所有记录都属于同一个类别,则以该类别标记节点N
4如果候选属性为空,则返回N作为叶节点,标记为训练集中最普通的类;
5for each 候选属性 attribute_list
6if 候选属性是连续的then
7对该属性进行离散化
8选择候选属性attribute_list中具有最高信息增益率的属性D
9标记节点N为属性D
10for each 属性D的一致值d
11由节点N长出一个条件为D=d的分支
12设s是训练集中D=d的训练样本的集合
13if s为空
14加上一个树叶,标记为训练集中最普通的类
15else加上一个有C4.5(R - {D},C,s)返回的点 背景:
分类与回归树(CART——Classification And Regression Tree)) 是一种非常有趣并且十分有效的非参数分类和回归方法。它通过构建二叉树达到预测目的。
分类与回归树CART 模型最早由Breiman 等人提出,已经在统计领域和数据挖掘技术中普遍使用。它采用与传统统计学完全不同的方式构建预测准则,它是以二叉树的形式给出,易于理解、使用和解释。由CART 模型构建的预测树在很多情况下比常用的统计方法构建的代数学预测准则更加准确,且数据越复杂、变量越多,算法的优越性就越显着。模型的关键是预测准则的构建,准确的。
定义:
分类和回归首先利用已知的多变量数据构建预测准则, 进而根据其它变量值对一个变量进行预测。在分类中, 人们往往先对某一客体进行各种测量, 然后利用一定的分类准则确定该客体归属那一类。例如, 给定某一化石的鉴定特征, 预测该化石属那一科、那一属, 甚至那一种。另外一个例子是, 已知某一地区的地质和物化探信息, 预测该区是否有矿。回归则与分类不同, 它被用来预测客体的某一数值, 而不是客体的归类。例如, 给定某一地区的矿产资源特征, 预测该区的资源量。
‘陆’ 决策树原理及算法比较
决策树是什么?
和线性回归一样是一种模型,内部节点和叶节点。实现分类,内部节点和叶节点通过有向线(分类规 则)连接起来
决策树的目标是什么?
决策树通过对数据复杂度的计算,建立特征分类标准,确定最佳分类特征。
表现为“熵”(entropy)和信息增益(information gain),基于决策树思想的三种算法:ID3,C4.5,CART算法,三种算法的信息衡量的指标也不同.
熵来表示信息的复杂度,熵越大,信息也就越复杂,公式如下:
那些算法能够实现决策树?
在决策树构建过程中,什么是比较重要的。特征选择(按照熵变计算),算法产生最重要的部分,
决策树中叶节点的分类比较纯,
节点顺序的排列规则:
熵变:
数据的预处理:
改进思路一般有两个1,换算法;2,调参数
做好数据的预处理:
1,做好特征选择;
2,做好数据离散化、异常值处理、缺失填充
分类器:
在决策树中,从根到达任意一个叶节点的之间最长路径的长度,表示对应的算法排序中最坏情况下的比较次数。这样一个比较算法排序中的最坏情况的比较次数就与其决策树的高度相同,同时如果决策树中每种排列以可达叶子的形式出现,那么关于其决策树高度的下界也就是关于比较排序算法运行时间的下界,
ID3算法存在的缺点:
1,ID3算法在选择根节点和内部节点分支属性时,采用信息增益作为评价标准。信息增益的缺点是倾向于选择取值较多的属性
2,当数据为连续性变量的时候,ID3算法就不是一个合理的算法的模型了
C4.5信息增益比率,
1,在信息增益的基础上除以split-info,是将信息增益改为信息增益比,以解决取值较多的属性的问题,另外它还可以处理连续型属性,其判别标准是θ,
2,C4.5算法利用增益/熵值,克服了树生长的过程中,总是‘贪婪’选择变量分类多的进行分类
3,处理来内需型变量,C4.5的分类树的分支就是两条
衡量指标:
(1)信息增益
基于ID3算法的信息增益对于判定连续型变量的时候病不是最优选择,C4.5算法用了信息增益率这个概念。
分类信息类的定义如下:
这个值表示将训练数据集D划分成对应属性A测试的V个输出v个划分产生的信息,信息增益率定义为:
选择最大信息增益率的属性作为分裂属性
Gini指标,CART
表明样本的“纯净度”。Gini系数避免了信息增益产生的问题,
过拟合问题,非常好的泛化能力,有很好的推广能力
Gini系数的计算:
在分类问题中,假设有k个类,样本点属于第k类的概率为Pk,则概率分布的gini指数的定义为:
如果样本集合D根据某个特征A被分割为D1,D2两个部分,那么在特征A的提哦啊见下,集合D的gini指数的定义为:
Gini指数代表特征A不同分组下的数据集D的不确定性,gini指数越大,样本集合的不确定性也就越大,这一点和熵的概念相类似
决策树原理介绍:
第三步:对于每个属性执行划分:
(1)该属性为离散型变量
记样本中的变量分为m中
穷举m种取值分为两类的划分
对上述所有划分计算GINI系数
(2)该属性为连续型变量
将数据集中从小到大划分
按顺序逐一将两个相临值的均值作为分割点
对上述所有划分计算GINI系数
学历的划分使得顺序的划分有个保证,化为连续型变量处理。
决策树的生成算法分为两个步骤:
预剪枝和后剪枝 CCP(cost and complexity)算法:在树变小和变大的的情况有个判断标准。误差率增益值:α值为误差的变化
决策树的终止条件:
1,某一个节点的分支所覆盖的样本都是同一类的时候
2,某一个分支覆盖的样本的个数如果小于一个阈值,那么也可以产生叶子节点,从而终止Tree-Growth
确定叶子结点的类:
1,第一种方式,叶子结点覆盖的样本都属于同一类
2, 叶子节点覆盖的样本未必是同一类,所占的大多数,那么该叶子节点的类别就是那个占大多数的类
‘柒’ R语言-17决策树
是一个预测模型,分为回归决策树和分类决策树,根据已知样本训练出一个树模型,从而根据该模型对新样本因变量进行预测,得到预测值或预测的分类
从根节点到叶节点的一条路径就对应着一条规则.整棵决策树就对应着一组表达式规则。叶节点就代表该规则下得到的预测值。如下图决策树模型则是根据房产、结婚、月收入三个属性得到是否可以偿还贷款的规则。
核心是如何从众多属性中挑选出具有代表性的属性作为决策树的分支节点。
最基本的有三种度量方法来选择属性
1. 信息增益(ID3算法)
信息熵
一个信源发送出什么符号是不确定的,衡量它可以根据其出现的概率来度量。概率大,出现机会多,不确定性小;反之不确定性就大。不确定性函数f是概率P的 减函数 。两个独立符号所产生的不确定性应等于各自不确定性之和,即f(P1,P2)=f(P1)+f(P2),这称为可加性。同时满足这两个条件的函数f是对数函数,即
在信源中,考虑的不是某一单个符号发生的不确定性,而是要考虑这个信源所有可能发生情况的平均不确定性。因此,信息熵被定义为
决策树分类过程
2、增益率(C4.5算法)
由于信息增益的缺点是:倾向于选择具有大量值的属性,因为具有大量值的属性每个属性对应数据量少,倾向于具有较高的信息纯度。因此增益率使用【信息增益/以该属性代替的系统熵(类似于前面第一步将play换为该属性计算的系统熵】这个比率,试图克服这种缺点。
g(D,A)代表D数据集A属性的信息增益,
3. 基尼指数(CART算法)
基尼指数:
表示在样本集合中一个随机选中的样本被分错的概率。越小表示集合中被选中的样本被分错的概率越小,也就是说集合的纯度越高。
假设集合中有K个类别,则:
说明:
1. pk表示选中的样本属于k类别的概率,则这个样本被分错的概率是(1-pk)
2. 样本集合中有K个类别,一个随机选中的样本可以属于这k个类别中的任意一个,因而对类别就加和
3. 当为二分类是,Gini(P) = 2p(1-p)
基尼指数是将属性A做二元划分,所以得到的是二叉树。当为离散属性时,则会将离散属性的类别两两组合,计算基尼指数。
举个例子:
如上面的特征Temperature,此特征有三个特征取值: “Hot”,“Mild”, “Cool”,
当使用“学历”这个特征对样本集合D进行划分时,划分值分别有三个,因而有三种划分的可能集合,划分后的子集如下:
对于上述的每一种划分,都可以计算出基于 划分特征= 某个特征值 将样本集合D划分为两个子集的纯度:
决策数分类过程
先剪枝 :提前停止树的构建对树剪枝,构造树时,利用信息增益、统计显着性等,当一个节点的划分导致低于上述度量的预定义阈值时,则停止进一步划分。但阈值的确定比较困难。
后剪枝 :更为常用,先得到完全生长的树,再自底向上,用最下面的节点的树叶代替该节点
CART使用代价复杂度剪枝算法 :计算每个节点剪枝后与剪枝前的代价复杂度,如果剪去该节点,代价复杂度较小(复杂度是树的结点与树的错误率也就是误分类比率的函数),则剪去。
C4.5采用悲观剪枝 :类似代价复杂度,但CART是利用剪枝集评估代价复杂度,C4.5是采用训练集加上一个惩罚评估错误率
决策树的可伸缩性
ID3C4.5CART都是为较小的数据集设计,都限制训练元祖停留再内存中,为了解决可伸缩性,提出了其它算法如
RainForest(雨林):对每个属性维护一个AVC集,描述该结点的训练元组,所以只要将AVC集放在内存即可
BOAT自助乐观算法:利用统计学,创造给定训练数据的较小样本,每个样本构造一个树,导致多颗树,再利用它们构造1颗新树。优点是可以增量的更新,当插入或删除数据,只需决策树更新,而不用重新构造。
决策树的可视化挖掘
PBC系统可允许用户指定多个分裂点,导致多个分支,传统决策树算法数值属性都是二元划分。并且可以实现交互地构建树。
rpart是采用cart算法,连续型“anova”;离散型“class”;
2)进行剪枝的函数:prune()
3)计算MAE评估回归树模型误差,这里将样本划分成了训练集和测试集,testdata为测试集
rt.mae为根据训练集得到的决策树模型对测试集因变量预测的结果与测试集因变量实际值得到平均绝对误差