决策树id3算法
❶ ID3算法的介绍
ID3算法是一种贪心算法,用来构造决策树。ID3算法起源于概念学习系统(CLS),以信息熵的下降速度为选取测试属性的标准,即在每个节点选取还尚未被用来划分的具有最高信息增益的属性作为划分标准,然后继续这个过程,直到生成的决策树能完美分类训练样例。
❷ 求基于ID3算法的决策树研究与实现的中英文翻译,跟数据挖掘,决策树,ID3算法有关的中英文翻译都可以
还是一样邮件查收吧
❸ 我是weka新手,我下载数据集后,用weka中的id3算法来进行分类,结果不能看到决策树,是怎么回事啊
weka的ID3算法是会输出一个决策树的,只不过那只是中间计算时输出的结果。同时还会输出很多其他的统计结果。
要看看它有没有报错。 数据集的属性是不是都是离散型的。如果有些是实数型,如17.1,17.2,1.735,17.2....这样就不符合要求,无法生成合理的决策树。
以下是一个简单的weka输出决策树:
age = youth
| student = no: no
| student = yes: yes
age = middle_aged: yes
age = senior
| credit_rating = fair: yes
| credit_rating = excellent
| | income = high: null
| | income = medium: no
| | income = low: no
❹ ID3算法的背景知识
ID3算法最早是由罗斯昆(J. Ross Quinlan)于1975年在悉尼大学提出的一种分类预测算法,算法的核心是“信息熵”。ID3算法通过计算每个属性的信息增益,认为信息增益高的是好属性,每次划分选取信息增益最高的属性为划分标准,重复这个过程,直至生成一个能完美分类训练样例的决策树。
决策树是对数据进行分类,以此达到预测的目的。该决策树方法先根据训练集数据形成决策树,如果该树不能对所有对象给出正确的分类,那么选择一些例外加入到训练集数据中,重复该过程一直到形成正确的决策集。决策树代表着决策集的树形结构。
决策树由决策结点、分支和叶子组成。决策树中最上面的结点为根结点,每个分支是一个新的决策结点,或者是树的叶子。每个决策结点代表一个问题或决策,通常对应于待分类对象的属性。每一个叶子结点代表一种可能的分类结果。沿决策树从上到下遍历的过程中,在每个结点都会遇到一个测试,对每个结点上问题的不同的测试输出导致不同的分支,最后会到达一个叶子结点,这个过程就是利用决策树进行分类的过程,利用若干个变量来判断所属的类别。
❺ 向大神求教!python写的决策树的ID3算法怎么一直提示bestfeat=labels[bestfeat_index]超出索引啊!
1、对当前训练集,计算各属性的信息增益(假设有属性A1,A2,…An);
2、选择信息增益最大的属性Ak(1<=k<=n),作为根节点;
3、把在Ak处取值相同的例子归于同一子集,作为该节点的一个树枝,Ak取几个值就得几个子集;
4、若在某个子集中的所有样本都是属于同一个类型(本位只讨论正(Y)、反(N)两种类型的情况),则给该分支标上类型号作为叶子节点;
5、对于同时含有多种(两种)类型的子集,则递归调用该算法思路来完成树的构造。
❻ 有关ID3算法判定树的翻译
本文就基于决策树的分类系统进行了说明,主要介绍了根据决策树算法中的ID3算法,利用开发工具Visual C++ 6.0完成系统的方法。首先介绍了机器学习、归纳学习、决策树学习等方面的相关背景。接着详细介绍了决策树,ID3算法的理论知识,包括信息熵知识,算法原理,以及分析了ID3算法的优劣。本文针对本系统的实际情况,详细的介绍了系统中的各模块和实现方法,以及系统功能的全过程。
另外,本文还比较详细的介绍了系统开发工具Visual C++ 6.0,从实现本系统的角度,对涉及的相关内容进行了介绍。通过对系统不同实验数据的实验结果的分析,直观的显示了系统能够完成的所有功能。文章的最后做出了总体上的结论,并指出了本分类系统的存在的许多不足之处,这也为以后的进一步研究奠定了基础。
❼ 实现ID3决策树学习算法
http://www.rulequest.com/download.html
http://www.rulequest.com/See5-demo.zip
这里有些。
Diversity(整体)-diversity(左节点)-diversity(右节点),值越大,分割就越好。
三种diversity的指标:
1. min(P(c1),P(c2))
2. 2P(c1)P(c2)
3. [P(c1)logP(c1)]+[P(c2)logP(c2)]
这几个参数有相同的性质:当其中的类是均匀分布的时候,值最大;当有一个类的个数为0的时候,值为0。
选择分割的时候,对每个字段都考虑;对每个字段中的值先排序,然后再一一计算。最后选出最佳的分割。
树的生成:
错误率的衡量:最初生成的树中也是有错误率的!因为有些叶子节点并不是“Pure”的。
树的修剪:是不是当所以的叶子都很纯是,这棵树就能工作的很好呢?
修剪的要点是:应该回溯多少、如何从众多的子树总寻找最佳的。
1) 鉴别生成候选子树 :使用一个调整的错误率。AE(T)=E(T)+aleaf_count(T)。一步步的生成一些候选子树。
2) 对子树的评估:通过test set找到最佳子树
3) 对最佳子树进行评估:使用evaluation set。
4) 考虑代价(cost)的问题
❽ 决策树ID3,C4.5,CART算法中某一属性分类后,是否能运用该属性继续分类
决策树主要有ID3,C4.5,CART等形式。ID3选取信息增益的属性递归进行分类,C4.5改进为使用信息增益率来选取分类属性。CART是Classfication and Regression Tree的缩写。表明CART不仅可以进行分类,也可以进行回归。其中使用基尼系数选取分类属性。以下主要介绍ID3和CART算法。
ID3算法:
信息熵: H(X)=-sigma(对每一个x)(plogp) H(Y|X)=sigma(对每一个x)(pH(Y|X=xi))
信息增益:H(D)-H(D|X) H(D)是整个数据集的熵
信息增益率:(H(D)-H(D|X))/H(X)
算法流程:(1)对每一个属性计算信息增益,若信息增益小于阈值,则将该支置为叶节点,选择其中个数最多的类标签作为该类的类标签。否则,选择其中最大的作为分类属 性。
(2)若各个分支中都只含有同一类数据,则将这支置为叶子节点。
否则 继续进行(1)。
CART算法:
基尼系数:Gini(p)=sigma(每一个类)p(1-p)
回归树:属性值为连续实数。将整个输入空间划分为m块,每一块以其平均值作为输出。f(x)=sigma(每一块)Cm*I(x属于Rm)
回归树生成:(1)选取切分变量和切分点,将输入空间分为两份。
(2)每一份分别进行第一步,直到满足停止条件。
切分变量和切分点选取:对于每一个变量进行遍历,从中选择切分点。选择一个切分点满足分类均方误差最小。然后在选出所有变量中最小分类误差最小的变量作为切分 变量。
分类树:属性值为离散值。
分类树生成:(1)根据每一个属性的每一个取值,是否取该值将样本分成两类,计算基尼系数。选择基尼系数最小的特征和属性值,将样本分成两份。
(2)递归调用(1)直到无法分割。完成CART树生成。
决策树剪枝策略:
预剪枝(树提前停止生长)和后剪枝(完全生成以后减去一些子树提高预测准确率)
降低错误率剪枝:自下而上对每一个内部节点比较减去以其为叶节点和子树的准确率。如果减去准确率提高,则减去,依次类推知道准确率不在提高。
代价复杂度剪枝:从原始决策树T0开始生成一个子树序列{T0、T1、T2、...、Tn},其中Ti+1是从Ti总产生,Tn为根节点。每次均从Ti中 减去具有最小误差增长率的子树。然后通过 交叉验证比较序列中各子树的效果选择最优决策树。
❾ 通过ID3算法得出的决策树怎么去测试别的实例啊还有ID3算法是只能分析数值型的数据吗
如果通过训练集已经得出决策树的话, 那使用测试集测试就很简单了。 可以人工测试,也可以用数据分析软件。
数据可以有很多种类型,关键是看你怎么提取出数据的属性进行分析。
请采纳最佳答案~