当前位置:首页 » 操作系统 » 算法式决策

算法式决策

发布时间: 2024-06-09 19:26:17

㈠ 常见决策树分类算法都有哪些

在机器学习中,有一个体系叫做决策树,决策树能够解决很多问题。在决策树中,也有很多需要我们去学习的算法,要知道,在决策树中,每一个算法都是实用的算法,所以了解决策树中的算法对我们是有很大的帮助的。在这篇文章中我们就给大家介绍一下关于决策树分类的算法,希望能够帮助大家更好地去理解决策树。
1.C4.5算法
C4.5算法就是基于ID3算法的改进,这种算法主要包括的内容就是使用信息增益率替换了信息增益下降度作为属性选择的标准;在决策树构造的同时进行剪枝操作;避免了树的过度拟合情况;可以对不完整属性和连续型数据进行处理;使用k交叉验证降低了计算复杂度;针对数据构成形式,提升了算法的普适性等内容,这种算法是一个十分使用的算法。
2.CLS算法
CLS算法就是最原始的决策树分类算法,基本流程是,从一棵空数出发,不断的从决策表选取属性加入数的生长过程中,直到决策树可以满足分类要求为止。CLS算法存在的主要问题是在新增属性选取时有很大的随机性。
3.ID3算法
ID3算法就是对CLS算法的最大改进是摒弃了属性选择的随机性,利用信息熵的下降速度作为属性选择的度量。ID3是一种基于信息熵的决策树分类学习算法,以信息增益和信息熵,作为对象分类的衡量标准。ID3算法结构简单、学习能力强、分类速度快适合大规模数据分类。但同时由于信息增益的不稳定性,容易倾向于众数属性导致过度拟合,算法抗干扰能力差。
3.1.ID3算法的优缺点
ID3算法的优点就是方法简单、计算量小、理论清晰、学习能力较强、比较适用于处理规模较大的学习问题。缺点就是倾向于选择那些属性取值比较多的属性,在实际的应用中往往取值比较多的属性对分类没有太大价值、不能对连续属性进行处理、对噪声数据比较敏感、需计算每一个属性的信息增益值、计算代价较高。
3.2.ID3算法的核心思想
根据样本子集属性取值的信息增益值的大小来选择决策属性,并根据该属性的不同取值生成决策树的分支,再对子集进行递归调用该方法,当所有子集的数据都只包含于同一个类别时结束。最后,根据生成的决策树模型,对新的、未知类别的数据对象进行分类。
在这篇文章中我们给大家介绍了决策树分类算法的具体内容,包括有很多种算法。从中我们不难发现决策树的算法都是经过不不断的改造趋于成熟的。所以说,机器学习的发展在某种程度上就是由于这些算法的进步而来的。

㈡ 机器学习故事汇-决策树算法

机器学习故事汇-决策树算法
【咱们的目标】系列算法讲解旨在用最简单易懂的故事情节帮助大家掌握晦涩无趣的机器学习,适合对数学很头疼的同学们,小板凳走起!

决策树模型是机器学习中最经典的算法之一啦,用途之广泛我就不多吹啦,其实很多机器学习算法都是以树模型为基础的,比如随机森林,Xgboost等一听起来就是很牛逼的算法(其实用起来也很牛逼)。
首先我们来看一下在上面的例子中我想根据人的年龄和性别(两个特征)对5个人(样本数据)进行决策,看看他们喜不喜欢玩电脑游戏。首先根据年龄(根节点)进行了一次分支决策,又对左节点根据性别进行了一次分支决策,这样所有的样本都落到了最终的叶子节点,可以把每一个叶子节点当成我们最终的决策结果(比如Y代表喜欢玩游戏,N代表不喜欢玩游戏)。这样我们就通过决策树完成了非常简单的分类任务!

再来看一下树的组成,主要结构有根节点(数据来了之后首先进行判断的特征),非叶子节点(中间的一系列过程),叶子节点(最终的结果),这些都是我们要建立的模块!

在决策中树中,我们刚才的喜欢玩电脑游戏的任务看起来很简单嘛,从上往下去走不就OK了吗!但是难点在于我们该如何构造这棵决策树(节点的选择以及切分),这个看起来就有些难了,因为当我们手里的数据特征比较多的时候就该犹豫了,到底拿谁当成是根节点呢?

这个就是我们最主要的问题啦,节点究竟该怎么选呢?不同的位置又有什么影响?怎么对特征进行切分呢?一些到这,我突然想起来一个段子,咱们来乐呵乐呵!

武林外传中这个段子够我笑一年的,其实咱们在推导机器学习算法的时候,也需要这么去想想,只有每一步都是有意义的我们才会选择去使用它。回归正题,我们选择的根节点其实意味着它的重要程度是最大的,相当于大当家了,因为它会对数据进行第一次切分,我们需要把最重要的用在最关键的位置,在决策树算法中,为了使得算法能够高效的进行,那么一开始就应当使用最有价值的特征。

接下来咱们就得唠唠如何选择大当家了,我们提出了一个概念叫做熵(不是我提出的。。。穿山甲说的),这里并不打算说的那么复杂,一句话解释一下,熵代表你经过一次分支之后分类的效果的好坏,如果一次分支决策后都属于一个类别(理想情况下,也是我们的目标)这时候我们认为效果很好嘛,那熵值就很低。如果分支决策后效果很差,什么类别都有,那么熵值就会很高,公式已经给出,log函数推荐大家自己画一下,然后看看概率[0,1]上的时候log函数值的大小(你会豁然开朗的)。

不确定性什么时候最大呢?模棱两可的的时候(就是你犹豫不决的时候)这个时候熵是最大的,因为什么类别出现的可能性都有。那么我们该怎么选大当家呢?(根节点的特征)当然是希望经过大当家决策后,熵值能够下降(意味着类别更纯净了,不那么混乱了)。在这里我们提出了一个词叫做信息增益(就当是我提出的吧。。。),信息增益表示经过一次决策后整个分类后的数据的熵值下降的大小,我们希望下降越多越好,理想情况下最纯净的熵是等于零的。

一个栗子:准备一天一个哥们打球的时候,包括了4个特征(都是环境因素)以及他最终有木有去打球的数据。
第一个问题:大当家该怎么选?也就是我们的根节点用哪个特征呢?

一共有4个特征,看起来好像用谁都可以呀,这个时候就该比试比试了,看看谁的能力强(使得熵值能够下降的最多)

在历史数据中,首先我们可以算出来当前的熵值,计算公式同上等于0.940,大当家的竞选我们逐一来分析,先看outlook这个特征,上图给出了基于天气的划分之后的熵值,计算方式依旧同上,比如outlook=sunny时,yes有2个,no有三个这个时候熵就直接将2/5和3/5带入公式就好啦。最终算出来了3种情况下的熵值。

再继续来看!outlook取不同情况的概率也是不一样的,这个是可以计算出来的相当于先验概率了,直接可以统计出来的,这个也需要考虑进来的。然后outlook竞选大当家的分值就出来啦(就是信息增益)等于0.247。同样的方法其余3个特征的信息增益照样都可以计算出来,谁的信息增益多我们就认为谁是我们的大当家,这样就完成了根节点的选择,接下来二当家以此类推就可以了!

我们刚才给大家讲解的是经典的ID3算法,基于熵值来构造决策树,现在已经有很多改进,比如信息增益率和CART树。简单来说一下信息增益率吧,我们再来考虑另外一个因素,如果把数据的样本编号当成一个特征,那么这个特征必然会使得所有数据完全分的开,因为一个样本只对应于一个ID,这样的熵值都是等于零的,所以为了解决这类特征引入了信息增益率,不光要考虑信息增益还要考虑特征自身的熵值。说白了就是用 信息增益/自身的熵值 来当做信息增益率。

我们刚才讨论的例子中使用的是离散型的数据,那连续值的数据咋办呢?通常我们都用二分法来逐一遍历来找到最合适的切分点!

下面再来唠一唠决策树中的剪枝任务,为啥要剪枝呢?树不是好好的吗,剪个毛线啊!这个就是机器学习中老生常谈的一个问题了,过拟合的风险,说白了就是如果一个树足够庞大,那么所有叶子节点可能只是一个数据点(无限制的切分下去),这样会使得我们的模型泛化能力很差,在测试集上没办法表现出应有的水平,所以我们要限制决策树的大小,不能让枝叶太庞大了。

最常用的剪枝策略有两种:
(1)预剪枝:边建立决策树边开始剪枝的操作
(2)后剪枝:建立完之后根据一定的策略来修建
这些就是我们的决策树算法啦,其实还蛮好的理解的,从上到下基于一种选择标准(熵,GINI系数)来找到最合适的当家的就可以啦!

㈢ 算法式和推理式区别

算法式和推理式区别:

【定义】算法式是把解决问题的所有可能的方案都列举出来,逐一尝试。此种方式虽然可以保证解决问题,但效率不高。其优点是能够保证问题的解决,但费时费力。

当问题复杂、问题空间很大时,很难依靠这种策略来解决问题。另外,有些问题也许没有现成的算法或尚未发现其算法,对这种问题算法策略将是无效的。

【特点】为达目标,有时会有迂回状态。

【例子】曲线救国:产生于抗日战争期间,指采取直接的手段不能够解决,比如正面抗击日本侵略军的话,能力不够,就只好采取间接的,效果可能慢一些的,发动军队及以外的各界人士和力量。

或者从侧面迂回牵制干扰的策略,一点一点地争取和保卫胜利果实,有时候可能还要放弃一部分已经得到手的东西,但斗争的大方向不变。也就是有时候为了达到目的,不得已扩大与目标的距离。

热点内容
忘记密码魅族手机如何清除数据 发布:2024-11-26 21:34:17 浏览:155
达内php视频 发布:2024-11-26 21:32:09 浏览:555
编译器分析 发布:2024-11-26 21:13:01 浏览:831
存储过程execute 发布:2024-11-26 21:11:02 浏览:255
石器时代合成脚本 发布:2024-11-26 20:57:07 浏览:939
漏油器密码怎么改密码 发布:2024-11-26 20:30:11 浏览:14
linux编码命令 发布:2024-11-26 20:23:13 浏览:801
密码加密工具 发布:2024-11-26 20:23:06 浏览:692
如何破解加密的wifi 发布:2024-11-26 20:10:29 浏览:431
c脚本检查 发布:2024-11-26 19:56:34 浏览:394