提升树算法
1. 提升树回归算法怎么用来评价多变量的重要度
CART的全称是分类和回归树,既可以做分类算法,也可以做回归。决策树的优缺点:优点:1.可以生成可以理解的规则。2.计算量相对来说不是很大。3.可以处理连续和种类字段。4.决策树可以清晰的显示哪些字段比较重要缺点:1. 对连续性的字段比较难预测。2.对有时间顺序的数据,需要很多预处理的工作。3.当类别太多时,错误可能就会增加的比较快。4.一般的算法分类的时候,只是根据一个字段来分类。
2. 什么是算法决策理论
决策树分类法己被应用于许多分类问题,但应用于遥感分类的研究成果并不多见。决策树分类法具有灵活、直观、清晰、强健、运算效率高等特点,在遥感分类问题上表现出巨大优势。本文以广东省广州市从化地区的SPOT5卫星遥感影像为研究对象,基于决策树分类算法在遥感影像分类方面的深厚潜力,探讨了6种不同的决策树算法—包括单一决策树模(CART,CHAIR,exhaustive,QUEST和组合决策树模型(提升树,决策树森林)。首先对决策树算法结构、算法理论进行了阐述,然后利用这些决策树算法进行遥感土地覆盖分类实验,并把获得的结果与传统的最大似然分类和人工神经元网络分类进行比较。
基于决策树分类算法在遥感影像分类方面的深厚潜力,探讨了3种不同的决策树算法(UDT、MDT和HDT).首先对决策树算法结构、算法理论进行了阐述:具体利用决策树算法进行遥感土地覆盖分类实验,并把获得的结果与传统统计分类法进行比较.研究表明,决策树分类法相对简单、明确,分类结构直观,有诸多优势.
3. python数据挖掘是什么
数据挖掘(data mining,简称DM),是指从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信
息和知识的过程。
python数据挖掘常用模块
numpy模块:用于矩阵运算、随机数的生成等
pandas模块:用于数据的读取、清洗、整理、运算、可视化等
matplotlib模块:专用于数据可视化,当然含有统计类的seaborn模块
statsmodels模块:用于构建统计模型,如线性回归、岭回归、逻辑回归、主成分分析等
scipy模块:专用于统计中的各种假设检验,如卡方检验、相关系数检验、正态性检验、t检验、F检验等
sklearn模块:专用于机器学习,包含了常规的数据挖掘算法,如决策树、森林树、提升树、贝叶斯、K近邻、SVM、GBDT、Kmeans等
数据分析和挖掘推荐的入门方式是?小公司如何利用数据分析和挖掘?
关于数据分析与挖掘的入门方式是先实现代码和Python语法的落地(前期也需要你了解一些统计学知识、数学知识等),这个过程需要
你多阅读相关的数据和查阅社区、论坛。然后你在代码落地的过程中一定会对算法中的参数或结果产生疑问,此时再去查看统计学和数据
挖掘方面的理论知识。这样就形成了问题为导向的学习方法,如果将入门顺序搞反了,可能在硬着头皮研究理论算法的过程中就打退堂鼓
了。
对于小公司来说,你得清楚的知道自己的痛点是什么,这些痛点是否能够体现在数据上,公司内部的交易数据、营销数据、仓储数据等是
否比较齐全。在这些数据的基础上搭建核心KPI作为每日或每周的经营健康度衡量,数据分析侧重于历史的描述,数据挖掘则侧重于未来
的预测。
差异在于对数据的敏感度和对数据的个性化理解。换句话说,就是懂分析的人能够从数据中看出破绽,解决问题,甚至用数据创造价值;
不懂分析的人,做不到这些,更多的是描述数据。
更多技术请关注python视频教程。
4. 算法太多挑花眼
算法太多挑花眼?教你如何选择正确的机器学习算法
机器学习算法虽多,却没有什么普适的解决方案。决策树、随机森林、朴素贝叶斯、深度网络等等等等,是不是有时候觉得挑花了眼呢?福利来啦~本文将教你慧眼识精,快速挑选出满意的算法!
机器学习既是一门科学,也是一种艺术。纵观各类机器学习算法,并没有一种普适的解决方案或方法。事实上,有几个因素会影响你对机器学习算法的选择。
有些问题是非常特别的,需要用一种特定的解决方法。例如,如果你对推荐系统有所了解,你会发现它是一类很常用的机器学习算法,用来解决一类非常特殊的问题。而其它的一些问题则非常开放,可能需要一种试错方法(例如:强化学习)。监督学习、分类、回归等问题都是非常开放的,可以被用于异常检测或建立更加广泛的预测模型。
此外,我们在选择机器学习算法时所做出的一些决定与算法的优化或技术层面关系并不大,而更多地与业务决策相关。下面,让我们一起来看看有哪些因素能帮你缩小机器学习算法的选择范围。
数据科学过程
在你开始研究不同的机器学习算法前,你需要对自己拥有的数据、面对的问题及相关约束有清晰的了解。
理解你的数据
当我们决定使用哪种算法时,我们所拥有的数据的类型和形态起着关键性的作用。有些算法可以利用较小的样本集合工作,而另一些算法则需要海量的样本。特定的算法对特定类型的数据起作用。例如,朴素贝叶斯算法对处理待分类的输入特别有效,但是对于缺失值则一点都不敏感。
因此,你需要做到:
了解你的数据
1. 查看总结统计和数据可视化的结
百分比可以帮助你识别大多数数据的范围
平均数和中位数可以描述集中趋势
相关系数可以指出强的关联性
2. 数据可视化
箱形图可以识别出异常值
密度图和直方图可以显示出数据的散布情况
散点图可以描述二元关
数据清洗
1. 处理缺失值。缺失的数据对于某些模型的影响比对其它模型更大。即使是对于那些被用于处理缺失数据的模型来说,它们也可能对缺失数据很敏感(某些变量的缺失数据可能导致预测性能变差)
2. 选择处理异常值的方法
异常值在多维数据中十分常见。
有些模型对异常值的敏感性比其它模型要低。通常而言,树模型对于异常值的存在不太敏感。然而回归模型、或者任何试图使用方程的模型都会受到异常值的严重影响。
异常值可能是糟糕的数据收集造成的,也可能是合理的极值。
3. 数据需要被聚合吗?
数据增强
1. 特征工程是从原始数据中产生能够被用于建模的数据的过程,可以起到以下几种作用:
使模型更容易被解释(如数据分箱(binning))
捕获更复杂的关系(如神经网络)
减少数据冗余并降低数据维度(如主成分分析(PCA))
重新缩放变量(如标准化或归一化)
2. 不同的模型可能有不同的特征工程的要求。有的模型有内置的特征工程。
对问题进行分类
下一步是对问题进行分类。这是一个需要分两步实现的过程。
1. 根据输入分类:
如果你拥有的是带标签的数据,那么这就是一个监督学习问题。
如果你拥有的是未标注过的数据,并且希望从中找到有用的结构,那么这就是一个无监督学习问题。
如果你想要通过与环境的交互来优化一个目标函数,那么这就是一个强化学习问题。
2. 根据输出分类:
如果模型的输出是一个(连续的)数字,那么这就是一个回归问题。
如果模型的输出是一个类别,那么这就是一个分类问题。
如果模型的输出是一组用输入数据划分出的簇,那么这就是一个聚类问题。
你想发现一个异常点吗?此时你面对的就是一个异常检测问题。
理解你要满足的约束条
你需要考虑你能够存储数据的容量有多大?这取决于系统的存储容量,你可能无法存储若干 GB 大小的分类、回归模型或者若干 GB 的用于聚类分析的数据。例如,在嵌入式系统中,你就会面临这种情况。
对预测过程的速度是否有要求?在实时应用中,很显然,尽快得出预测结果是十分重要的。例如,在自动驾驶问题中,应用必须尽可能快地对道路标志进行分类,以免发生交通事故。
对学习过程的速度是否有要求?在某些情况下,快速训练模型是十分必要的:有时,你需要使用不同的数据集快速地实时更新你的模型。
寻找可用的算法
当对自己的任务环境有了一个清晰的认识后,你就可以使用你所掌握的工具确定适用于待解决的问题并切实可行的算法。一些影响你选择模型的因素如下:
模型是否满足业务目标
模型需要多少数据预处理工作
模型有多准确
模型的可解释性如何
模型运行的速度有多快:构造模型需要多久?模型做出预测需要多长时间?
模型的可伸缩性如何
模型的复杂度是一个影响算法选择的重要标准。一般来说,一个更复杂的模型具备下列特征:
它依赖于更多的特征进行学习和预测(例如,使用十个而不是两个特征来预测目标)
它依赖于更复杂的特征工程(例如,使用多项式特征、交互特征或主成分)
它有更大的计算开销(例如,需要一个由 100 棵决策树组成的随机森林,而不是一棵单独的决策树)
除此之外,同样的机器学习算法可以基于参数的个数和某些超参数的选择而变得更加复杂。例如:
回归模型可以拥有更多的特征,或者多项式项和交互项。
决策树可以拥有更大或更小的深度。
将相同的算法变得更加复杂增加了发生过拟合的几率。
常用的机器学习算法
线性回归
这可能是机器学习中最简单的算法。例如,当你想要计算一些连续值,而不是将输出分类时,可以使用回归算法。因此,当你需要预测一个正在运行的过程未来的值时,你可以使用回归算法。然而,当特征冗余,即如果存在多重共线性(multicollinearity)时,线性回归就不太稳定。
在下列情况下可以考虑使用线性回归:
从一个地方移动到另一个地方所需的时间
预测下个月某种产品的销售情况
血液中的酒精含量对协调能力的影响
预测每个月礼品卡的销售情况,并改善年收入的估算
Logistic 回归
Logistic 回归执行二进制分类,因此输出二值标签。它将特征的线性组合作为输入,并且对其应用非线性函数(sigmoid),因此它是一个非常小的神经网络的实例。
logistic回归提供了许多方法对你的模型进行正则化处理,因此正如在朴素贝叶斯算法中那样,你不必担心你的特征是否相关。该模型还有一个很好的概率化的解释。不像在决策树或者支持向量机中那样,你可以很容易地更新你的模型以获取新的数据。如果你想要使用一个概率化的框架,或者你希望在未来能够快速地将更多的训练数据融合到你的模型中,你可以使用 logistic 回归算法。logistic 回归还可以帮助你理解预测结果背后起作用的因素,它不完全是一个黑盒方法。
在下列情况下可以考虑使用 logistic 回归算法:
预测客户流失
信用评分和欺诈检测
评价市场营销活动的效果
决策树
决策树很少被单独使用,但是不同的决策树可以组合成非常高效的算法,例如随机森林或梯度提升树算法。
决策树很容易处理特征交互,并且决策树是一种非参数模型,所以你不必担心异常值或者数据是否是线性可分的。决策树算法的一个缺点是,它们不支持在线学习,因此当你要使用新的样本时,你不得不重新构建决策树。决策树的另一个缺点是,它很容易发生过拟合,而这就是像随机森林(或提升树)这样的集成学习方法能够派上用场的地方。决策树也需要大量的内存空间(拥有的特征越多,你的决策树可能会越深、越大)
决策树能够很好地帮助你在诸多行动路径中做出选择:
做出投资决策
预测客户流失
找出可能拖欠银行贷款的人
在“建造”和“购买”两种选择间进行抉择
销售主管的资质审核
K-均值
有时,你完全没有数据的标签信息,并且你的目的是根据对象的特征来为其打上标签。这种问题被称为聚类任务。聚类算法可以在这种情况下被使用:例如,当你有一大群用户,你希望根据他们共有的一些属性将其划分到一些特定的组中。
如果在你的问题声明中有这样的问题:例如,找出一群个体的组织形式,或将某些东西分组,或找出特定的组。这时,你就应该使用聚类算法。
该方法最大的缺点是,K-均值算法需要提前知道你的数据会有多少簇,因此这可能需要进行大量的试验去“猜测”我们最终定义的簇的最佳个数——K。
主成分分析(PCA)
主成分分析能够对数据进行降维。有时,你拥有各种各样的特征,这些特征之间的相关性可能很高,而模型如果使用如此大量的数据可能会产生过拟合现象。这时,你可以使用主成分分析(PCA)技术。
主成分分析(PCA)能够起作用的关键因素是:除了低维的样本表征,它还提供了各种变量的一种同步的低维表征。同步的样本和变量的表征提供了一种能够可视化地找到能够表示一组样本的特征的变量的方法。
支持向量机
支持向量机(SVM)是一种在模式识别和分类问题中被广泛应用的监督机器学习技术——当你的数据恰好有两类时。
支持向量机准确率高,对于防止过拟合很好的理论保障。当你使用一个合适的核函数时,即使你的数据在基(低维)特征空间中是线性不可分的,他们也可以很好地工作。支持向量机在文本分类问题中非常流行,在该问题中,输入是一个维度非常高的空间是很正常的。然而,SVM 是一种内存密集型算法,它很难被解释,并且对其进行调优十分困难。
在下列现实世界的应用中,你可以使用支持向量机:
发现患有糖尿病等常见疾病的人
手写字符识别
文本分类——将文章按照话题分类
股票市场价格预测
朴素贝叶斯
这是一种基于贝叶斯定理的分类技术,它很容易构建,非常适用于大规模数据集。除了结构简单,据说朴素贝叶斯的表现甚至比一些复杂得多的分类方法更好。当 CPU 和内存资源有限时,朴素贝叶斯算法也是一个很好的选项。
朴素贝叶斯非常简单,你仅仅是在做大量的计数工作。如果朴素贝叶斯的条件独立假设确实成立,朴素贝叶斯分类器的收敛速度会比 logistic 回归这样的判别模型更快,因此需要的训练数据更少。即使朴素贝叶斯的假设不成立,朴素贝叶斯分类器往往也能很好地完成任务。如果你想使用一种快速的、简单的、性能也不错的模型,朴素贝叶斯是一个很好的选择。这种算法最大的缺点就是它不能学习到特征之间的相互作用。
在下列真实世界的应用中,你可以使用朴素贝叶斯:
情感分析和文本分类
类似于 Netflix、Amazon 这样的推荐系统
识别垃圾邮件
人脸识别
随机森林
随机森林是一种决策树的集成方法。它能够同时解决具有大规模数据集的回归问题和分类问题,还有助于从数以千计的输入变量中找出最重要的变量。随机森林具有很强的可伸缩性,它适用于任何维数的数据,并且通常具有相当不错的性能。此外,还有一些遗传算法,它们可以在具有最少的关于数据本身的知识的情况下,很好地扩展到任何维度和任何数据上,其中最简单的实现就是微生物遗传算法。然而,随机森林学习的速度可能会很慢(取决于参数设置),并且这种方法不能迭代地改进生成模型。
在下列现实世界的应用中,你可以使用随机森林:
预测高危患者
预测零件在生产中的故障
预测拖欠贷款的人
神经网络
神经网络中包含着神经元之间连接的权重。这些权重是平衡的,逐次对数据点进行学习。当所有的权重都被训练好后,如果需要对新给定的数据点进行回归,神经网络可以被用于预测分类结果或一个具体数值。利用神经网络,可以对特别复杂的模型进行训练,并且将其作为一种黑盒方法加以利用,而在训练模型之前,我们无需进行不可预测的复杂特征工程。通过与“深度方法”相结合,甚至可以采用更加不可预测的模型去实现新任务。例如,最近人们已经通过深度神经网络大大提升了物体识别任务的结果。深度学习还被应用于特征提取这样的非监督学习任务,也可以在人为干预更少的情况下,从原始图像或语音中提取特征。
另一方面,神经网络很难被解释清楚,其参数设置也复杂地让人难以置信。此外,神经网络算法也都是资源密集型和内存密集型的。
SCIKIT 参考手册
Scikit learning 为大家提供了一个非常深入的、解释地很清楚的流程图,它能够帮助你选择正确的算法。我认为此图十分方便。
结论
一般来说,你可以根据上面介绍的要点来筛选出一些算法,但是要想在一开始就知道哪种方法最好是很难的。你最好多迭代几次选择算法的过程。将你的数据输入给那些你确定的潜在优秀机器学习算法,通过并行或串行的方式运行这些算法,最终评估算法性能,从而选择出最佳的算法。
在最后,我想告诉你:为现实生活中的问题找到正确的解决方案,通常不仅仅是一个应用数学方法的问题。这要求我们对业务需求、规则和制度、相关利益者的关注点有所了解,并且具备大量的专业知识。在解决一个机器学习问题的同时,能够结合并平衡这些问题是至关重要的,那些能做到这一点的人可以创造最大的价值。
5. 决策树决策法是
决策树分类算法是数据挖掘技术中的一种预测模型,它通过次序、无规则的样本数据集推理出决策树表示形式,并用于目标数据集的分类。它可以用来处理高维数据且具有很好的准确率,其构造不需要任何领域知识或参数设置,因此适合于探测式知识发现。目前决策树分类算法已经成功地应用于许多领域的分类,如商业、医学、制造和生产、金融分析、天文学和分子生物学等。
决策树整体结构类似于流程图的树结构,其中每个内部节点(非叶节点)表示在某个属性上的测试,每个分枝代表一个测试输出,而每个树叶节点(或终结点)存放一个类标号。树的最顶层节点是根节点。
在决策树的构建过程中,采用自顶向下的递归方式,在树的内部结点进行属性值(预测变量)的比较并根据不同的属性值判断从该结点向下的分支直至叶节点的形成,为了避免决策树过于复杂和庞大,同时防止过度拟合现象的发生,需要在生成决策树的过程中或者是结束后对决策树进行剪枝。
“如何使用决策树分类?”我们可以直接利用生成的决策树模型,即给定一个与样本数据具有相同属性但类标号未知元组X,在决策树上测试数据集的属性值,根据某条由根到叶节点的路径,该叶节点就存放着该元组的类预测;我们也可以将决策树模型转换成分类规则集,每条规则对应由根到叶节点路径上的判断条件以及叶节点中的类别,然后利用规则集对未知元组进行类别划分。
目前主要的决策树分类算法有:在20世纪80年代后期和80年代初期,机器学习研究者I.Ross.Quinlan开发了决策树算法,称作ID3。Quinlan后来提出了C4.5。1984年几位统计学家(L.Breiman,J.Friedman,R.Qlshen和C.Stone)出版了分类与回归树(CART)。C5.0是Quinlan在C4.5算法的基础上引入Boosting技术而来新算法,但是Quinlan提出的C5.0算法是直接做成应用软件进行商业化的,因此Quinlan对C5.0算法的步骤及数学描述还未公布,此外还有张晓贺开发的用于遥感影像分类的提升树GLC树。
6. 常见决策树分类算法都有哪些
在机器学习中,有一个体系叫做决策树,决策树能够解决很多问题。在决策树中,也有很多需要我们去学习的算法,要知道,在决策树中,每一个算法都是实用的算法,所以了解决策树中的算法对我们是有很大的帮助的。在这篇文章中我们就给大家介绍一下关于决策树分类的算法,希望能够帮助大家更好地去理解决策树。
1.C4.5算法
C4.5算法就是基于ID3算法的改进,这种算法主要包括的内容就是使用信息增益率替换了信息增益下降度作为属性选择的标准;在决策树构造的同时进行剪枝操作;避免了树的过度拟合情况;可以对不完整属性和连续型数据进行处理;使用k交叉验证降低了计算复杂度;针对数据构成形式,提升了算法的普适性等内容,这种算法是一个十分使用的算法。
2.CLS算法
CLS算法就是最原始的决策树分类算法,基本流程是,从一棵空数出发,不断的从决策表选取属性加入数的生长过程中,直到决策树可以满足分类要求为止。CLS算法存在的主要问题是在新增属性选取时有很大的随机性。
3.ID3算法
ID3算法就是对CLS算法的最大改进是摒弃了属性选择的随机性,利用信息熵的下降速度作为属性选择的度量。ID3是一种基于信息熵的决策树分类学习算法,以信息增益和信息熵,作为对象分类的衡量标准。ID3算法结构简单、学习能力强、分类速度快适合大规模数据分类。但同时由于信息增益的不稳定性,容易倾向于众数属性导致过度拟合,算法抗干扰能力差。
3.1.ID3算法的优缺点
ID3算法的优点就是方法简单、计算量小、理论清晰、学习能力较强、比较适用于处理规模较大的学习问题。缺点就是倾向于选择那些属性取值比较多的属性,在实际的应用中往往取值比较多的属性对分类没有太大价值、不能对连续属性进行处理、对噪声数据比较敏感、需计算每一个属性的信息增益值、计算代价较高。
3.2.ID3算法的核心思想
根据样本子集属性取值的信息增益值的大小来选择决策属性,并根据该属性的不同取值生成决策树的分支,再对子集进行递归调用该方法,当所有子集的数据都只包含于同一个类别时结束。最后,根据生成的决策树模型,对新的、未知类别的数据对象进行分类。
在这篇文章中我们给大家介绍了决策树分类算法的具体内容,包括有很多种算法。从中我们不难发现决策树的算法都是经过不不断的改造趋于成熟的。所以说,机器学习的发展在某种程度上就是由于这些算法的进步而来的。
7. 什么是基于决策树的遥感影像分类啊
决策树分类法己被应用于许多分类问题,但应用于遥感分类的研究成果并不多见。决策树分类法具有灵活、直观、清晰、强健、运算效率高等特点,在遥感分类问题上表现出巨大优势。本文以广东省广州市从化地区的SPOT5卫星遥感影像为研究对象,基于决策树分类算法在遥感影像分类方面的深厚潜力,探讨了6种不同的决策树算法—包括单一决策树模(CART,CHAIR,exhaustive,QUEST和组合决策树模型(提升树,决策树森林)。首先对决策树算法结构、算法理论进行了阐述,然后利用这些决策树算法进行遥感土地覆盖分类实验,并把获得的结果与传统的最大似然分类和人工神经元网络分类进行比较。
基于决策树分类算法在遥感影像分类方面的深厚潜力,探讨了3种不同的决策树算法(UDT、MDT和HDT).首先对决策树算法结构、算法理论进行了阐述:具体利用决策树算法进行遥感土地覆盖分类实验,并把获得的结果与传统统计分类法进行比较.研究表明,决策树分类法相对简单、明确,分类结构直观,有诸多优势.
8. 单一决策树 随机森林和梯度提升算法的区别
其实,在计算量方面,两者有很大的不同,因而在面对给定的问题时,可以有选择性的根据问题的性质选择两种方法中的一个. 具体来说,最 小二乘法的矩阵公式是 ,这里的 A 是一个矩阵,b 是一个向量.如果有离散数据点,,而想要拟合的方程又大致形如 ,那么,A 就是一个 的矩阵,第 i 行的数据点分别是 ,而 b 则是一个向量,其值为 .而又已知,计算一个矩阵的逆是相当耗费时间的,而且求逆也会存在数值不稳定的情况 (比如对希尔伯特矩阵求逆就几乎是不可能的).因而这样的计算方法有时不值得提倡. 相比之下,梯度下降法虽然有一些弊端,迭代的次数可能也比较高,但是相对来说计算量并不是特别大.而且,在最小二乘法这个问题上,收敛性有保证.故在大数据量的时候,反而是梯度下降法 (其实应该是其他一些更好的迭代方法) 更加值得被使用. 当然,其实梯度下降法还有别的其他用处,比如其他找极值问题.另外,牛顿法也是一种不错的方法,迭代收敛速度快于梯度下降法,只是计算代价也比较高.
9. 统计学习方法的作品目录
《统计学习方法》
第1章统计学习方法概论
1.1统计学习
1.2监督学习
1.2.1基本概念
1.2.2问题的形式化
1.3统计学习三要素
1.3.1模型
1.3.2策略
1.3.3算法
1.4模型评估与模型选择
1.4.1训练误差与测试误差
1.4.2过拟合与模型选择
1.5i~则化与交叉验证
1.5.1正则化
1.5.2交叉验证
1.6泛化能力
1.6.1泛化误差
1.6.2泛化误差上界
1.7生成模型与判别模型
.1.8分类问题
1.9标注问题
1.10回归问题
本章概要
继续阅读
习题
参考文献
第2章感知机
2.1感知机模型
2.2感知机学习策略
2.2.1数据集的线性可分性
2.2.2感知机学习策略
2.3感知机学习算法
2.3.1感知机学习算法的原始形式
2.3.2算法的收敛性
2.3.3感知机学习算法的对偶形式
本章概要
继续阅读
习题
参考文献
第3章众近邻法
3.1 k近邻算法
3.2 k近邻模型
3.2.1模型
3.2.2距离度量
·3.2.3 k值的选择
3.2.4分类决策规则
3.3k近邻法的实现:kd树
3.3.1构造af树
3.3.2搜索af树
本章概要
继续阅读
习题
参考文献
第4章朴素贝叶斯法
4.1朴素贝叶斯法的学习与分类
4.1.1基本方法
4.1.2后验概率最大化的含义
4.2朴素贝叶斯法的参数估计
4.2.1极大似然估计
4.2.2学习与分类算法
4.2.3贝叶斯估计
本章概要
继续阅读
习题
参考文献
第5章决策树
5.1决策树模型与学习
5.1.1决策树模型
5.1.2决策树与isthen规则
5.1.3决策树与条件概率分布
5.1.4决策树学习
5.2特征选择
5.2.1特征选择问题
5.2.2信息增益
5.2.3信息增益比
5.3决策树的生成
5.3.11d3算法
5.3.2 c4.5的生成算法
5.4决策树的剪枝
5.5cart算法
5.5.1cart生成
5.5.2cart剪枝
本章概要
继续阅读
习题
参考文献
第6章逻辑斯谛回归与最大熵模型
6.1逻辑斯谛回归模型
6.1.1逻辑斯谛分布
6.1.2项逻辑斯谛回归模型
6.1.3模型参数估计
6.1.4多项逻辑斯谛回归
6.2最大熵模型
6.2.1最大熵原理
6.2.2最大熵模型的定义
6.2.3最大熵模型的学习
6.2.4极大似然估计
6.3模型学习的最优化算法
6.3.1改进的迭代尺度法
6.3.2拟牛顿法
本章概要
继续阅读
习题
参考文献
第7章支持向量机
7.1线性可分支持向量机与硬间隔最大化
7.1.1线性可分支持向量机
7.1.2函数间隔和几何间隔
7.1.3间隔最大化
7.1.4学习的对偶算法
7.2线性支持向量机与软间隔最大化
7.2.1线性支持向量机
7.2.2学习的对偶算法
7.2.3支持向量
7.2.4合页损失函数
7.3非线性支持向量机与核函数
7.3.1核技巧
7.3.2定核
7.3.3常用核函数
7.3.4非线性支持向量分类机
7.4序列最小最优化算法
7.4.1两个变量二次规划的求解方法
7.4.2变量的选择方法
7.4.3smo算法
本章概要
继续阅读
习题
参考文献
第8章提升方法
8.1提升方法adaboost算法
8.1.1提升方法的基本思路
8.1.2adaboost算法
8.1.3 adaboost的例子
8.2adaboost算法的训练误差分析
8.3 adaboost算法的解释
8.3.1前向分步算法
8.3.2前向分步算法与ad9boost
8.4提升树
8.4.1提升树模型
8.4.2提升树算法
8.4.3梯度提升
本章概要
继续阅读
习题
参考文献
第9章em算法及其推广
9.1em算法的引入
9.1.1em算法
9.1.2em算法的导出
9.1.3em算法在非监督学习中的应用
9.2em算法的收敛性
9.3em算法在高斯混合模型学习中的应用
9.3.1高斯混合模型
9.3.2高斯混合模型参数估计的em算法
9.4em算法的推广
9.4.1f函数的极大极大算法
9.4.2gem算法
本章概要
继续阅读
习题
参考文献
第10章隐马尔可夫模型
10.1隐马尔可夫模型的基本概念
10.1.1隐马尔可夫模型的定义
10.1.2观测序列的生成过程
10.1.3隐马尔可夫模型的3个基本问题
10.2概率计算算法
10.2.1直接计算法
10.2.2前向算法
10.2.3后向算法
10.2.4一些概率与期望值的计算
10.3学习算法
10.3.1监督学习方法
10.3.2baum-welch算法
10.3.3baum-welch模型参数估计公式
10.4预测算法
10.4.1近似算法
10.4.2维特比算法
本章概要
继续阅读
习题
参考文献
第11章条件随机场
11.1概率无向图模型
11.1.1模型定义
11.1.2概率无向图模型的因子分解
11.2条件随机场的定义与形式
11.2.1条件随机场的定义
11.2.2条件随机场的参数化形式
11.2.3条件随机场的简化形式
11.2.4条件随机场的矩阵形式
11.3条件随机场的概率计算问题
11.3.1前向后向算法
11.3.2概率计算
11.3.3期望值的计算
11.4条件随机场的学习算法
11.4.1改进的迭代尺度法
11.4.2拟牛顿法
11.5条件随机场的预测算法
本章概要
继续阅读
习题
参考文献
第12章统计学习方法总结
附录a梯度下降法
附录b牛顿法和拟牛顿法
附录c拉格朗日对偶性
索引
10. 用于数据挖掘的分类算法有哪些,各有何优劣
常见的机器学习分类算法就有,不常见的更是数不胜数,那么我们针对某个分类问题怎么来选择比较好的分类算法呢?下面介绍一些算法的优缺点:
1. 朴素贝叶斯
比较简单的算法,所需估计的参数很少,对缺失数据不太敏感。如果条件独立性假设成立,即各特征之间相互独立,朴素贝叶斯分类器将会比判别模型,如逻辑回归收敛得更快,因此只需要较少的训练数据。就算该假设不成立,朴素贝叶斯分类器在实践中仍然有着不俗的表现。如果你需要的是快速简单并且表现出色,这将是个不错的选择。其主要缺点现实生活中特征之间相互独立的条件比较难以实现。
2. 逻辑回归
模型训练时,正则化方法较多,而且你不必像在用朴素贝叶斯那样担心你的特征是否相关。与决策树与支持向量机相比,逻辑回归模型还会得到一个不错的概率解释,你甚至可以轻松地利用新数据来更新模型(使用在线梯度下降算法)。如果你需要一个概率架构(比如简单地调节分类阈值,指明不确定性,获得置信区间),或者你以后想将更多的训练数据快速整合到模型中去,逻辑回归是一个不错的选择。
3. 决策树
决策树的分类过程易于解释说明。它可以毫无压力地处理特征间的交互关系并且是非参数化的,因此你不必担心异常值或者数据是否线性可分。它的一个缺点就是不支持在线学习,于是在新样本到来后,决策树需要全部重建。另一个缺点是容易过拟合,但这也就是诸如随机森林(或提升树)之类的集成方法的切入点。另外,随机森林经常是多分类问题的赢家(通常比支持向量机好上那么一点),它快速并且可调,同时你无须担心要像支持向量机那样调一大堆参数,所以随机森林相当受欢迎。
4. 支持向量机
高准确率,为避免过拟合提供了很好的理论保证,而且就算数据在原特征空间线性不可分,只要给个合适的核函数,它就能运行得很好。在超高维的文本分类问题中特别受欢迎。可惜内存消耗大,难以解释,运行和调参也有些烦人,所以我认为随机森林要开始取而代之了。
但是,好的数据却要优于好的算法,设计优良特征比优良的算法好很多。假如你有一个超大数据集,那么无论你使用哪种算法可能对分类性能都没太大影响(此时就根据速度和易用性来进行抉择)。
如果你真心在乎准确率,你一定得尝试多种多样的分类器,并且通过交叉验证选择最优。