标准算法
A. 数据挖掘十大算法-
整理里一晚上的数据挖掘算法,其中主要引自wiki和一些论坛。发布到上作为知识共享,但是发现Latex的公式转码到网页的时候出现了丢失,暂时没找到解决方法,有空再回来填坑了。
——编者按
一、 C4.5
C4.5算法是由Ross Quinlan开发的用于产生决策树的算法[1],该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法主要应用于统计分类中,主要是通过分析数据的信息熵建立和修剪决策树。
1.1 决策树的建立规则
在树的每个节点处,C4.5选择最有效地方式对样本集进行分裂,分裂规则是分析所有属性的归一化的信息增益率,选择其中增益率最高的属性作为分裂依据,然后在各个分裂出的子集上进行递归操作。
依据属性A对数据集D进行分类的信息熵可以定义如下:
划分前后的信息增益可以表示为:
那么,归一化的信息增益率可以表示为:
1.2 决策树的修剪方法
C4.5采用的剪枝方法是悲观剪枝法(Pessimistic Error Pruning,PEP),根据样本集计算子树与叶子的经验错误率,在满足替换标准时,使用叶子节点替换子树。
不妨用K表示训练数据集D中分类到某一个叶子节点的样本数,其中其中错误分类的个数为J,由于用估计该节点的样本错误率存在一定的样本误差,因此用表示修正后的样本错误率。那么,对于决策树的一个子树S而言,设其叶子数目为L(S),则子树S的错误分类数为:
设数据集的样本总数为Num,则标准错误可以表示为:
那么,用表示新叶子的错误分类数,则选择使用新叶子节点替换子树S的判据可以表示为:
二、KNN
最近邻域算法(k-nearest neighbor classification, KNN)[2]是一种用于分类和回归的非参数统计方法。KNN算法采用向量空间模型来分类,主要思路是相同类别的案例彼此之间的相似度高,从而可以借由计算未知样本与已知类别案例之间的相似度,来实现分类目标。KNN是一种基于局部近似和的实例的学习方法,是目前最简单的机器学习算法之一。
在分类问题中,KNN的输出是一个分类族群,它的对象的分类是由其邻居的“多数表决”确定的,k个最近邻居(k为正整数,通常较小)中最常见的分类决定了赋予该对象的类别。若k = 1,则该对象的类别直接由最近的一个节点赋予。在回归问题中,KNN的输出是其周围k个邻居的平均值。无论是分类还是回归,衡量邻居的权重都非常重要,目标是要使较近邻居的权重比较远邻居的权重大,例如,一种常见的加权方案是给每个邻居权重赋值为1/d,其中d是到邻居的距离。这也就自然地导致了KNN算法对于数据的局部结构过于敏感。
三、Naive Bayes
在机器学习的众多分类模型中,应用最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBC)[3]。朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。
在假设各个属性相互独立的条件下,NBC模型的分类公式可以简单地表示为:
但是实际上问题模型的属性之间往往是非独立的,这给NBC模型的分类准确度带来了一定影响。在属性个数比较多或者属性之间相关性较大时,NBC模型的分类效率比不上决策树模型;而在属性相关性较小时,NBC模型的性能最为良好。
四、CART
CART算法(Classification And Regression Tree)[4]是一种二分递归的决策树,把当前样本划分为两个子样本,使得生成的每个非叶子结点都有两个分支,因此CART算法生成的决策树是结构简洁的二叉树。由于CART算法构成的是一个二叉树,它在每一步的决策时只能是“是”或者“否”,即使一个feature有多个取值,也是把数据分为两部分。在CART算法中主要分为两个步骤:将样本递归划分进行建树过程;用验证数据进行剪枝。
五、K-means
k-平均算法(k-means clustering)[5]是源于信号处理中的一种向量量化方法,现在则更多地作为一种聚类分析方法流行于数据挖掘领域。k-means的聚类目标是:把n个点(可以是样本的一次观察或一个实例)划分到k个聚类中,使得每个点都属于离他最近的均值(此即聚类中心)对应的聚类。
5.1 k-means的初始化方法
通常使用的初始化方法有Forgy和随机划分(Random Partition)方法。Forgy方法随机地从数据集中选择k个观测作为初始的均值点;而随机划分方法则随机地为每一观测指定聚类,然后执行“更新”步骤,即计算随机分配的各聚类的图心,作为初始的均值点。Forgy方法易于使得初始均值点散开,随机划分方法则把均值点都放到靠近数据集中心的地方;随机划分方法一般更适用于k-调和均值和模糊k-均值算法。对于期望-最大化(EM)算法和标准k-means算法,Forgy方法作为初始化方法的表现会更好一些。
5.2 k-means的标准算法
k-means的标准算法主要包括分配(Assignment)和更新(Update),在初始化得出k个均值点后,算法将会在这两个步骤中交替执行。
分配(Assignment):将每个观测分配到聚类中,使得组内平方和达到最小。
更新(Update):对于上一步得到的每一个聚类,以聚类中观测值的图心,作为新的均值点。
六、Apriori
Apriori算法[6]是一种最有影响的挖掘布尔关联规则频繁项集的算法,其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。Apriori采用自底向上的处理方法,每次只扩展一个对象加入候选集,并且使用数据集对候选集进行检验,当不再产生匹配条件的扩展对象时,算法终止。
Apriori的缺点在于生成候选集的过程中,算法总是尝试扫描整个数据集并尽可能多地添加扩展对象,导致计算效率较低;其本质上采用的是宽度优先的遍历方式,理论上需要遍历次才可以确定任意的最大子集S。
七、SVM
支持向量机(Support Vector Machine, SVM)[7]是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练实例,每个训练实例被标记为属于两个类别中的一个或另一个,SVM训练算法创建一个将新的实例分配给两个类别之一的模型,使其成为非概率二元线性分类器。SVM模型是将实例表示为空间中的点,这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后,将新的实例映射到同一空间,并基于它们落在间隔的哪一侧来预测所属类别。
除了进行线性分类之外,SVM还可以使用所谓的核技巧有效地进行非线性分类,将其输入隐式映射到高维特征空间中,即支持向量机在高维或无限维空间中构造超平面或超平面集合,用于分类、回归或其他任务。直观来说,分类边界距离最近的训练数据点越远越好,因为这样可以缩小分类器的泛化误差。
八、EM
最大期望算法(Expectation–Maximization Algorithm, EM)[7]是从概率模型中寻找参数最大似然估计的一种算法。其中概率模型依赖于无法观测的隐性变量。最大期望算法经常用在机器学习和计算机视觉的数据聚类(Data Clustering)领域。最大期望算法经过两个步骤交替进行计算,第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值;第二步是最大化(M),最大化在E步上求得的最大似然值来计算参数的值。M步上找到的参数估计值被用于下一个E步计算中,这个过程不断交替进行。
九、PageRank
PageRank算法设计初衷是根据网站的外部链接和内部链接的数量和质量对网站的价值进行衡量。PageRank将每个到网页的链接作为对该页面的一次投票,被链接的越多,就意味着被其他网站投票越多。
算法假设上网者将会不断点网页上的链接,当遇到了一个没有任何链接出页面的网页,这时候上网者会随机转到另外的网页开始浏览。设置在任意时刻,用户到达某页面后并继续向后浏览的概率,该数值是根据上网者使用浏览器书签的平均频率估算而得。PageRank值可以表示为:
其中,是被研究的页面集合,N表示页面总数,是链接入页面的集合,是从页面链接处的集合。
PageRank算法的主要缺点是的主要缺点是旧的页面等级会比新页面高。因为即使是非常好的新页面也不会有很多外链,除非它是某个站点的子站点。
十、AdaBoost
AdaBoost方法[10]是一种迭代算法,在每一轮中加入一个新的弱分类器,直到达到某个预定的足够小的错误率。每一个训练样本都被赋予一个权重,表明它被某个分类器选入训练集的概率。如果某个样本点已经被准确地分类,那么在构造下一个训练集中,它被选中的概率就被降低;相反,如果某个样本点没有被准确地分类,那么它的权重就得到提高。通过这样的方式,AdaBoost方法能“聚焦于”那些较难分的样本上。在具体实现上,最初令每个样本的权重都相等,对于第k次迭代操作,我们就根据这些权重来选取样本点,进而训练分类器Ck。然后就根据这个分类器,来提高被它分错的的样本的权重,并降低被正确分类的样本权重。然后,权重更新过的样本集被用于训练下一个分类器Ck[,并且如此迭代地进行下去。
AdaBoost方法的自适应在于:前一个分类器分错的样本会被用来训练下一个分类器。AdaBoost方法对于噪声数据和异常数据很敏感。但在一些问题中,AdaBoost方法相对于大多数其它学习算法而言,不会很容易出现过拟合现象。AdaBoost方法中使用的分类器可能很弱(比如出现很大错误率),但只要它的分类效果比随机好一点(比如两类问题分类错误率略小于0.5),就能够改善最终得到的模型。而错误率高于随机分类器的弱分类器也是有用的,因为在最终得到的多个分类器的线性组合中,可以给它们赋予负系数,同样也能提升分类效果。
引用
[1] Quinlan, J. R. C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, 1993.
[2] Altman, N. S. An introction to kernel and nearest-neighbor nonparametric regression. The American Statistician. 1992, 46 (3): 175–185. doi:10.1080/00031305.1992.10475879
[3] Webb, G. I.; Boughton, J.; Wang, Z. Not So Naive Bayes: Aggregating One-Dependence Estimators. Machine Learning (Springer). 2005, 58 (1): 5–24. doi:10.1007/s10994-005-4258-6
[4] decisiontrees.net Interactive Tutorial
[5] Hamerly, G. and Elkan, C. Alternatives to the k-means algorithm that find better clusterings (PDF). Proceedings of the eleventh international conference on Information and knowledge management (CIKM). 2002
[6] Rakesh Agrawal and Ramakrishnan Srikant. Fast algorithms for mining association rules in large databases. Proceedings of the 20th International Conference on Very Large Data Bases, VLDB, pages 487-499, Santiago, Chile, September 1994.
[7] Cortes, C.; Vapnik, V. Support-vector networks. Machine Learning. 1995, 20 (3): 273–297. doi:10.1007/BF00994018
[8] Arthur Dempster, Nan Laird, and Donald Rubin. "Maximum likelihood from incomplete data via the EM algorithm". Journal of the Royal Statistical Society, Series B, 39 (1):1–38, 1977
[9] Susan Moskwa. PageRank Distribution Removed From WMT. [October 16, 2009]
[10] Freund, Yoav; Schapire, Robert E. A Decision-Theoretic Generalization of on-Line Learning and an Application to Boosting. 1995. CiteSeerX: 10.1.1.56.9855
B. 标准体重的算法
计算标准体重的方法很多,不同国家的的标准体重可能也不一样,世界卫生组织的的标准体重是这样计算的,男性是(身高cm-80×70﹪=标准体重,女性是(身高cm-70×60﹪=标准体重,标准体重是反映和衡量一个人健康状况的重要标志之一。
成人标准体重,一般是身高(cm)-105再乘2,而计算体重指数的方式是体重(kg)/身高(m)的平方,如果身体BMI指数在18.5-24之间,则属于正常体重范围,BMI在24-28之间,属于超重。BMI大于等于28则属于肥胖。老年人的体重指数一般在25左右属于正常。
(2)标准算法扩展阅读
标准体重是反映和衡量一个人健康状况的重要标志之一。过胖和过瘦都不利于健康,也不会给人以健美感。不同体型的大量统计材料表明,反映正常体重较理想和简单的指标,可用身高体重的关系来表示。
轻度肥胖:超过标准体重 20% - 30 %
中度肥胖:超过标准体重 30% - 50 %
重度肥胖:超过标准体重 50% 以上
C. 标准体重怎么计算
普遍采用的计算方法有两种:
一种是:成年:〔身高(cm)-100〕×0.9=标准体重(kg)
另一种是:
男性:身高(cm)-105=标准体重(kg);女性:身高(cm)-100=标准体重(kg)
以上两种计算方法,基本已被广泛采用。
儿童标准体重的计算,简便的方法是:
1~6个月:出生体重(kg)+月龄×0.6=标准体重(kg)
7~12个月:出生体重(kg)+月龄×0.5=标准体重(kg)
1岁以上:8+年龄×2=标准体重(kg)
(3)标准算法扩展阅读
标准体重是反映和衡量一个人健康的重要指标之一。太胖太瘦不利于健康,也不会给人一种健康的感觉。大量不同体型的统计资料表明,反映正常体重的理想而简单的指标可以用身高与体重的关系来表示。
体重指数是用体重除以身高的平方得到的数字。它是世界上普遍使用的标准,用来测量身体的脂肪和瘦度,以及它是否健康。当我们需要比较和分析一个人的体重对不同身高的人的健康影响时,体重指数是一个中性和可靠的指标。
体重控制计划可以使用四种疗法:饮食和营养咨询、行为疗法、药物和手术。饮食现在很少使用传统的饮食疗法;取而代之的是强调改变长期习惯。大多数项目教顾客如何安全、明智、渐进地进食。
D. 标准体重怎样算
标准体重怎样算
标准体重怎样算,很多人不知道好身材的标准是什么,其实主要还要看比例,那么体重的标准呢,不同性别不同年龄不同身高都有不一样的标准体重,以下分享标准体重怎样算。
标准体重怎样算1
标准体重计算公式:
男性=(身高cm-80)×70%;
女性=(身高cm-70)×60%;
BMI指数计算公式: BMI = 体重 ÷ 身高2;
所谓的标题体重,就是指在人体在健康状态下合理范围内的体重与身高比,而这个标准体重指数也是国际医疗组织、体检机构来衡量人体胖瘦与健康的标准之一。
一胖百病来,身体太瘦或者太胖都是不正常的,太瘦就会出现营养不良,太胖就会出现“三高”,过胖和过瘦还会降低的身体的美感。
标准体重计算公式又称为BMI计算公式,一个健康人的正常BMI值范围应该是在:18.5~24之间,而标准体重只是一个相对的概念,并没有一个固定的数值,可以说BMI是一种相当简陋的健康评估方式,因为它没有考虑到身体的外观或机能表现等,虽然它对于宏观人口研究是个不错的工具,但对于个体而言并不适合。
由于标准体重(BMI)指数不会考虑男女性别、年龄因素,但是BMI只要超过24就是过重,超过28就是肥胖,然而正常情况下超过35岁的成年人体重应该比青少年重,这属于正常现象。
标准体重计算公式算出的答案只是一个参考标准,如果想要更准确的了解自己的身体肥胖程度,那么还要借助“体脂率计算器”来完成,因为这个计算器是整合了性别、年龄、身高、体重等综合数据算出来的结果,所以更加的科学精准。
不管我们的BMI值或者体重怎么样,我们都应该保持良好的生活以及饮食习惯,毕竟病从口入,多运动才是健康长寿的核心要素。
(4)标准算法扩展阅读
体重是反映和衡量一个人健康状况的重要标志之一,过胖和过瘦都不利于健康,身高体重不协调也不会给人以美感。
体重的变化,会直接反映身体长期的热量平衡状态。
可以参考BMI指数,看自己的体重是否超标,因为每个人的骨骼大小存在差异,单纯的标准体重不一定适合自己,要找到适合自己最佳体重。
标准体重怎样算2
根据世界卫生组织推荐的计算方法:
男性标准体重计算方法为(身高cm-80)×70%
女性标准体重计算方法为(身高cm-70)×60%
评判标准如下表。
根据年龄的不同,标准体重算法为:
年龄 x 2 + 8 ( 7 - 16 岁 )
评判标准如图所示。
还有一种简单的算法是:标准体重=自身身高-105,不过这种算法只适用于成年人。
而儿童的身高多少会跟儿童发育的快慢有关,所以也不一定在标准的范围内才是健康的宝宝,希望在爸爸妈妈们悉心照料下健康的成长。
关于标准体重的计算方法有很多种,简单的复杂的国际的通用的,大家仅作参考就好,不管符不符合标准体重都要爱惜身体,保持健康。
标准体重怎样算3
身体比例标准
1、上、下身比例:以肚脐为界.上下身比例应为5比8。
2、胸围:由腋下沿胸部的上方最丰满处测量胸围.应为身高的一半。
3、腰围:在正常情况下.量腰的最细部位.腰围较胸围小20厘米。
4、髋围:在体前耻骨平行于臀部最大部位.髋围较胸围大4厘米。
5、大腿围:在大腿的最上部位.臀折线下.大腿围较腰围小10厘米。
6、小腿围:在小腿最丰满处.小腿围较大腿围小20厘米。
7、足颈围:在足颈的最细部位.足颈围较小腿围小10厘米。
8、上臂围:在肩关节与肘关节之间的中部.上臂围等于大腿围的'一半。
9、颈围:在颈的中部最细处.颈围与小腿围相等。
10、肩宽:两肩峰之间的距离.肩宽等于胸围的一半减4厘米。
(4)标准算法扩展阅读
人体即一个人的身体,主要组成部分有头、颈、躯干、双臂及双腿。在一般生物学或医学而言,人体除包括以上各部分,亦包括呼吸、心血管、神经系统和其他内脏,而每部分皆由细胞构成。
人体表面是皮肤。皮肤下面有肌肉和骨骼。在头部和躯干部,由皮肤、肌肉和骨骼围成为两个大的腔:颅腔和体腔颅腔和脊柱里的椎管相通。
颅腔内有脑,与椎管中的脊髓相连。体腔又由膈分为上下两个腔:上面的叫胸腔,内有心、肺等器官;下面的叫腹腔,腹腔的最下部(即骨盆内的部分)又叫盆腔,腹腔内有胃、肠、肝、肾等器官,盆腔内有膀胱和直肠,女性还有卵巢、子宫等器官。
骨骼结构是人体构造的关键,在外形上决定着人体比例的长短、体形的大小以及各肢体的生长形状。人体约有206块骨,组成人体的支架。
E. 30天标准工资算法公式是什么
按年、季、月的天数进行核算
年工作日:365天-104天(休息日)-11天(法定节假日)=250天
季工作日:250天÷4季=62.5天/季
月工作日:250天÷12月=20.83天/月
工作小时数的计算:以月、季、年的工作日乘以每日的8小时。
(5)标准算法扩展阅读:
按照《劳动法》第五十一条的规定,法定节假日用人单位应当依法支付工资,即折算日工资、小时工资时不剔除国家规定的11天法定节假日。据此,日工资、小时工资的折算为:
日工资:月工资收入÷月计薪天数
小时工资:月工资收入÷(月计薪天数×8小时)
月计薪天数=(365天-104天)÷12月=21.75天
根据计算方式的不同,各有所长。所以结合薪资,可根据实际情况判断哪种情况更为符合自身。