科普算法

发布时间: 2024-06-25 11:24:24

1. 绉戞櫘:锲戒骇瀵嗙爜绠楁硶

1銆佸浗瀵嗙畻娉曟槸锲藉跺瘑镰佸眬鍒跺畾镙囧嗳镄勪竴绯诲垪绠楁硶銆傚叾涓鍖呮嫭浜嗗圭О锷犲瘑绠楁硶锛屾き鍦嗘洸绾块潪瀵圭О锷犲瘑绠楁硶锛屾潅鍑戠畻娉曘傚叿浣揿寘𨰾琒MSMSMSMS4绛夛纴鍏朵腑锛歋M1锛氩圭О锷犲瘑绠楁硶锛屽姞瀵嗗己搴︿负128浣嶏纴閲囩敤纭浠跺疄鐜般

2銆佸浗瀵嗗嵆锲藉跺瘑镰佸眬璁ゅ畾镄勫浗浜у瘑镰佺畻娉曘备富瑕佹湁SM1锛孲M2锛孲M3锛孲M4銆傚瘑阍ラ暱搴﹀拰鍒嗙粍闀垮害鍧囦负128浣嶃

3銆佸浗瀵嗙畻娉曪细锲藉跺瘑镰佸眬璁ゅ畾镄勫浗浜у瘑镰佺畻娉曪纴鍗冲晢鐢ㄥ瘑镰併

4銆佸浗瀵嗗嵆锲藉跺瘑镰佸眬璁ゅ畾镄勫浗浜у瘑镰佺畻娉曘备緥濡傦细鍦ㄩ棬绂佸簲鐢ㄤ腑锛岄噰鐢⊿M1绠楁硶杩涜岃韩浠介壌鍒鍜屾暟鎹锷犲瘑阃氲锛屽疄鐜板崱鐗囧悎娉曟х殑楠岃瘉锛屼缭璇佽韩浠借瘑鍒镄勭湡瀹炴с傚畨鍏ㄦ槸鍏崇郴锲藉躲佸煄甯备俊鎭銆佽屼笟鐢ㄦ埛銆佺栌濮揿埄鐩婄殑鍏抽敭闂棰樸

5銆佹渶鏂扮畻娉曞备笅锛岀洰鍓嶏纴鎴戝浗镊涓荤爷鍙戠殑甯哥敤镄勫浗浜у瘑镰佺畻娉曟湁浠ヤ笅鍑犵嶏细SM1绠楁硶銆

2. 干货 | 基础机器学习算法

本篇内容主要是面向机器学习初学者,介绍常见的机器学习算法，当然,欢迎同行交流。

哲学要回答的基本问题是从哪里来、我是谁、到哪里去，寻找答案的过程或许可以借鉴机器学习的套路：组织数据->挖掘知识->预测未来。组织数据即为设计特征，生成满足特定格式要求的样本，挖掘知识即建模，而预测未来就是对模型的应用。

特征设计依赖于对业务场景的理解，可分为连续特征、离散特征和组合高阶特征。本篇重点是机器学习算法的介绍，可以分为监督学习和无监督学习两大类。

无监督学习算法很多，最近几年业界比较关注主题模型，LSA->PLSA->LDA 为主题模型三个发展阶段的典型算法，它们主要是建模假设条件上存在差异。LSA假设文档只有一个主题，PLSA 假设各个主题的概率分布不变（theta 都是固定的），LDA 假设每个文档和词的主题概率是可变的。

LDA 算法本质可以借助上帝掷骰子帮助理解，详细内容可参加 Rickjin 写的《 LDA 数据八卦》文章，浅显易懂，顺便也科普了很多数学知识，非常推荐。

监督学习可分为分类和回归，感知器是最简单的线性分类器，现在实际应用比较少，但它是神经网络、深度学习的基本单元。

线性函数拟合数据并基于阈值分类时，很容易受噪声样本的干扰，影响分类的准确性。逻辑回归（Logistic Regression）利用 sigmoid 函数将模型输出约束在 0 到 1 之间，能够有效弱化噪声数据的负面影响，被广泛应用于互联网广告点击率预估。

逻辑回归模型参数可以通过最大似然求解，首先定义目标函数 L ( theta )，然后 log 处理将目标函数的乘法逻辑转化为求和逻辑（最大化似然概率 -> 最小化损失函数），最后采用梯度下降求解。

相比于线性分类去，决策树等非线性分类器具有更强的分类能力，ID3 和 C4.5 是典型的决策树算法，建模流程基本相似，两者主要在增益函数（目标函数）的定义不同。

线性回归和线性分类在表达形式上是类似的，本质区别是分类的目标函数是离散值，而回归的目标函数是连续值。目标函数的不同导致回归通常基于最小二乘定义目标函数，当然，在观测误差满足高斯分布的假设情况下，最小二乘和最大似然可以等价。

当梯度下降求解模型参数时，可以采用 Batch 模式或者 Stochastic 模式，通常而言，Batch 模式准确性更高，Stochastic 模式复杂度更低。

上文已经提到，感知器虽然是最简单的线性分类器，但是可以视为深度学习的基本单元，模型参数可以由自动编码（ Auto Encoder ）等方法求解。

深度学习的优势之一可以理解为特征抽象，从底层特征学习获得高阶特征，描述更为复杂的信息结构。例如，从像素层特征学习抽象出描述纹理结构的边缘轮廓特征，更进一步学习获得表征物体局部的更高阶特征。

俗话说三个臭皮匠赛过诸葛亮，无论是线性分类还是深度学习，都是单个模型算法单打独斗，有没有一种集百家之长的方法，将模型处理数据的精度更进一步提升呢？当然，Model Ensembe l就是解决这个问题。Bagging 为方法之一，对于给定数据处理任务，采用不同模型/参数/特征训练多组模型参数，最后采用投票或者加权平均的方式输出最终结果。

Boosting为Model Ensemble 的另外一种方法，其思想为模型每次迭代时通过调整错误样本的损失权重提升对数据样本整体的处理精度，典型算法包括 AdaBoost 、GBDT 等。

不同的数据任务场景，可以选择不同的 Model Ensemble 方法，对于深度学习，可以对隐层节点采用 DropOut 的方法实现类似的效果。

介绍了这么多机器学习基础算法，说一说评价模型优劣的基本准则。欠拟合和过拟合是经常出现的两种情况，简单的判定方法是比较训练误差和测试误差的关系，当欠拟合时，可以设计更多特征来提升模型训练精度，当过拟合时，可以优化特征量降低模型复杂度来提升模型测试精度。

特征量是模型复杂度的直观反映，模型训练之前设定输入的特征量是一种方法，另外一种比较常用的方法是在模型训练过程中，将特征参数的正则约束项引入目标函数/损失函数，基于训练过程筛选优质特征。

模型调优是一个细致活，最终还是需要能够对实际场景给出可靠的预测结果，解决实际问题。期待学以致用！作者晓惑本文转自阿里技术，转载需授权

阅读全文

热点内容

java返回this 发布：2025-10-20 08:28:16 浏览：948

制作脚本网站发布：2025-10-20 08:17:34 浏览：1213

python中的init方法发布：2025-10-20 08:17:33 浏览：908

图案密码什么意思发布：2025-10-20 08:16:56 浏览：1085

怎么清理微信视频缓存发布：2025-10-20 08:12:37 浏览：957

c语言编译器怎么看执行过程发布：2025-10-20 08:00:32 浏览：1308

邮箱如何填写发信服务器发布：2025-10-20 07:45:27 浏览：525

shell脚本入门案例发布：2025-10-20 07:44:45 浏览：419

怎么上传照片浏览上传发布：2025-10-20 07:44:03 浏览：1086

python股票数据获取发布：2025-10-20 07:39:44 浏览：1070

科普算法

与科普算法相关的资讯