當前位置:首頁 » 操作系統 » 機器學習演算法模型

機器學習演算法模型

發布時間: 2024-05-13 04:26:30

❶ 干貨 | 基礎機器學習演算法

本篇內容主要是面向機器學習初學者,介紹常見的機器學習演算法,當然,歡迎同行交流。

哲學要回答的基本問題是從哪裡來、我是誰、到哪裡去,尋找答案的過程或許可以借鑒機器學習的套路:組織數據->挖掘知識->預測未來。組織數據即為設計特徵,生成滿足特定格式要求的樣本,挖掘知識即建模,而預測未來就是對模型的應用。

特徵設計依賴於對業務場景的理解,可分為連續特徵、離散特徵和組合高階特徵。本篇重點是機器學習演算法的介紹,可以分為監督學習和無監督學習兩大類。

無監督學習演算法很多,最近幾年業界比較關注主題模型,LSA->PLSA->LDA 為主題模型三個發展階段的典型演算法,它們主要是建模假設條件上存在差異。LSA假設文檔只有一個主題,PLSA 假設各個主題的概率分布不變(theta 都是固定的),LDA 假設每個文檔和詞的主題概率是可變的。

LDA 演算法本質可以藉助上帝擲骰子幫助理解,詳細內容可參加 Rickjin 寫的《 LDA 數據八卦》文章,淺顯易懂,順便也科普了很多數學知識,非常推薦。

監督學習可分為分類和回歸,感知器是最簡單的線性分類器,現在實際應用比較少,但它是神經網路、深度學習的基本單元。

線性函數擬合數據並基於閾值分類時,很容易受雜訊樣本的干擾,影響分類的准確性。邏輯回歸(Logistic Regression)利用 sigmoid 函數將模型輸出約束在 0 到 1 之間,能夠有效弱化雜訊數據的負面影響,被廣泛應用於互聯網廣告點擊率預估。

邏輯回歸模型參數可以通過最大似然求解,首先定義目標函數 L ( theta ),然後 log 處理將目標函數的乘法邏輯轉化為求和邏輯(最大化似然概率 -> 最小化損失函數),最後採用梯度下降求解。

相比於線性分類去,決策樹等非線性分類器具有更強的分類能力,ID3 和 C4.5 是典型的決策樹演算法,建模流程基本相似,兩者主要在增益函數(目標函數)的定義不同。

線性回歸和線性分類在表達形式上是類似的,本質區別是分類的目標函數是離散值,而回歸的目標函數是連續值。目標函數的不同導致回歸通常基於最小二乘定義目標函數,當然,在觀測誤差滿足高斯分布的假設情況下,最小二乘和最大似然可以等價。

當梯度下降求解模型參數時,可以採用 Batch 模式或者 Stochastic 模式,通常而言,Batch 模式准確性更高,Stochastic 模式復雜度更低。

上文已經提到,感知器雖然是最簡單的線性分類器,但是可以視為深度學習的基本單元,模型參數可以由自動編碼( Auto Encoder )等方法求解。

深度學習的優勢之一可以理解為特徵抽象,從底層特徵學習獲得高階特徵,描述更為復雜的信息結構。例如,從像素層特徵學習抽象出描述紋理結構的邊緣輪廓特徵,更進一步學習獲得表徵物體局部的更高階特徵。

俗話說三個臭皮匠賽過諸葛亮,無論是線性分類還是深度學習,都是單個模型演算法單打獨斗,有沒有一種集百家之長的方法,將模型處理數據的精度更進一步提升呢?當然,Model Ensembe l就是解決這個問題。Bagging 為方法之一,對於給定數據處理任務,採用不同模型/參數/特徵訓練多組模型參數,最後採用投票或者加權平均的方式輸出最終結果。

Boosting為Model Ensemble 的另外一種方法,其思想為模型每次迭代時通過調整錯誤樣本的損失權重提升對數據樣本整體的處理精度,典型演算法包括 AdaBoost 、GBDT 等。

不同的數據任務場景,可以選擇不同的 Model Ensemble 方法,對於深度學習,可以對隱層節點採用 DropOut 的方法實現類似的效果。

介紹了這么多機器學習基礎演算法,說一說評價模型優劣的基本准則。欠擬合和過擬合是經常出現的兩種情況,簡單的判定方法是比較訓練誤差和測試誤差的關系,當欠擬合時,可以設計更多特徵來提升模型訓練精度,當過擬合時,可以優化特徵量降低模型復雜度來提升模型測試精度。

特徵量是模型復雜度的直觀反映,模型訓練之前設定輸入的特徵量是一種方法,另外一種比較常用的方法是在模型訓練過程中,將特徵參數的正則約束項引入目標函數/損失函數,基於訓練過程篩選優質特徵。

模型調優是一個細致活,最終還是需要能夠對實際場景給出可靠的預測結果,解決實際問題。期待學以致用! 作者 曉惑 本文轉自阿里技術,轉載需授權

❷ 機器學習一般常用的演算法有哪些

機器學習是人工智慧的核心技術,是學習人工智慧必不可少的環節。機器學習中有很多演算法,能夠解決很多以前難以企的問題,機器學習中涉及到的演算法有不少,下面小編就給大家普及一下這些演算法。

一、線性回歸

一般來說,線性回歸是統計學和機器學習中最知名和最易理解的演算法之一。這一演算法中我們可以用來預測建模,而預測建模主要關注最小化模型誤差或者盡可能作出最准確的預測,以可解釋性為代價。我們將借用、重用包括統計學在內的很多不同領域的演算法,並將其用於這些目的。當然我們可以使用不同的技術從數據中學習線性回歸模型,例如用於普通最小二乘法和梯度下降優化的線性代數解。就目前而言,線性回歸已經存在了200多年,並得到了廣泛研究。使用這種技術的一些經驗是盡可能去除非常相似(相關)的變數,並去除噪音。這是一種快速、簡單的技術。

二、Logistic 回歸

它是解決二分類問題的首選方法。Logistic 回歸與線性回歸相似,目標都是找到每個輸入變數的權重,即系數值。與線性回歸不同的是,Logistic 回歸對輸出的預測使用被稱為 logistic 函數的非線性函數進行變換。logistic 函數看起來像一個大的S,並且可以將任何值轉換到0到1的區間內。這非常實用,因為我們可以規定logistic函數的輸出值是0和1並預測類別值。像線性回歸一樣,Logistic 回歸在刪除與輸出變數無關的屬性以及非常相似的屬性時效果更好。它是一個快速的學習模型,並且對於二分類問題非常有效。

三、線性判別分析(LDA)

在前面我們介紹的Logistic 回歸是一種分類演算法,傳統上,它僅限於只有兩類的分類問題。而LDA的表示非常簡單直接。它由數據的統計屬性構成,對每個類別進行計算。單個輸入變數的 LDA包括兩個,第一就是每個類別的平均值,第二就是所有類別的方差。而在線性判別分析,進行預測的方法是計算每個類別的判別值並對具備最大值的類別進行預測。該技術假設數據呈高斯分布,因此最好預先從數據中刪除異常值。這是處理分類預測建模問題的一種簡單而強大的方法。

四、決策樹

決策樹是預測建模機器學習的一種重要演算法。決策樹模型的表示是一個二叉樹。這是演算法和數據結構中的二叉樹,沒什麼特別的。每個節點代表一個單獨的輸入變數x和該變數上的一個分割點。而決策樹的葉節點包含一個用於預測的輸出變數y。通過遍歷該樹的分割點,直到到達一個葉節點並輸出該節點的類別值就可以作出預測。當然決策樹的有點就是決策樹學習速度和預測速度都很快。它們還可以解決大量問題,並且不需要對數據做特別准備。

五、樸素貝葉斯

其實樸素貝葉斯是一個簡單但是很強大的預測建模演算法。而這個模型由兩種概率組成,這兩種概率都可以直接從訓練數據中計算出來。第一種就是每個類別的概率,第二種就是給定每個 x 的值,每個類別的條件概率。一旦計算出來,概率模型可用於使用貝葉斯定理對新數據進行預測。當我們的數據是實值時,通常假設一個高斯分布,這樣我們可以簡單的估計這些概率。而樸素貝葉斯之所以是樸素的,是因為它假設每個輸入變數是獨立的。這是一個強大的假設,真實的數據並非如此,但是,該技術在大量復雜問題上非常有用。所以說,樸素貝葉斯是一個十分實用的功能。

六、K近鄰演算法

K近鄰演算法簡稱KNN演算法,KNN 演算法非常簡單且有效。KNN的模型表示是整個訓練數據集。KNN演算法在整個訓練集中搜索K個最相似實例(近鄰)並匯總這K個實例的輸出變數,以預測新數據點。對於回歸問題,這可能是平均輸出變數,對於分類問題,這可能是眾數類別值。而其中的訣竅在於如何確定數據實例間的相似性。如果屬性的度量單位相同,那麼最簡單的技術是使用歐幾里得距離,我們可以根據每個輸入變數之間的差值直接計算出來其數值。當然,KNN需要大量內存或空間來存儲所有數據,但是只有在需要預測時才執行計算。我們還可以隨時更新和管理訓練實例,以保持預測的准確性。

七、Boosting 和 AdaBoost

首先,Boosting 是一種集成技術,它試圖集成一些弱分類器來創建一個強分類器。這通過從訓練數據中構建一個模型,然後創建第二個模型來嘗試糾正第一個模型的錯誤來完成。一直添加模型直到能夠完美預測訓練集,或添加的模型數量已經達到最大數量。而AdaBoost 是第一個為二分類開發的真正成功的 boosting 演算法。這是理解 boosting 的最佳起點。現代 boosting 方法建立在 AdaBoost 之上,最顯著的是隨機梯度提升。當然,AdaBoost 與短決策樹一起使用。在第一個決策樹創建之後,利用每個訓練實例上樹的性能來衡量下一個決策樹應該對每個訓練實例付出多少注意力。難以預測的訓練數據被分配更多權重,而容易預測的數據分配的權重較少。依次創建模型,每一個模型在訓練實例上更新權重,影響序列中下一個決策樹的學習。在所有決策樹建立之後,對新數據進行預測,並且通過每個決策樹在訓練數據上的精確度評估其性能。所以說,由於在糾正演算法錯誤上投入了太多注意力,所以具備已刪除異常值的干凈數據十分重要。

八、學習向量量化演算法(簡稱 LVQ)

學習向量量化也是機器學習其中的一個演算法。可能大家不知道的是,K近鄰演算法的一個缺點是我們需要遍歷整個訓練數據集。學習向量量化演算法(簡稱 LVQ)是一種人工神經網路演算法,它允許你選擇訓練實例的數量,並精確地學習這些實例應該是什麼樣的。而學習向量量化的表示是碼本向量的集合。這些是在開始時隨機選擇的,並逐漸調整以在學習演算法的多次迭代中最好地總結訓練數據集。在學習之後,碼本向量可用於預測。最相似的近鄰通過計算每個碼本向量和新數據實例之間的距離找到。然後返回最佳匹配單元的類別值或作為預測。如果大家重新調整數據,使其具有相同的范圍,就可以獲得最佳結果。當然,如果大家發現KNN在大家數據集上達到很好的結果,請嘗試用LVQ減少存儲整個訓練數據集的內存要求

❸ 機器學習模型可解釋的重要及必要性

機器學習模型可解釋的重要及必要性
不管你是管理自己的資金還是客戶資金,只要你在做資產管理,每一步的投資決策都意義重大,做技術分析或基本面分析的朋友很清楚地知道每一個決策的細節,但是通過機器學習、深度學習建模的朋友可能就會很苦惱,因為直接產出決策信號的模型可能是個黑盒子,很難明白為什麼模型會產出某一個信號,甚至很多保守的私募基金把模型的可解釋性放入了事前風控。其實,模型的可解釋性是很容易做到的,難點在於研究員是否對模型有深入的思考和理解。
介紹
機器學習領域在過去十年中發生了顯著的變化。從一個純粹的學術和研究領域方向開始,我們已經看到了機器學習在各個領域都有著廣泛的應用,如零售,技術,醫療保健,科學等等。在21世紀,數據科學和機器學習的重要目標已經轉變為解決現實問題,自動完成復雜任務,讓我們的生活變得更加輕松,而不僅僅是在實驗室做實驗發表論文。機器學習,統計學或深度學習模型工具已基本成型。像Capsule Networks這樣的新模型在不斷地被提出,但這些新模型被工業採用卻需要幾年時間。因此,在工業界中,數據科學或機器學習的主要焦點更多在於應用,而不是理論。這些模型可以在正確數據上有效應用來解決現實問題是至關重要的。
機器學習模型本質上就是一種演算法,該演算法試圖從數據中學習潛在模式和關系,而不是通過代碼構建一成不變的規則。所以,解釋一個模型是如何在商業中起作用總會遇到一系列挑戰。在某些領域,特別是在金融領域,比如保險、銀行等,數據科學家們通常最終不得不使用更傳統更簡單的機器學習模型(線性模型或決策樹)。原因是模型的可解釋性對於企業解釋模型的每一個決策至關重要。然而,這常常導致在性能上有所犧牲。復雜模型像如集成學習和神經網路通常表現出更好更精準的性能(因為真實的關系在本質上很少可以通過線性劃分的),然而,我們最終無法對模型決策做出合適的解釋。為了解決和探討這些差距,本文中,我會重點解釋模型可解釋性的重要及必要性。
動機
作為一名在企業工作的數據科學家並時常指導他人,我發現數據科學仍然常常被視為一個黑盒,它能用「魔法」或「煉金術」提供人們想要的東西。然而,嚴酷的現實是,如果不對模型進行合理足夠的解釋,現實世界的項目很少成功。如今,數據科學家通過構建模型並為業務提供解決方案。企業可能不知道模型實現的復雜細節,卻要依靠這些模型做出決策,他們確實有權提出這樣的問題:「我怎樣才能相信你的模型?」或「你的模型是如何決策的」?」回答這些問題是數據科學實踐者和研究人員數年來一直在嘗試的事情。
數據科學家知道,模型解釋性與模型性能之前有一個權衡。在這里,模型性能不是運行時間或執行性能,而是模型在做出預測時的准確度。有幾種模型(包括簡單的線性模型甚至基於樹的模型),他們的預測的原理很好直觀理解,但是需要犧牲模型性能,因為它們的產生的結果偏差或者方差很高(欠擬合:線性模型),或者容易過擬合(基於樹的模型)。更復雜的模型,如集成模型和近期快速發展的深度學習通常會產生更好的預測性能,但被視為黑盒模型,因為要解釋這些模型是如何真正做出決策是一件非常困難的事情。

雖然有些人說,知道模型性能好就行了,為什麼還要知道它背後的原理呢? 然而,作為人類,大多數決策基於邏輯和推理。 因此,人工智慧(AI)作出決策的模式無疑會受到懷疑。 在很多現實情況下,有偏差的模型可能會產生真正的負面影響。 這包括預測潛在的犯罪、司法量刑、信用評分、欺詐發現、健康評估、貸款借款、自動駕駛等,其中模型的理解和解釋是最重要的。 數據科學家、作家Cathy O』 Neil在她的著名著作《Weapons of Math Destruction》中也強調了這一點。
著名學者和作家凱特克勞福德在NIPS 2017主題演講《The Trouble with Bias》中談到了偏差在機器學習中的影響以及它對社會的影響。
有興趣的讀者也可以看看她在紐約時報的著名文章《 Artificial Intelligence』s White Guy Problem》,向我們展示了機器學習應用的案例,包括圖像分類、犯罪風險預測、交付服務可用性等等,這些應用對黑人極不親善。 如果我們想利用機器學習來解決這些問題,所有這些真實世界的場景都在告訴我們模型解釋是多麼的重要。
在過去的一年裡,我在解決行業問題的同時也看到了對模型解釋的需求,同時我也在寫我的新書《Practical Machine Learning with python2》。在這段時間里,我有機會與DataScience.com的優秀員工進行互動,他們非常清楚在機器學習模型中人類可解釋性的必要性和重要性。他們也一直在積極研究解決方案,並開發了流行的python框架Skater。後續我們將深入研究Skater,並在本系列文章中做一些實際的模型解釋。
理解模型解釋
機器學習(尤其是深度學習)僅在最近幾年才得到廣泛的行業採用。因此,模型解釋作為一個概念仍然主要是理論和主觀的。
任何機器學習模型都有一個響應函數,試圖映射和解釋自(輸入)變數和因(目標或響應)變數之間的關系和模式。
模型解釋試圖理解和解釋響應函數做出的這些決定。模型解釋的關鍵在於透明度以及人們理解模型決策的容易程度。模型解釋的三個最重要的方面解釋如下。
什麼主導了模型預測?我們應該找出特徵的相互作用,以了解在模型的決策策略中哪些特徵可能是重要的。這確保了模型的公平性。
為什麼模型做出某個特定決策?我們還應該能夠驗證為什麼某些關鍵特徵在預測期間推動某個模型所做出的某些決定。這確保了模型的可靠性。
我們如何相信模型預測?我們應該能夠評估和驗證任何數據點以及模型如何作出決策。對於模型按預期運行的直接利益相關者來說,這應該是可證明的,並且易於理解。這確保了模型的透明度。
可解釋性是指人(包括機器學習中的非專家)能夠理解模型在其決策過程中所做出的選擇(怎麼決策,為什麼決策和決策了什麼)。
在模型比較時,除了模型的性能,如果一個模型的決策比另一個模型的決策更容易被人類理解,則說該模型比另一個模型具有更好的可解釋性。
模型解釋的重要性
在解決機器學習問題時,數據科學家通常傾向於注意模型性能指標,如准確性、精確度和召回率等(毫無疑問,這很重要!)。但是,度量標准只能說明模型預測性決策的一部分內容。隨著時間的推移,由於環境中各種因素造成的模型概念漂移,性能可能會發生變化。因此,了解什麼促使模型作出某些決定是極為重要的。
我們中的一些人可能會認為模型已經工作得很好了,為什麼還要深入挖掘呢?一定要記住,當解決現實世界中的數據科學問題時,為了讓企業相信你的模型預測和決策,他們會不斷提問「我為什麼要信任你的模型?」,這非常合理。如果一個人患有癌症或糖尿病,如果一個人可能對社會構成風險,或者即使客戶流失,您是否會滿意於只是預測和做出決定(如何)的模型?也許另外一種會更好,如果我們可以更多地了解模型的決策過程(為什麼以及如何),我們可能更喜歡它。這為我們提供了更多的透明度,說明為什麼模型會做出某些決定,在某些情況下可能會出錯,並且隨著時間的推移它可以幫助我們在這些機器學習模型上建立一定的信任度。
這一部分關鍵的一點是,現在是時候停止將機器學習模型視為黑盒子,不僅嘗試和分析數據,而且還要分析模型如何做出決策。實際上,走向這條道路的一些關鍵步驟是由著名論文《Why Should I Trust You?》(解釋了任意分類器的預測)」開始的,由MT Ribeiro,S. Singh和C. Guestrin在SIGKDD 2016上介紹了LIME(Local Interpretable Model-Agnostic Explanations)(局部可解釋模型 - 不可知論解釋)的概念。
他們在論文中提到了一些值得記住的關鍵點。
然而,理解預測背後的原因在評估信任方面非常重要,如果計劃基於預測採取行動,或者選擇是否部署新模型,則對模型的信任是至關重要的。 無論人類是直接使用機器學習分類器作為工具還是在其他產品中部署模型,仍然存在一個至關重要的問題:如果用戶不信任模型或預測,他們將不會使用它。
這是我們在本文中多次討論的內容,也是決定數據科學項目在業界成功與否的關鍵因素之一。這就推動了模型解釋的必要性和重要性。
模型解釋方法的標准
對於模型解釋方法的分類有特定的標准。在Christoph Molnar的「Interpretable Machine Learning,Making Guide for Making Black Box Models Explainable」中提到了一個很好的指導標准:
內在或事後?內在解釋性是關於利用機器學習模型的,它本質上是解釋性的(像線性模型、參數模型或基於樹的模型)。事後解釋性意味著選擇和訓練一個黑盒模型(集成方法或神經網路)並在訓練後應用可解釋性方法(特徵重要性,部分依賴關系圖)。我們將在我們的系列文章中更多地關注事後模型可解釋的方法。
是針對某個模型的還是通用的?特定於模型的解釋工具對固有模型解釋方法非常具體,這些解釋方法完全取決於每個模型的能力和特徵。這可以是系數,p值,與回歸模型相關的AIC分數,決策樹的規則等等。通用的模型解釋方法還是依賴於事後對模型的分析,可用於任何機器學習模型。通常通過分析特徵輸入和輸出對來運行。根據定義,這些方法無法訪問任何模型內部,如權重,約束或假設。
本地還是全局?這種解釋的分類會談到解釋方法是解釋單個預測還是整個模型行為?或者如果范圍介於兩者之間?我們將盡快討論更多關於局部和全局的解釋。
這並不是對可解釋方法進行分類的一套完整的標准,因為這仍然是一個新興的領域,但這可以是一個很好的標准,可以在多種方法之間進行比較和對比。
模型解釋的范圍
我們如何界定解釋的范圍和界限?一些有用的方面可以是模型的透明度,公平性和可靠性。本地還是全局模型解釋是定義模型解釋范圍的明確方法。
全局解釋性
這就是要試圖理解「模型如何做出預測?」和「模型的子集如何影響模型決策?」。為了一次理解和解釋整個模型,我們需要全局解釋。全局可解釋性是指能夠基於完整數據集上的依賴(響應)變數和獨立(預測)特徵之間的條件相互作用來解釋和理解模型決策。試圖理解特徵的相互作用和重要性,往往是理解全局解釋的好的一步。當然,在嘗試分析交互時,在超過兩個或三個維度後對特徵進行可視化變得非常困難。因此,經常查看可能會影響全局知識模型預測的模塊化部分和特徵子集,對全局解釋是有所幫助的。完整的模型結構知識,假設和約束是全局解釋所必需的。
局部解釋性
這就是要了解「為什麼模型會為單個實例做出特定決策?」以及「為什麼模型會為一組實例做出特定決策?」。對於局部的可解釋性,我們不關心模型的內在結構或假設,我們把它當作一個黑箱子。為了理解單個數據點的預測決策,我們專門關注該數據點,並在該點附近的特徵空間中查看局部子區域,並嘗試根據此局部區域了解該點的模型決策。局部數據分布和特徵空間可能表現完全不同,並提供更准確的解釋而不是全局解釋。局部可解釋模型 - 不可知論解釋(LIME)框架是一種很好的方法,可用於模型不可知的局部解釋。我們可以結合使用全局解釋和局部解釋來解釋一組實例的模型決策。
模型透明度
這就是要了解「從演算法和特徵中創建模型的過程如何?」。我們知道,典型的機器學習模型都是關於利用一個演算法在數據特徵之上構建一個表示,將輸入映射到潛在的輸出(響應)。模型的透明性可以嘗試理解模型如何構建的更多技術細節,以及影響其決策的因素。這可以是神經網路的權值,CNN濾波器的權值,線性模型系數,節點和決策樹的分割。然而,由於企業對這些技術細節可能並不十分熟悉,試圖用不可知的局部和全局解釋方法來解釋模型決策有助於展示模型的透明度。
結論
模型可解釋是一個對現實世界機器學習項目非常重要的一件事情。讓我們試著去研究人類可解釋的機器學習,讓每個人都打開機器學習模型的黑箱,並幫助人們增加對模型決策的信任。
寫在最後:模型解釋性很重要,這能夠加深我們對模型的信心,尤其是在金融市場中,當模型持續回撤時,信心比黃金還重要。之前有一個私募團隊使用了StockRanker策略,但是遲遲不肯上實盤,後來在弄清楚模型的理論原理和每一步細節、處理流程後,終於有信心上實盤,實盤前期遇到回撤也能明白是正常情況,並非模型預測失效,扛住前期的回撤後策略凈值開始上升。因此,機器學習模型可解釋很重要,模型也是可以解釋的,只是需要研究員付出更多的心血

❹ 目前最流行的機器學習演算法是什麼

毫無疑問,機器學習在過去幾年越來越受歡迎。由於大數據是目前技術行業最熱門的趨勢,機器學習是非常強大的,可以根據大量數據進行預測或計算推理。
如果你想學習機器演算法,要從何下手呢?
監督學習
1. 決策樹:決策樹是一種決策支持工具,使用的決策及其可能產生的後果,包括隨機事件的結果,資源消耗和效用的樹狀圖或模型。
從業務決策的角度來看,決策樹是人們必須要選擇是/否的問題,以評估大多數時候作出正確決策的概率。它允許您以結構化和系統的方式來解決問題,以得出邏輯結論。
2.樸素貝葉斯分類:樸素貝葉斯分類器是一種簡單的概率分類器,基於貝葉斯定理,其特徵之間具有強大(樸素)的獨立性假設。
特徵圖像是方程 - P(A | B)是後驗概率,P(B | A)是似然度,P(A)是類先驗概率,P(B)是預測先驗概率。
一些現實世界的例子是:
判斷郵件是否為垃圾郵件
分類技術,將新聞文章氛圍政治或體育類
檢查一段表達積極情緒或消極情緒的文字
用於面部識別軟體
3.普通最小二乘回歸:如果你了解統計學,你可能已經聽說過線性回歸。最小二乘法是一種執行線性回歸的方法。
您可以將線性回歸視為擬合直線穿過點狀分布的任務。有多種可能的策略可以做到這一點,「普通最小二乘法」策略就像這樣 -你可以畫一條線,然後把每個數據點,測量點和線之間的垂直距離,添加上去;擬合線將是距離總和的盡可能小的線。
線性是指您正在使用的模型來迎合數據,而最小二乘可以最小化線性模型誤差。
4.邏輯回歸: Logistic回歸是一個強大的統計學方法,用一個或多個解釋變數建模二項式結果。它通過使用邏輯函數估計概率,來衡量分類因變數與一個或多個獨立變數之間的關系,後者是累積邏輯分布。
邏輯回歸用於生活中:
信用評級
衡量營銷活動的成功率
預測某一產品的收入
某一天會有地震嗎
5.支持向量機: SVM是二元分類演算法。給定N維空間中兩種種類型的點,SVM生成(N-1)維的超平面將這些點分成2組。
假設你有一些可以線性分離的紙張中的兩種類型的點。SVM將找到一條直線,將這些點分成兩種類型,並盡可能遠離所有這些點。
在規模上,使用SVM解決的一些特大的問題(包括適當修改的實現)是:廣告、人類基因剪接位點識別、基於圖像的性別檢測,大規模圖像分類...
6.集成方法:集成方法是構建一組分類器的學習演算法,然後通過對其預測進行加權投票來對新的數據點進行分類。原始的集成方法是貝葉斯平均法,但更新的演算法包括糾錯輸出編碼、bagging和boosting。
那麼集成方法如何工作,為什麼它們優於單個模型?
均衡偏差:如果你均衡了大量的傾向民主黨的投票和大量傾向共和黨的投票,你總會得到一個不那麼偏頗的結果。
降低方差:集合大量模型的參考結果,噪音會小於單個模型的單個結果。在金融領域,這被稱為投資分散原則(diversification)——一個混搭很多種股票的投資組合,比單獨的股票更少變故。
不太可能過度擬合:如果您有單個模型不完全擬合,您以簡單的方式(平均,加權平均,邏輯回歸)結合每個模型建模,那麼一般不會發生過擬合。
無監督學習
7. 聚類演算法:聚類是對一組對象進行分組的任務,使得同一組(集群)中的對象彼此之間比其他組中的對象更相似。
每個聚類演算法是不同的,比如:
基於Centroid的演算法
基於連接的演算法
基於密度的演算法
概率
降維
神經網路/深度學習
8. 主成分分析: PCA是使用正交變換將可能相關變數的觀察值轉換為主成分的線性不相關變數值的一組統計過程。
PCA的一些應用包括壓縮、簡化數據、便於學習、可視化。請注意,領域知識在選擇是否繼續使用PCA時非常重要。數據嘈雜的情況(PCA的所有組件都有很大差異)的情況不適用。
9.奇異值分解:在線性代數中,SVD是真正復雜矩陣的因式分解。對於給定的m * n矩陣M,存在分解,使得M =UΣV,其中U和V是酉矩陣,Σ是對角矩陣。
PCA實際上是SVD的簡單應用。在計算機視覺技術中,第一個人臉識別演算法使用PCA和SVD,以將面部表示為「特徵臉」的線性組合,進行降維,然後通過簡單的方法將面部匹配到身份;雖然這種方法更復雜,但仍然依賴於類似的技術。
10.獨立成分分析: ICA是一種統計技術,用於揭示隨機變數、測量或信號集合的隱藏因素。ICA定義了觀察到的多變數數據的生成模型,通常將其作為大型樣本資料庫
在模型中,假設數據變數是一些未知潛在變數的線性混合,混合系統也是未知的。潛變數被假定為非高斯和相互獨立的,它們被稱為觀測數據的獨立成分。
ICA與PCA相關,但它是一種更強大的技術,能夠在這些經典方法完全失敗時找到潛在的源因素。其應用包括數字圖像、文檔資料庫、經濟指標和心理測量。

❺ 機器學習的常見演算法

機器學習演算法如下:

機器學習(MachineLearning,ML)是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、演算法復雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。

它是人工智慧的核心,是使計算機具有智能的根本途徑,其應用遍及人工智慧的各個領域,它主要使用歸納、綜合而不是演繹。

揭開神秘的機器學習演算法:

我們越來越多地看到機器學習演算法在實用和可實現的目標上的價值,例如針對數據尋找可用的模式然後進行預測的機器學習演算法。通常,這些機器學習演算法預測模型用於操作流程以優化決策過程,但同時它們也可以提供關鍵的洞察力和信息來報告戰略決策。

機器學習演算法的基本前提是演算法訓練,提供特定的輸入數據時預測某一概率區間內的輸出值。請記住機器學習演算法的技巧是歸納而非推斷——與概率相關,並非最終結論。構建這些機器學習演算法的過程被稱之為機器學習演算法預測建模。

一旦掌握了這一機器學習演算法模型,有時就可以直接對原始數據機器學習演算法進行分析,並在新數據中應用該機器學習演算法模型以預測某些重要的信息。模型的輸出可以是機器學習演算法分類、機器學習演算法可能的結果、機器學習演算法隱藏的關系、機器學習演算法屬性或者機器學習演算法估計值。

機器學習演算法技術通常預測的是絕對值,比如標簽、顏色、身份或者質量。比如,某個機器學習演算法主題是否屬於我們試圖保留的用戶?用戶會付費購買嗎?用戶會積極響應邀約嗎?

如果我們關心的是機器學習演算法估算值或者連續值,機器學習演算法預測也可以用數字表示。輸出類型決定了最佳的學習方法,並會影響我們用於判斷模型質量的尺度。

熱點內容
單獨編譯內核模塊 發布:2025-01-16 18:54:26 瀏覽:802
js解壓字元串 發布:2025-01-16 18:54:17 瀏覽:482
php怎麼開啟伺服器 發布:2025-01-16 18:52:53 瀏覽:769
億速雲北京三區伺服器雲主機 發布:2025-01-16 18:52:01 瀏覽:359
我的世界網易伺服器做家園 發布:2025-01-16 18:50:33 瀏覽:553
虛擬存儲安全教程 發布:2025-01-16 18:49:48 瀏覽:574
vps配置ftp 發布:2025-01-16 18:49:02 瀏覽:157
qtc比python好用 發布:2025-01-16 18:39:48 瀏覽:488
電腦有免費伺服器嗎 發布:2025-01-16 18:35:28 瀏覽:220
sql生成唯一 發布:2025-01-16 18:35:25 瀏覽:223