提升樹演算法
1. 提升樹回歸演算法怎麼用來評價多變數的重要度
CART的全稱是分類和回歸樹,既可以做分類演算法,也可以做回歸。決策樹的優缺點:優點:1.可以生成可以理解的規則。2.計算量相對來說不是很大。3.可以處理連續和種類欄位。4.決策樹可以清晰的顯示哪些欄位比較重要缺點:1. 對連續性的欄位比較難預測。2.對有時間順序的數據,需要很多預處理的工作。3.當類別太多時,錯誤可能就會增加的比較快。4.一般的演算法分類的時候,只是根據一個欄位來分類。
2. 什麼是演算法決策理論
決策樹分類法己被應用於許多分類問題,但應用於遙感分類的研究成果並不多見。決策樹分類法具有靈活、直觀、清晰、強健、運算效率高等特點,在遙感分類問題上表現出巨大優勢。本文以廣東省廣州市從化地區的SPOT5衛星遙感影像為研究對象,基於決策樹分類演算法在遙感影像分類方面的深厚潛力,探討了6種不同的決策樹演算法—包括單一決策樹模(CART,CHAIR,exhaustive,QUEST和組合決策樹模型(提升樹,決策樹森林)。首先對決策樹演算法結構、演算法理論進行了闡述,然後利用這些決策樹演算法進行遙感土地覆蓋分類實驗,並把獲得的結果與傳統的最大似然分類和人工神經元網路分類進行比較。
基於決策樹分類演算法在遙感影像分類方面的深厚潛力,探討了3種不同的決策樹演算法(UDT、MDT和HDT).首先對決策樹演算法結構、演算法理論進行了闡述:具體利用決策樹演算法進行遙感土地覆蓋分類實驗,並把獲得的結果與傳統統計分類法進行比較.研究表明,決策樹分類法相對簡單、明確,分類結構直觀,有諸多優勢.
3. python數據挖掘是什麼
數據挖掘(data mining,簡稱DM),是指從大量的數據中,通過統計學、人工智慧、機器學習等方法,挖掘出未知的、且有價值的信
息和知識的過程。
python數據挖掘常用模塊
numpy模塊:用於矩陣運算、隨機數的生成等
pandas模塊:用於數據的讀取、清洗、整理、運算、可視化等
matplotlib模塊:專用於數據可視化,當然含有統計類的seaborn模塊
statsmodels模塊:用於構建統計模型,如線性回歸、嶺回歸、邏輯回歸、主成分分析等
scipy模塊:專用於統計中的各種假設檢驗,如卡方檢驗、相關系數檢驗、正態性檢驗、t檢驗、F檢驗等
sklearn模塊:專用於機器學習,包含了常規的數據挖掘演算法,如決策樹、森林樹、提升樹、貝葉斯、K近鄰、SVM、GBDT、Kmeans等
數據分析和挖掘推薦的入門方式是?小公司如何利用數據分析和挖掘?
關於數據分析與挖掘的入門方式是先實現代碼和Python語法的落地(前期也需要你了解一些統計學知識、數學知識等),這個過程需要
你多閱讀相關的數據和查閱社區、論壇。然後你在代碼落地的過程中一定會對演算法中的參數或結果產生疑問,此時再去查看統計學和數據
挖掘方面的理論知識。這樣就形成了問題為導向的學習方法,如果將入門順序搞反了,可能在硬著頭皮研究理論演算法的過程中就打退堂鼓
了。
對於小公司來說,你得清楚的知道自己的痛點是什麼,這些痛點是否能夠體現在數據上,公司內部的交易數據、營銷數據、倉儲數據等是
否比較齊全。在這些數據的基礎上搭建核心KPI作為每日或每周的經營健康度衡量,數據分析側重於歷史的描述,數據挖掘則側重於未來
的預測。
差異在於對數據的敏感度和對數據的個性化理解。換句話說,就是懂分析的人能夠從數據中看出破綻,解決問題,甚至用數據創造價值;
不懂分析的人,做不到這些,更多的是描述數據。
更多技術請關注python視頻教程。
4. 演算法太多挑花眼
演算法太多挑花眼?教你如何選擇正確的機器學習演算法
機器學習演算法雖多,卻沒有什麼普適的解決方案。決策樹、隨機森林、樸素貝葉斯、深度網路等等等等,是不是有時候覺得挑花了眼呢?福利來啦~本文將教你慧眼識精,快速挑選出滿意的演算法!
機器學習既是一門科學,也是一種藝術。縱觀各類機器學習演算法,並沒有一種普適的解決方案或方法。事實上,有幾個因素會影響你對機器學習演算法的選擇。
有些問題是非常特別的,需要用一種特定的解決方法。例如,如果你對推薦系統有所了解,你會發現它是一類很常用的機器學習演算法,用來解決一類非常特殊的問題。而其它的一些問題則非常開放,可能需要一種試錯方法(例如:強化學習)。監督學習、分類、回歸等問題都是非常開放的,可以被用於異常檢測或建立更加廣泛的預測模型。
此外,我們在選擇機器學習演算法時所做出的一些決定與演算法的優化或技術層面關系並不大,而更多地與業務決策相關。下面,讓我們一起來看看有哪些因素能幫你縮小機器學習演算法的選擇范圍。
數據科學過程
在你開始研究不同的機器學習演算法前,你需要對自己擁有的數據、面對的問題及相關約束有清晰的了解。
理解你的數據
當我們決定使用哪種演算法時,我們所擁有的數據的類型和形態起著關鍵性的作用。有些演算法可以利用較小的樣本集合工作,而另一些演算法則需要海量的樣本。特定的演算法對特定類型的數據起作用。例如,樸素貝葉斯演算法對處理待分類的輸入特別有效,但是對於缺失值則一點都不敏感。
因此,你需要做到:
了解你的數據
1. 查看總結統計和數據可視化的結
百分比可以幫助你識別大多數數據的范圍
平均數和中位數可以描述集中趨勢
相關系數可以指出強的關聯性
2. 數據可視化
箱形圖可以識別出異常值
密度圖和直方圖可以顯示出數據的散布情況
散點圖可以描述二元關
數據清洗
1. 處理缺失值。缺失的數據對於某些模型的影響比對其它模型更大。即使是對於那些被用於處理缺失數據的模型來說,它們也可能對缺失數據很敏感(某些變數的缺失數據可能導致預測性能變差)
2. 選擇處理異常值的方法
異常值在多維數據中十分常見。
有些模型對異常值的敏感性比其它模型要低。通常而言,樹模型對於異常值的存在不太敏感。然而回歸模型、或者任何試圖使用方程的模型都會受到異常值的嚴重影響。
異常值可能是糟糕的數據收集造成的,也可能是合理的極值。
3. 數據需要被聚合嗎?
數據增強
1. 特徵工程是從原始數據中產生能夠被用於建模的數據的過程,可以起到以下幾種作用:
使模型更容易被解釋(如數據分箱(binning))
捕獲更復雜的關系(如神經網路)
減少數據冗餘並降低數據維度(如主成分分析(PCA))
重新縮放變數(如標准化或歸一化)
2. 不同的模型可能有不同的特徵工程的要求。有的模型有內置的特徵工程。
對問題進行分類
下一步是對問題進行分類。這是一個需要分兩步實現的過程。
1. 根據輸入分類:
如果你擁有的是帶標簽的數據,那麼這就是一個監督學習問題。
如果你擁有的是未標注過的數據,並且希望從中找到有用的結構,那麼這就是一個無監督學習問題。
如果你想要通過與環境的交互來優化一個目標函數,那麼這就是一個強化學習問題。
2. 根據輸出分類:
如果模型的輸出是一個(連續的)數字,那麼這就是一個回歸問題。
如果模型的輸出是一個類別,那麼這就是一個分類問題。
如果模型的輸出是一組用輸入數據劃分出的簇,那麼這就是一個聚類問題。
你想發現一個異常點嗎?此時你面對的就是一個異常檢測問題。
理解你要滿足的約束條
你需要考慮你能夠存儲數據的容量有多大?這取決於系統的存儲容量,你可能無法存儲若干 GB 大小的分類、回歸模型或者若干 GB 的用於聚類分析的數據。例如,在嵌入式系統中,你就會面臨這種情況。
對預測過程的速度是否有要求?在實時應用中,很顯然,盡快得出預測結果是十分重要的。例如,在自動駕駛問題中,應用必須盡可能快地對道路標志進行分類,以免發生交通事故。
對學習過程的速度是否有要求?在某些情況下,快速訓練模型是十分必要的:有時,你需要使用不同的數據集快速地實時更新你的模型。
尋找可用的演算法
當對自己的任務環境有了一個清晰的認識後,你就可以使用你所掌握的工具確定適用於待解決的問題並切實可行的演算法。一些影響你選擇模型的因素如下:
模型是否滿足業務目標
模型需要多少數據預處理工作
模型有多准確
模型的可解釋性如何
模型運行的速度有多快:構造模型需要多久?模型做出預測需要多長時間?
模型的可伸縮性如何
模型的復雜度是一個影響演算法選擇的重要標准。一般來說,一個更復雜的模型具備下列特徵:
它依賴於更多的特徵進行學習和預測(例如,使用十個而不是兩個特徵來預測目標)
它依賴於更復雜的特徵工程(例如,使用多項式特徵、交互特徵或主成分)
它有更大的計算開銷(例如,需要一個由 100 棵決策樹組成的隨機森林,而不是一棵單獨的決策樹)
除此之外,同樣的機器學習演算法可以基於參數的個數和某些超參數的選擇而變得更加復雜。例如:
回歸模型可以擁有更多的特徵,或者多項式項和交互項。
決策樹可以擁有更大或更小的深度。
將相同的演算法變得更加復雜增加了發生過擬合的幾率。
常用的機器學習演算法
線性回歸
這可能是機器學習中最簡單的演算法。例如,當你想要計算一些連續值,而不是將輸出分類時,可以使用回歸演算法。因此,當你需要預測一個正在運行的過程未來的值時,你可以使用回歸演算法。然而,當特徵冗餘,即如果存在多重共線性(multicollinearity)時,線性回歸就不太穩定。
在下列情況下可以考慮使用線性回歸:
從一個地方移動到另一個地方所需的時間
預測下個月某種產品的銷售情況
血液中的酒精含量對協調能力的影響
預測每個月禮品卡的銷售情況,並改善年收入的估算
Logistic 回歸
Logistic 回歸執行二進制分類,因此輸出二值標簽。它將特徵的線性組合作為輸入,並且對其應用非線性函數(sigmoid),因此它是一個非常小的神經網路的實例。
logistic回歸提供了許多方法對你的模型進行正則化處理,因此正如在樸素貝葉斯演算法中那樣,你不必擔心你的特徵是否相關。該模型還有一個很好的概率化的解釋。不像在決策樹或者支持向量機中那樣,你可以很容易地更新你的模型以獲取新的數據。如果你想要使用一個概率化的框架,或者你希望在未來能夠快速地將更多的訓練數據融合到你的模型中,你可以使用 logistic 回歸演算法。logistic 回歸還可以幫助你理解預測結果背後起作用的因素,它不完全是一個黑盒方法。
在下列情況下可以考慮使用 logistic 回歸演算法:
預測客戶流失
信用評分和欺詐檢測
評價市場營銷活動的效果
決策樹
決策樹很少被單獨使用,但是不同的決策樹可以組合成非常高效的演算法,例如隨機森林或梯度提升樹演算法。
決策樹很容易處理特徵交互,並且決策樹是一種非參數模型,所以你不必擔心異常值或者數據是否是線性可分的。決策樹演算法的一個缺點是,它們不支持在線學習,因此當你要使用新的樣本時,你不得不重新構建決策樹。決策樹的另一個缺點是,它很容易發生過擬合,而這就是像隨機森林(或提升樹)這樣的集成學習方法能夠派上用場的地方。決策樹也需要大量的內存空間(擁有的特徵越多,你的決策樹可能會越深、越大)
決策樹能夠很好地幫助你在諸多行動路徑中做出選擇:
做出投資決策
預測客戶流失
找出可能拖欠銀行貸款的人
在「建造」和「購買」兩種選擇間進行抉擇
銷售主管的資質審核
K-均值
有時,你完全沒有數據的標簽信息,並且你的目的是根據對象的特徵來為其打上標簽。這種問題被稱為聚類任務。聚類演算法可以在這種情況下被使用:例如,當你有一大群用戶,你希望根據他們共有的一些屬性將其劃分到一些特定的組中。
如果在你的問題聲明中有這樣的問題:例如,找出一群個體的組織形式,或將某些東西分組,或找出特定的組。這時,你就應該使用聚類演算法。
該方法最大的缺點是,K-均值演算法需要提前知道你的數據會有多少簇,因此這可能需要進行大量的試驗去「猜測」我們最終定義的簇的最佳個數——K。
主成分分析(PCA)
主成分分析能夠對數據進行降維。有時,你擁有各種各樣的特徵,這些特徵之間的相關性可能很高,而模型如果使用如此大量的數據可能會產生過擬合現象。這時,你可以使用主成分分析(PCA)技術。
主成分分析(PCA)能夠起作用的關鍵因素是:除了低維的樣本表徵,它還提供了各種變數的一種同步的低維表徵。同步的樣本和變數的表徵提供了一種能夠可視化地找到能夠表示一組樣本的特徵的變數的方法。
支持向量機
支持向量機(SVM)是一種在模式識別和分類問題中被廣泛應用的監督機器學習技術——當你的數據恰好有兩類時。
支持向量機准確率高,對於防止過擬合很好的理論保障。當你使用一個合適的核函數時,即使你的數據在基(低維)特徵空間中是線性不可分的,他們也可以很好地工作。支持向量機在文本分類問題中非常流行,在該問題中,輸入是一個維度非常高的空間是很正常的。然而,SVM 是一種內存密集型演算法,它很難被解釋,並且對其進行調優十分困難。
在下列現實世界的應用中,你可以使用支持向量機:
發現患有糖尿病等常見疾病的人
手寫字元識別
文本分類——將文章按照話題分類
股票市場價格預測
樸素貝葉斯
這是一種基於貝葉斯定理的分類技術,它很容易構建,非常適用於大規模數據集。除了結構簡單,據說樸素貝葉斯的表現甚至比一些復雜得多的分類方法更好。當 CPU 和內存資源有限時,樸素貝葉斯演算法也是一個很好的選項。
樸素貝葉斯非常簡單,你僅僅是在做大量的計數工作。如果樸素貝葉斯的條件獨立假設確實成立,樸素貝葉斯分類器的收斂速度會比 logistic 回歸這樣的判別模型更快,因此需要的訓練數據更少。即使樸素貝葉斯的假設不成立,樸素貝葉斯分類器往往也能很好地完成任務。如果你想使用一種快速的、簡單的、性能也不錯的模型,樸素貝葉斯是一個很好的選擇。這種演算法最大的缺點就是它不能學習到特徵之間的相互作用。
在下列真實世界的應用中,你可以使用樸素貝葉斯:
情感分析和文本分類
類似於 Netflix、Amazon 這樣的推薦系統
識別垃圾郵件
人臉識別
隨機森林
隨機森林是一種決策樹的集成方法。它能夠同時解決具有大規模數據集的回歸問題和分類問題,還有助於從數以千計的輸入變數中找出最重要的變數。隨機森林具有很強的可伸縮性,它適用於任何維數的數據,並且通常具有相當不錯的性能。此外,還有一些遺傳演算法,它們可以在具有最少的關於數據本身的知識的情況下,很好地擴展到任何維度和任何數據上,其中最簡單的實現就是微生物遺傳演算法。然而,隨機森林學習的速度可能會很慢(取決於參數設置),並且這種方法不能迭代地改進生成模型。
在下列現實世界的應用中,你可以使用隨機森林:
預測高危患者
預測零件在生產中的故障
預測拖欠貸款的人
神經網路
神經網路中包含著神經元之間連接的權重。這些權重是平衡的,逐次對數據點進行學習。當所有的權重都被訓練好後,如果需要對新給定的數據點進行回歸,神經網路可以被用於預測分類結果或一個具體數值。利用神經網路,可以對特別復雜的模型進行訓練,並且將其作為一種黑盒方法加以利用,而在訓練模型之前,我們無需進行不可預測的復雜特徵工程。通過與「深度方法」相結合,甚至可以採用更加不可預測的模型去實現新任務。例如,最近人們已經通過深度神經網路大大提升了物體識別任務的結果。深度學習還被應用於特徵提取這樣的非監督學習任務,也可以在人為干預更少的情況下,從原始圖像或語音中提取特徵。
另一方面,神經網路很難被解釋清楚,其參數設置也復雜地讓人難以置信。此外,神經網路演算法也都是資源密集型和內存密集型的。
SCIKIT 參考手冊
Scikit learning 為大家提供了一個非常深入的、解釋地很清楚的流程圖,它能夠幫助你選擇正確的演算法。我認為此圖十分方便。
結論
一般來說,你可以根據上面介紹的要點來篩選出一些演算法,但是要想在一開始就知道哪種方法最好是很難的。你最好多迭代幾次選擇演算法的過程。將你的數據輸入給那些你確定的潛在優秀機器學習演算法,通過並行或串列的方式運行這些演算法,最終評估演算法性能,從而選擇出最佳的演算法。
在最後,我想告訴你:為現實生活中的問題找到正確的解決方案,通常不僅僅是一個應用數學方法的問題。這要求我們對業務需求、規則和制度、相關利益者的關注點有所了解,並且具備大量的專業知識。在解決一個機器學習問題的同時,能夠結合並平衡這些問題是至關重要的,那些能做到這一點的人可以創造最大的價值。
5. 決策樹決策法是
決策樹分類演算法是數據挖掘技術中的一種預測模型,它通過次序、無規則的樣本數據集推理出決策樹表示形式,並用於目標數據集的分類。它可以用來處理高維數據且具有很好的准確率,其構造不需要任何領域知識或參數設置,因此適合於探測式知識發現。目前決策樹分類演算法已經成功地應用於許多領域的分類,如商業、醫學、製造和生產、金融分析、天文學和分子生物學等。
決策樹整體結構類似於流程圖的樹結構,其中每個內部節點(非葉節點)表示在某個屬性上的測試,每個分枝代表一個測試輸出,而每個樹葉節點(或終結點)存放一個類標號。樹的最頂層節點是根節點。
在決策樹的構建過程中,採用自頂向下的遞歸方式,在樹的內部結點進行屬性值(預測變數)的比較並根據不同的屬性值判斷從該結點向下的分支直至葉節點的形成,為了避免決策樹過於復雜和龐大,同時防止過度擬合現象的發生,需要在生成決策樹的過程中或者是結束後對決策樹進行剪枝。
「如何使用決策樹分類?」我們可以直接利用生成的決策樹模型,即給定一個與樣本數據具有相同屬性但類標號未知元組X,在決策樹上測試數據集的屬性值,根據某條由根到葉節點的路徑,該葉節點就存放著該元組的類預測;我們也可以將決策樹模型轉換成分類規則集,每條規則對應由根到葉節點路徑上的判斷條件以及葉節點中的類別,然後利用規則集對未知元組進行類別劃分。
目前主要的決策樹分類演算法有:在20世紀80年代後期和80年代初期,機器學習研究者I.Ross.Quinlan開發了決策樹演算法,稱作ID3。Quinlan後來提出了C4.5。1984年幾位統計學家(L.Breiman,J.Friedman,R.Qlshen和C.Stone)出版了分類與回歸樹(CART)。C5.0是Quinlan在C4.5演算法的基礎上引入Boosting技術而來新演算法,但是Quinlan提出的C5.0演算法是直接做成應用軟體進行商業化的,因此Quinlan對C5.0演算法的步驟及數學描述還未公布,此外還有張曉賀開發的用於遙感影像分類的提升樹GLC樹。
6. 常見決策樹分類演算法都有哪些
在機器學習中,有一個體系叫做決策樹,決策樹能夠解決很多問題。在決策樹中,也有很多需要我們去學習的演算法,要知道,在決策樹中,每一個演算法都是實用的演算法,所以了解決策樹中的演算法對我們是有很大的幫助的。在這篇文章中我們就給大家介紹一下關於決策樹分類的演算法,希望能夠幫助大家更好地去理解決策樹。
1.C4.5演算法
C4.5演算法就是基於ID3演算法的改進,這種演算法主要包括的內容就是使用信息增益率替換了信息增益下降度作為屬性選擇的標准;在決策樹構造的同時進行剪枝操作;避免了樹的過度擬合情況;可以對不完整屬性和連續型數據進行處理;使用k交叉驗證降低了計算復雜度;針對數據構成形式,提升了演算法的普適性等內容,這種演算法是一個十分使用的演算法。
2.CLS演算法
CLS演算法就是最原始的決策樹分類演算法,基本流程是,從一棵空數出發,不斷的從決策表選取屬性加入數的生長過程中,直到決策樹可以滿足分類要求為止。CLS演算法存在的主要問題是在新增屬性選取時有很大的隨機性。
3.ID3演算法
ID3演算法就是對CLS演算法的最大改進是摒棄了屬性選擇的隨機性,利用信息熵的下降速度作為屬性選擇的度量。ID3是一種基於信息熵的決策樹分類學習演算法,以信息增益和信息熵,作為對象分類的衡量標准。ID3演算法結構簡單、學習能力強、分類速度快適合大規模數據分類。但同時由於信息增益的不穩定性,容易傾向於眾數屬性導致過度擬合,演算法抗干擾能力差。
3.1.ID3演算法的優缺點
ID3演算法的優點就是方法簡單、計算量小、理論清晰、學習能力較強、比較適用於處理規模較大的學習問題。缺點就是傾向於選擇那些屬性取值比較多的屬性,在實際的應用中往往取值比較多的屬性對分類沒有太大價值、不能對連續屬性進行處理、對雜訊數據比較敏感、需計算每一個屬性的信息增益值、計算代價較高。
3.2.ID3演算法的核心思想
根據樣本子集屬性取值的信息增益值的大小來選擇決策屬性,並根據該屬性的不同取值生成決策樹的分支,再對子集進行遞歸調用該方法,當所有子集的數據都只包含於同一個類別時結束。最後,根據生成的決策樹模型,對新的、未知類別的數據對象進行分類。
在這篇文章中我們給大家介紹了決策樹分類演算法的具體內容,包括有很多種演算法。從中我們不難發現決策樹的演算法都是經過不不斷的改造趨於成熟的。所以說,機器學習的發展在某種程度上就是由於這些演算法的進步而來的。
7. 什麼是基於決策樹的遙感影像分類啊
決策樹分類法己被應用於許多分類問題,但應用於遙感分類的研究成果並不多見。決策樹分類法具有靈活、直觀、清晰、強健、運算效率高等特點,在遙感分類問題上表現出巨大優勢。本文以廣東省廣州市從化地區的SPOT5衛星遙感影像為研究對象,基於決策樹分類演算法在遙感影像分類方面的深厚潛力,探討了6種不同的決策樹演算法—包括單一決策樹模(CART,CHAIR,exhaustive,QUEST和組合決策樹模型(提升樹,決策樹森林)。首先對決策樹演算法結構、演算法理論進行了闡述,然後利用這些決策樹演算法進行遙感土地覆蓋分類實驗,並把獲得的結果與傳統的最大似然分類和人工神經元網路分類進行比較。
基於決策樹分類演算法在遙感影像分類方面的深厚潛力,探討了3種不同的決策樹演算法(UDT、MDT和HDT).首先對決策樹演算法結構、演算法理論進行了闡述:具體利用決策樹演算法進行遙感土地覆蓋分類實驗,並把獲得的結果與傳統統計分類法進行比較.研究表明,決策樹分類法相對簡單、明確,分類結構直觀,有諸多優勢.
8. 單一決策樹 隨機森林和梯度提升演算法的區別
其實,在計算量方面,兩者有很大的不同,因而在面對給定的問題時,可以有選擇性的根據問題的性質選擇兩種方法中的一個. 具體來說,最 小二乘法的矩陣公式是 ,這里的 A 是一個矩陣,b 是一個向量.如果有離散數據點,,而想要擬合的方程又大致形如 ,那麼,A 就是一個 的矩陣,第 i 行的數據點分別是 ,而 b 則是一個向量,其值為 .而又已知,計算一個矩陣的逆是相當耗費時間的,而且求逆也會存在數值不穩定的情況 (比如對希爾伯特矩陣求逆就幾乎是不可能的).因而這樣的計算方法有時不值得提倡. 相比之下,梯度下降法雖然有一些弊端,迭代的次數可能也比較高,但是相對來說計算量並不是特別大.而且,在最小二乘法這個問題上,收斂性有保證.故在大數據量的時候,反而是梯度下降法 (其實應該是其他一些更好的迭代方法) 更加值得被使用. 當然,其實梯度下降法還有別的其他用處,比如其他找極值問題.另外,牛頓法也是一種不錯的方法,迭代收斂速度快於梯度下降法,只是計算代價也比較高.
9. 統計學習方法的作品目錄
《統計學習方法》
第1章統計學習方法概論
1.1統計學習
1.2監督學習
1.2.1基本概念
1.2.2問題的形式化
1.3統計學習三要素
1.3.1模型
1.3.2策略
1.3.3演算法
1.4模型評估與模型選擇
1.4.1訓練誤差與測試誤差
1.4.2過擬合與模型選擇
1.5i~則化與交叉驗證
1.5.1正則化
1.5.2交叉驗證
1.6泛化能力
1.6.1泛化誤差
1.6.2泛化誤差上界
1.7生成模型與判別模型
.1.8分類問題
1.9標注問題
1.10回歸問題
本章概要
繼續閱讀
習題
參考文獻
第2章感知機
2.1感知機模型
2.2感知機學習策略
2.2.1數據集的線性可分性
2.2.2感知機學習策略
2.3感知機學習演算法
2.3.1感知機學習演算法的原始形式
2.3.2演算法的收斂性
2.3.3感知機學習演算法的對偶形式
本章概要
繼續閱讀
習題
參考文獻
第3章眾近鄰法
3.1 k近鄰演算法
3.2 k近鄰模型
3.2.1模型
3.2.2距離度量
·3.2.3 k值的選擇
3.2.4分類決策規則
3.3k近鄰法的實現:kd樹
3.3.1構造af樹
3.3.2搜索af樹
本章概要
繼續閱讀
習題
參考文獻
第4章樸素貝葉斯法
4.1樸素貝葉斯法的學習與分類
4.1.1基本方法
4.1.2後驗概率最大化的含義
4.2樸素貝葉斯法的參數估計
4.2.1極大似然估計
4.2.2學習與分類演算法
4.2.3貝葉斯估計
本章概要
繼續閱讀
習題
參考文獻
第5章決策樹
5.1決策樹模型與學習
5.1.1決策樹模型
5.1.2決策樹與isthen規則
5.1.3決策樹與條件概率分布
5.1.4決策樹學習
5.2特徵選擇
5.2.1特徵選擇問題
5.2.2信息增益
5.2.3信息增益比
5.3決策樹的生成
5.3.11d3演算法
5.3.2 c4.5的生成演算法
5.4決策樹的剪枝
5.5cart演算法
5.5.1cart生成
5.5.2cart剪枝
本章概要
繼續閱讀
習題
參考文獻
第6章邏輯斯諦回歸與最大熵模型
6.1邏輯斯諦回歸模型
6.1.1邏輯斯諦分布
6.1.2項邏輯斯諦回歸模型
6.1.3模型參數估計
6.1.4多項邏輯斯諦回歸
6.2最大熵模型
6.2.1最大熵原理
6.2.2最大熵模型的定義
6.2.3最大熵模型的學習
6.2.4極大似然估計
6.3模型學習的最優化演算法
6.3.1改進的迭代尺度法
6.3.2擬牛頓法
本章概要
繼續閱讀
習題
參考文獻
第7章支持向量機
7.1線性可分支持向量機與硬間隔最大化
7.1.1線性可分支持向量機
7.1.2函數間隔和幾何間隔
7.1.3間隔最大化
7.1.4學習的對偶演算法
7.2線性支持向量機與軟間隔最大化
7.2.1線性支持向量機
7.2.2學習的對偶演算法
7.2.3支持向量
7.2.4合頁損失函數
7.3非線性支持向量機與核函數
7.3.1核技巧
7.3.2定核
7.3.3常用核函數
7.3.4非線性支持向量分類機
7.4序列最小最優化演算法
7.4.1兩個變數二次規劃的求解方法
7.4.2變數的選擇方法
7.4.3smo演算法
本章概要
繼續閱讀
習題
參考文獻
第8章提升方法
8.1提升方法adaboost演算法
8.1.1提升方法的基本思路
8.1.2adaboost演算法
8.1.3 adaboost的例子
8.2adaboost演算法的訓練誤差分析
8.3 adaboost演算法的解釋
8.3.1前向分步演算法
8.3.2前向分步演算法與ad9boost
8.4提升樹
8.4.1提升樹模型
8.4.2提升樹演算法
8.4.3梯度提升
本章概要
繼續閱讀
習題
參考文獻
第9章em演算法及其推廣
9.1em演算法的引入
9.1.1em演算法
9.1.2em演算法的導出
9.1.3em演算法在非監督學習中的應用
9.2em演算法的收斂性
9.3em演算法在高斯混合模型學習中的應用
9.3.1高斯混合模型
9.3.2高斯混合模型參數估計的em演算法
9.4em演算法的推廣
9.4.1f函數的極大極大演算法
9.4.2gem演算法
本章概要
繼續閱讀
習題
參考文獻
第10章隱馬爾可夫模型
10.1隱馬爾可夫模型的基本概念
10.1.1隱馬爾可夫模型的定義
10.1.2觀測序列的生成過程
10.1.3隱馬爾可夫模型的3個基本問題
10.2概率計算演算法
10.2.1直接計演算法
10.2.2前向演算法
10.2.3後向演算法
10.2.4一些概率與期望值的計算
10.3學習演算法
10.3.1監督學習方法
10.3.2baum-welch演算法
10.3.3baum-welch模型參數估計公式
10.4預測演算法
10.4.1近似演算法
10.4.2維特比演算法
本章概要
繼續閱讀
習題
參考文獻
第11章條件隨機場
11.1概率無向圖模型
11.1.1模型定義
11.1.2概率無向圖模型的因子分解
11.2條件隨機場的定義與形式
11.2.1條件隨機場的定義
11.2.2條件隨機場的參數化形式
11.2.3條件隨機場的簡化形式
11.2.4條件隨機場的矩陣形式
11.3條件隨機場的概率計算問題
11.3.1前向後向演算法
11.3.2概率計算
11.3.3期望值的計算
11.4條件隨機場的學習演算法
11.4.1改進的迭代尺度法
11.4.2擬牛頓法
11.5條件隨機場的預測演算法
本章概要
繼續閱讀
習題
參考文獻
第12章統計學習方法總結
附錄a梯度下降法
附錄b牛頓法和擬牛頓法
附錄c拉格朗日對偶性
索引
10. 用於數據挖掘的分類演算法有哪些,各有何優劣
常見的機器學習分類演算法就有,不常見的更是數不勝數,那麼我們針對某個分類問題怎麼來選擇比較好的分類演算法呢?下面介紹一些演算法的優缺點:
1. 樸素貝葉斯
比較簡單的演算法,所需估計的參數很少,對缺失數據不太敏感。如果條件獨立性假設成立,即各特徵之間相互獨立,樸素貝葉斯分類器將會比判別模型,如邏輯回歸收斂得更快,因此只需要較少的訓練數據。就算該假設不成立,樸素貝葉斯分類器在實踐中仍然有著不俗的表現。如果你需要的是快速簡單並且表現出色,這將是個不錯的選擇。其主要缺點現實生活中特徵之間相互獨立的條件比較難以實現。
2. 邏輯回歸
模型訓練時,正則化方法較多,而且你不必像在用樸素貝葉斯那樣擔心你的特徵是否相關。與決策樹與支持向量機相比,邏輯回歸模型還會得到一個不錯的概率解釋,你甚至可以輕松地利用新數據來更新模型(使用在線梯度下降演算法)。如果你需要一個概率架構(比如簡單地調節分類閾值,指明不確定性,獲得置信區間),或者你以後想將更多的訓練數據快速整合到模型中去,邏輯回歸是一個不錯的選擇。
3. 決策樹
決策樹的分類過程易於解釋說明。它可以毫無壓力地處理特徵間的交互關系並且是非參數化的,因此你不必擔心異常值或者數據是否線性可分。它的一個缺點就是不支持在線學習,於是在新樣本到來後,決策樹需要全部重建。另一個缺點是容易過擬合,但這也就是諸如隨機森林(或提升樹)之類的集成方法的切入點。另外,隨機森林經常是多分類問題的贏家(通常比支持向量機好上那麼一點),它快速並且可調,同時你無須擔心要像支持向量機那樣調一大堆參數,所以隨機森林相當受歡迎。
4. 支持向量機
高准確率,為避免過擬合提供了很好的理論保證,而且就算數據在原特徵空間線性不可分,只要給個合適的核函數,它就能運行得很好。在超高維的文本分類問題中特別受歡迎。可惜內存消耗大,難以解釋,運行和調參也有些煩人,所以我認為隨機森林要開始取而代之了。
但是,好的數據卻要優於好的演算法,設計優良特徵比優良的演算法好很多。假如你有一個超大數據集,那麼無論你使用哪種演算法可能對分類性能都沒太大影響(此時就根據速度和易用性來進行抉擇)。
如果你真心在乎准確率,你一定得嘗試多種多樣的分類器,並且通過交叉驗證選擇最優。