當前位置:首頁 » 操作系統 » 決策樹分類演算法

決策樹分類演算法

發布時間: 2022-02-09 00:07:35

1. 數據挖掘分類方法決策樹可以分多類么

數據挖掘,也稱之為資料庫中知識發現是一個可以從海量數據中智能地和自動地抽取一些有用的、可信的、有效的和可以理解的模式的過程.分類是數據挖掘的重要內容之一.目前,分類已廣泛應用於許多領域,如醫療診斷、天氣預測、信用證實、顧客區分、欺詐甄別. 現己有多種分類的方法,其中決策樹分類法在海量數據環境中應用最為廣泛.其原因如下:
1、決策樹分類的直觀的表示方法較容易轉化為標準的資料庫查詢
2、決策樹分類歸納的方法行之有效,尤其適合大型數據集.
3、決策樹在分類過程中,除了數據集中已包括的信息外,不再需要額外的信息.
4、決策樹分類模型的精確度較高. 該文首先研究了評估分類模型的方法.在此基礎上著重研究了決策樹分類方法,並對決策樹演算法的可伸縮性問題進行了具體分析,最後給出了基於OLE DB for DM開發決策樹分類預測應用程序.

2. 數據挖掘中決策樹演算法

決策樹演算法有很多種,比喻有ID3(利用信息增益來選擇決策變數),C4.5(利用信息增益率來選擇決策變數),CART,chain以及quest等,不同的決策樹適用情況也不一樣,有機會可以多多交流。。

3. 用weka中決策樹演算法分類測試問題,急!!!

據我所知weka不能處理太大量的數據,你用了18000個而且屬性值有270個可能是計算量太大了。

4. 決策樹法分為那幾個步驟

1、特徵選擇

特徵選擇決定了使用哪些特徵來做判斷。在訓練數據集中,每個樣本的屬性可能有很多個,不同屬性的作用有大有小。因而特徵選擇的作用就是篩選出跟分類結果相關性較高的特徵,也就是分類能力較強的特徵。在特徵選擇中通常使用的准則是:信息增益。

2、決策樹生成

選擇好特徵後,就從根節點觸發,對節點計算所有特徵的信息增益,選擇信息增益最大的特徵作為節點特徵,根據該特徵的不同取值建立子節點;對每個子節點使用相同的方式生成新的子節點,直到信息增益很小或者沒有特徵可以選擇為止。

3、決策樹剪枝

剪枝的主要目的是對抗「過擬合」,通過主動去掉部分分支來降低過擬合的風險。

【簡介】

決策樹是一種解決分類問題的演算法,決策樹演算法採用樹形結構,使用層層推理來實現最終的分類。

5. 基於R語言的分類演算法之決策樹

基於R語言的分類演算法之決策樹
ID3 《= 最大信息熵增益,只能處理離散型數據
C4.5 《= 信息增益率,可處理連續性和離散型數據,相比ID3,減少了因變數過多導致的過擬合
C5.0 《= 信息增益率,運算性能比C4.5更強大
CART 《= 基尼指數最小原則,連續性和離散型數據均可
信息熵體現的是數據的雜亂程度,信息越雜亂,信息熵越大,反之越小。 例如:擁有四種連續型變數的特徵變數的信息熵一定比擁有三種的要大。
特徵變數的N種可能性,每種可能性的概率相同,N越大,信息熵越大。
每種可能性的概率不同,越偏態,信息熵越小。
所有特徵變數中,信息增益率的,就是根節點(root leaf),根節點一般是選擇N越大的特徵變數,因為N越大,信息熵越大。
信息增益率是在信息熵的基礎上作懲罰計算,避免特徵變數可能性多導致的高信息增益。
代碼相關
library(C50)
C5.0(x,y, trials = 1, rules=FALSE,weights=NULL,control=C5.0Control(),costs=NULL)
x為特徵變數,y為應變數
trials 為迭代次數(這個值根據不同數據而不同,並非越大越好,一般介於5-15之間,可以用遍歷來尋找最高准確率的模型,對模型准確率的提升效果中等)
cost 為損失矩陣,R中應該傳入一個矩陣(據說是對准確率矩陣約束猜測錯誤的項,但是並沒特別明顯的規律,可以使用遍歷來尋找最好的cost,准確率提升效果小)
costs <- matrix(c(1,2,1,2),
ncol = 2, byrow = TRUE,
dimnames = list(c("yes","no"), c("yes","no")))
control 設置C5.0模型的其他參數,比如置信水平和節點最小樣本等(水很深,參數很多,可以自行查閱R的幫助文檔,我只設置了一個CF,准確率提升效果小)
control = C5.0Control(CF = 0.25)
library(C50)
#對iris隨機劃分訓練集和測試集
set.seed(1234)
index <- sample(1:nrow(iris), size = 0.75*nrow(iris))
train <- iris[index,]
test <- iris[-index,]
#查看訓練集和測試集分布是否合理
prop.table(table(train$Species))
prop.table(table(test$Species))
#不設置任何參數
fit1 <- C5.0(x = train[,1:4], y = train[,5])
pred1 <- predict(fit1, newdata = test[,-5])
freq1 <- table(pred1, test[,5])
accuracy <- sum(diag(freq1))/sum(freq1)
pred1 setosa versicolor virginica
setosa 16 0 0
versicolor 0 13 1
virginica 0 0 8
准確率為0.9736842,只有一個錯誤。。。顯然150個iris太少了,優化都省了。

6. 決策樹演算法是按什麼來進行分類的

決策樹演算法是一種逼近離散函數值的方法。它是一種典型的分類方法,首先對數據進行處理,利用歸納演算法生成可讀的規則和決策樹,然後使用決策對新數據進行分析。本質上決策樹是通過一系列規則對數據進行分類的過程。
決策樹方法最早產生於上世紀60年代,到70年代末。由J Ross Quinlan提出了ID3演算法,此演算法的目的在於減少樹的深度。但是忽略了葉子數目的研究。C4.5演算法在ID3演算法的基礎上進行了改進,對於預測變數的缺值處理、剪枝技術、派生規則等方面作了較大改進,既適合於分類問題,又適合於回歸問題。
決策樹演算法構造決策樹來發現數據中蘊涵的分類規則.如何構造精度高、規模小的決策樹是決策樹演算法的核心內容。決策樹構造可以分兩步進行。第一步,決策樹的生成:由訓練樣本集生成決策樹的過程。一般情況下,訓練樣本數據集是根據實際需要有歷史的、有一定綜合程度的,用於數據分析處理的數據集。第二步,決策樹的剪枝:決策樹的剪枝是對上一階段生成的決策樹進行檢驗、校正和修下的過程,主要是用新的樣本數據集(稱為測試數據集)中的數據校驗決策樹生成過程中產生的初步規則,將那些影響預衡准確性的分枝剪除。

7. 用偽代碼撰寫C4.5決策樹分類演算法或者樸素貝葉斯演算法,任意舉一簡單例子說明你寫的演算法的執行流程

vbvbvbvbvbvvbbvvbvbvb

8. 決策樹演算法的基本思想

1)樹以代表訓練樣本的單個結點開始。
2)如果樣本都在同一個類.則該結點成為樹葉,並用該類標記。
3)否則,演算法選擇最有分類能力的屬性作為決策樹的當前結點.
4)根據當前決策結點屬性取值的不同,將訓練樣本數據集tlI分為若乾子集,每個取值形成一個分枝,有幾個取值形成幾個分枝。勻針對上一步得到的一個子集,重復進行先前步驟,遞4'I形成每個劃分樣本上的決策樹。一旦一個屬性出現在一個結點上,就不必在該結點的任何後代考慮它。
5)遞歸劃分步驟僅當下列條件之一成立時停止:
①給定結點的所有樣本屬於同一類。
②沒有剩餘屬性可以用來進一步劃分樣本.在這種情況下.使用多數表決,將給定的結點轉換成樹葉,並以樣本中元組個數最多的類別作為類別標記,同時也可以存放該結點樣本的類別分布,
③如果某一分枝tc,沒有滿足該分支中已有分類的樣本,則以樣本的多數類創建一個樹葉。

9. 決策樹分類演算法 id3是在數據挖掘的哪個環節進行的

一般是在數據挖掘的建模階段應用。當然,有的數據挖掘應用也使用聚類、分類演算法進行數據探索。

熱點內容
資料庫設計模板 發布:2024-11-15 00:47:25 瀏覽:825
編程的悟性 發布:2024-11-15 00:47:24 瀏覽:733
主流可編譯語言 發布:2024-11-15 00:42:23 瀏覽:729
excel緩存清除 發布:2024-11-15 00:39:53 瀏覽:486
機械鍵盤可編程 發布:2024-11-15 00:39:09 瀏覽:912
php判斷字元開頭 發布:2024-11-15 00:35:33 瀏覽:507
網易蘋果游戲怎麼轉移到安卓 發布:2024-11-15 00:07:52 瀏覽:270
win7php環境搭建 發布:2024-11-15 00:06:55 瀏覽:17
erpjava 發布:2024-11-14 23:52:23 瀏覽:253
電腦版地平線四怎麼連上伺服器 發布:2024-11-14 23:46:42 瀏覽:472