隨機森林python

發布時間: 2022-01-09 20:29:48

『壹』懂python 或隨機森林模型的進來

既然你只問下面，那上面的我就不解釋了

micro-average（微平均）
=(TP + FP) / (TP + TN + FP + FN)，即為accuracy
accuracy = (分類正確的樣本個數) / (分類的所有樣本個數)
macro-average（宏平均）
引入F-measure= (A + 1) * precision * recall / (A ^ 2 * precision + recall)
如果A取1，那麼F-measure實際上就是precison和recall的調和平均值:2*precision*recall / (precision + recall)，此時的F-measure就稱為F1值
把所有類的F1值取一個算術平均就得到了Macro-average
最後一個就是加權平均值，沒什麼好說的

『貳』 python隨機森林分類模型，測試集和訓練集的樣本數沒有準確按照70%和30%分配

進行比例劃分的時候從 int 型轉化為了 float 型， float型總是會有微小的誤差的，這個不是大問題。
比如你輸入 1- 0.9 ，可能返回 0.1，也可能返回0.09999999 或者 0.100000000001 , 這是計算機存儲機制導致的。

『叄』用python實現機器學習的演算法（神經網路，隨機森林等），應選用什麼版本python好python3如何

先隨便找個版本輸入importthis
然後仔細拜讀祖師爺的教誨～

『肆』如何用python實現隨機森林分類

大家如何使用scikit-learn包中的類方法來進行隨機森林演算法的預測。其中講的比較好的是各個參數的具體用途。
這里我給出我的理解和部分翻譯：
參數說明：
最主要的兩個參數是n_estimators和max_features。
n_estimators：表示森林裡樹的個數。理論上是越大越好。但是伴隨著就是計算時間的增長。但是並不是取得越大就會越好，預測效果最好的將會出現在合理的樹個數。
max_features：隨機選擇特徵集合的子集合，並用來分割節點。子集合的個數越少，方差就會減少的越快，但同時偏差就會增加的越快。根據較好的實踐經驗。如果是回歸問題則：
max_features＝n_features，如果是分類問題則max_features＝sqrt(n_features)。

如果想獲取較好的結果，必須將max_depth＝None,同時min_sample_split=1。
同時還要記得進行cross_validated（交叉驗證），除此之外記得在random forest中，bootstrap=True。但在extra-trees中，bootstrap=False。

這里也給出一篇老外寫的文章：調整你的隨機森林模型參數http://www.analyticsvidhya.com/blog/2015/06/tuning-random-forest-model/

這里我使用了scikit-learn自帶的iris數據來進行隨機森林的預測：

[python]view plain

fromsklearn.
fromsklearn.
importnumpyasnp
fromsklearn.datasetsimportload_iris
iris=load_iris()
#printiris#iris的4個屬性是：萼片寬度萼片長度花瓣寬度花瓣長度標簽是花的種類：setosaversicolourvirginica
printiris['target'].shape
rf=RandomForestRegressor()#這里使用了默認的參數設置
rf.fit(iris.data[:150],iris.target[:150])#進行模型的訓練
#
#隨機挑選兩個預測不相同的樣本
instance=iris.data[[100,109]]
printinstance
print'instance0prediction；',rf.predict(instance[0])
print'instance1prediction；',rf.predict(instance[1])
printiris.target[100],iris.target[109]

返回的結果如下：

(150,)

[[ 6.3 3.3 6. 2.5]

[ 7.2 3.6 6.1 2.5]]

instance 0 prediction； [ 2.]

instance 1 prediction； [ 2.]

在這里我有點困惑，就是在scikit-learn演算法包中隨機森林實際上就是一顆顆決策樹組成的。但是之前我寫的決策樹博客中是可以將決策樹給顯示出來。但是隨機森林卻做了黑盒處理。我們不知道內部的決策樹結構，甚至連父節點的選擇特徵都不知道是誰。所以我給出下面的代碼（這代碼不是我的原創），可以顯示的顯示出所有的特徵的貢獻。所以對於貢獻不大的，甚至是負貢獻的我們可以考慮刪除這一列的特徵值，避免做無用的分類。

[python]view plain

fromsklearn.cross_validationimportcross_val_score,ShuffleSplit
X=iris["data"]
Y=iris["target"]
names=iris["feature_names"]
rf=RandomForestRegressor()
scores=[]
foriinrange(X.shape[1]):
score=cross_val_score(rf,X[:,i:i+1],Y,scoring="r2",
cv=ShuffleSplit(len(X),3,.3))
scores.append((round(np.mean(score),3),names[i]))
printsorted(scores,reverse=True)

顯示的結果如下：

[(0.934, 'petal width (cm)'), (0.929, 'petal length (cm)'), (0.597, 'sepal length (cm)'), (0.276, 'sepal width (cm)')]

這里我們會發現petal width、petal length這兩個特徵將起到絕對的貢獻，之後是sepal length，影響最小的是sepal width。這段代碼將會提示我們各個特徵的貢獻，可以讓我們知道部分內部的結構。

『伍』 python 隨機森林哪些包

隨機森林比adaboost好隨機森林的優點有:1.對於很多種資料，它可以產生高准確度的分類器。2.它可以處理大量的輸入變數。3.它可以在決定類別時，評估變數的重要性。4.在建造森林時，它可以在內部對於一般化後的誤差產生不偏差的估計。5.它包含一個好方法可以估計遺失的資料，並且，如果有很大一部分的資料遺失，仍可以維持准確度。6.它提供一個實驗方法，可以去偵測variableinteractions。7.對於不平衡的分類資料集來說，它可以平衡誤差。

『陸』 python 機器學習隨機森林怎麼存起來用

你說的問題叫模型持久化，就是把學習好的模型保存起來，以後只要調用這個文件就可以了。
每個框架都應該有模型持久化函數，以sklearn為例：
from sklearn.externals import joblib
joblib.mp(clf, "train_model.m") ＃存儲
clf = joblib.load("train_model.m") ＃調用

『柒』 python隨機森林模型中數值型變數需要處理嗎

隨機森林是一個包含多顆決策樹的分類預測演算法。通過隨機抽樣的方式從數據表中生成多張抽樣的數據表，對每個抽樣的數據表生成一棵決策樹。將多顆決策樹組成一個隨機森林。當有一條新的數據產生時，讓森林裡的每一顆決策樹分別進行判斷，以投票最多的結果作為最終的判斷結果。下面我們來介紹如何在python中使用機器學習庫sklearn建立隨機森林模型並進行分類和預測。

『捌』我用Python進行隨機森林回歸，訓練好模型後用來預測，預測值卻為一個定值，請問這是什麼原因導致的

隨機森林是以決策樹為基礎的一種更高級的演算法。隨機森林可用於回歸也可以用於分類。它的工作原理是生成多個分類器/模型，各自獨立地學習和作出預測。最後對這些預測進行集成，因此優於任何一個單分類的做出預測，是一種優秀的機器學習模型。

之所以你沒能學習到有效的模型，可能是你的數據中的因子與預測指標的關聯強度不夠，因此學習到的是常數模型，也有可能是數據的處理流程或者模型的使用方法不對。網頁鏈接這個網址上的課程完整講解了隨機森林演算法的使用，希望對你有幫助

『玖』求python寫的隨機森林的roc代碼

隨機森林在R packages和Python scikit-learn中的實現是當下非常流行的，下列是在R和Python中載入隨機森林模型的具體代碼：
Python

#Import Library
fromsklearn.ensemble import RandomForestClassifier #use RandomForestRegressor for regression problem
#Assumed you have, X (predictor) and Y (target) for training data set and x_test(predictor) of test_dataset
# Create Random Forest object
model= RandomForestClassifier(n_estimators=1000)
# Train the model using the training sets and check score
model.fit(X, y)
#Predict Output
predicted= model.predict(x_test)

R Code

library(randomForest)
x<- cbind(x_train,y_train)
# Fitting model
fit<- randomForest(Species ~ ., x,ntree=500)
summary(fit)
#Predict Output
predicted= predict(fit,x_test)

閱讀全文

熱點內容

Shell腳本的posix模式發布：2025-07-08 15:41:32 瀏覽：352

壓縮奶油消泡發布：2025-07-08 15:40:11 瀏覽：424

伺服器一定要有公網ip嗎發布：2025-07-08 15:35:12 瀏覽：797

appendpython 發布：2025-07-08 15:22:54 瀏覽：656

安卓虛擬號碼怎麼設置發布：2025-07-08 15:22:04 瀏覽：663

c語言愛心代碼編譯不出來發布：2025-07-08 15:11:07 瀏覽：540

qq密碼的資料庫發布：2025-07-08 14:54:50 瀏覽：6

多圖床源碼發布：2025-07-08 14:46:36 瀏覽：573

sqldblinkoracle 發布：2025-07-08 14:44:50 瀏覽：607

ip重復訪問伺服器會報警嗎發布：2025-07-08 14:44:13 瀏覽：81

隨機森林python

與隨機森林python相關的資訊