當前位置:首頁 » 編程語言 » python隨機森林參數

python隨機森林參數

發布時間: 2025-04-01 12:07:07

Ⅰ 如何用python實現隨機森林分類

大家如何使用scikit-learn包中的類方法來進行隨機森林演算法的預測。其中講的比較好的是各個參數的具體用途。
這里我給出我的理解和部分翻譯:
參數說明:
最主要的兩個參數是n_estimators和max_features。
n_estimators:表示森林裡樹的個數。理論上是越大越好。但是伴隨著就是計算時間的增長。但是並不是取得越大就會越好,預測效果最好的將會出現在合理的樹個數。
max_features:隨機選擇特徵集合的子集合,並用來分割節點。子集合的個數越少,方差就會減少的越快,但同時偏差就會增加的越快。根據較好的實踐經驗。如果是回歸問題則:
max_features=n_features,如果是分類問題則max_features=sqrt(n_features)。

如果想獲取較好的結果,必須將max_depth=None,同時min_sample_split=1。
同時還要記得進行cross_validated(交叉驗證),除此之外記得在random forest中,bootstrap=True。但在extra-trees中,bootstrap=False。

這里也給出一篇老外寫的文章:調整你的隨機森林模型參數http://www.analyticsvidhya.com/blog/2015/06/tuning-random-forest-model/


這里我使用了scikit-learn自帶的iris數據來進行隨機森林的預測:

[python]view plain

  • fromsklearn.

  • fromsklearn.

  • importnumpyasnp

  • fromsklearn.datasetsimportload_iris

  • iris=load_iris()

  • #printiris#iris的4個屬性是:萼片寬度萼片長度花瓣寬度花瓣長度標簽是花的種類:setosaversicolourvirginica

  • printiris['target'].shape

  • rf=RandomForestRegressor()#這里使用了默認的參數設置

  • rf.fit(iris.data[:150],iris.target[:150])#進行模型的訓練

  • #

  • #隨機挑選兩個預測不相同的樣本

  • instance=iris.data[[100,109]]

  • printinstance

  • print'instance0prediction;',rf.predict(instance[0])

  • print'instance1prediction;',rf.predict(instance[1])

  • printiris.target[100],iris.target[109]




  • 返回的結果如下:

  • (150,)

  • [[ 6.3 3.3 6. 2.5]

  • [ 7.2 3.6 6.1 2.5]]

  • instance 0 prediction; [ 2.]

  • instance 1 prediction; [ 2.]

  • 2 2



  • 在這里我有點困惑,就是在scikit-learn演算法包中隨機森林實際上就是一顆顆決策樹組成的。但是之前我寫的決策樹博客中是可以將決策樹給顯示出來。但是隨機森林卻做了黑盒處理。我們不知道內部的決策樹結構,甚至連父節點的選擇特徵都不知道是誰。所以我給出下面的代碼(這代碼不是我的原創),可以顯示的顯示出所有的特徵的貢獻。所以對於貢獻不大的,甚至是負貢獻的我們可以考慮刪除這一列的特徵值,避免做無用的分類。

  • [python]view plain

  • fromsklearn.cross_validationimportcross_val_score,ShuffleSplit

  • X=iris["data"]

  • Y=iris["target"]

  • names=iris["feature_names"]

  • rf=RandomForestRegressor()

  • scores=[]

  • foriinrange(X.shape[1]):

  • score=cross_val_score(rf,X[:,i:i+1],Y,scoring="r2",

  • cv=ShuffleSplit(len(X),3,.3))

  • scores.append((round(np.mean(score),3),names[i]))

  • printsorted(scores,reverse=True)




  • 顯示的結果如下:

  • [(0.934, 'petal width (cm)'), (0.929, 'petal length (cm)'), (0.597, 'sepal length (cm)'), (0.276, 'sepal width (cm)')]



  • 這里我們會發現petal width、petal length這兩個特徵將起到絕對的貢獻,之後是sepal length,影響最小的是sepal width。這段代碼將會提示我們各個特徵的貢獻,可以讓我們知道部分內部的結構。
熱點內容
加密u盤原理 發布:2025-04-02 21:20:00 瀏覽:53
c語言自然e 發布:2025-04-02 21:18:57 瀏覽:656
黑盤網路配置測試連接失敗怎麼弄 發布:2025-04-02 21:18:05 瀏覽:637
linux操作系統的軟體 發布:2025-04-02 21:14:28 瀏覽:367
android分包原理 發布:2025-04-02 21:01:28 瀏覽:350
永恆之塔掛機腳本 發布:2025-04-02 20:54:54 瀏覽:731
鬼馬學園ftp 發布:2025-04-02 20:53:22 瀏覽:238
機密演算法 發布:2025-04-02 20:43:57 瀏覽:161
androidstudio簽名查看 發布:2025-04-02 20:31:19 瀏覽:61
android分組listview 發布:2025-04-02 20:30:26 瀏覽:950