当前位置:首页 » 编程语言 » python随机森林参数

python随机森林参数

发布时间: 2025-04-01 12:07:07

Ⅰ 如何用python实现随机森林分类

大家如何使用scikit-learn包中的类方法来进行随机森林算法的预测。其中讲的比较好的是各个参数的具体用途。
这里我给出我的理解和部分翻译:
参数说明:
最主要的两个参数是n_estimators和max_features。
n_estimators:表示森林里树的个数。理论上是越大越好。但是伴随着就是计算时间的增长。但是并不是取得越大就会越好,预测效果最好的将会出现在合理的树个数。
max_features:随机选择特征集合的子集合,并用来分割节点。子集合的个数越少,方差就会减少的越快,但同时偏差就会增加的越快。根据较好的实践经验。如果是回归问题则:
max_features=n_features,如果是分类问题则max_features=sqrt(n_features)。

如果想获取较好的结果,必须将max_depth=None,同时min_sample_split=1。
同时还要记得进行cross_validated(交叉验证),除此之外记得在random forest中,bootstrap=True。但在extra-trees中,bootstrap=False。

这里也给出一篇老外写的文章:调整你的随机森林模型参数http://www.analyticsvidhya.com/blog/2015/06/tuning-random-forest-model/


这里我使用了scikit-learn自带的iris数据来进行随机森林的预测:

[python]view plain

  • fromsklearn.

  • fromsklearn.

  • importnumpyasnp

  • fromsklearn.datasetsimportload_iris

  • iris=load_iris()

  • #printiris#iris的4个属性是:萼片宽度萼片长度花瓣宽度花瓣长度标签是花的种类:setosaversicolourvirginica

  • printiris['target'].shape

  • rf=RandomForestRegressor()#这里使用了默认的参数设置

  • rf.fit(iris.data[:150],iris.target[:150])#进行模型的训练

  • #

  • #随机挑选两个预测不相同的样本

  • instance=iris.data[[100,109]]

  • printinstance

  • print'instance0prediction;',rf.predict(instance[0])

  • print'instance1prediction;',rf.predict(instance[1])

  • printiris.target[100],iris.target[109]




  • 返回的结果如下:

  • (150,)

  • [[ 6.3 3.3 6. 2.5]

  • [ 7.2 3.6 6.1 2.5]]

  • instance 0 prediction; [ 2.]

  • instance 1 prediction; [ 2.]

  • 2 2



  • 在这里我有点困惑,就是在scikit-learn算法包中随机森林实际上就是一颗颗决策树组成的。但是之前我写的决策树博客中是可以将决策树给显示出来。但是随机森林却做了黑盒处理。我们不知道内部的决策树结构,甚至连父节点的选择特征都不知道是谁。所以我给出下面的代码(这代码不是我的原创),可以显示的显示出所有的特征的贡献。所以对于贡献不大的,甚至是负贡献的我们可以考虑删除这一列的特征值,避免做无用的分类。

  • [python]view plain

  • fromsklearn.cross_validationimportcross_val_score,ShuffleSplit

  • X=iris["data"]

  • Y=iris["target"]

  • names=iris["feature_names"]

  • rf=RandomForestRegressor()

  • scores=[]

  • foriinrange(X.shape[1]):

  • score=cross_val_score(rf,X[:,i:i+1],Y,scoring="r2",

  • cv=ShuffleSplit(len(X),3,.3))

  • scores.append((round(np.mean(score),3),names[i]))

  • printsorted(scores,reverse=True)




  • 显示的结果如下:

  • [(0.934, 'petal width (cm)'), (0.929, 'petal length (cm)'), (0.597, 'sepal length (cm)'), (0.276, 'sepal width (cm)')]



  • 这里我们会发现petal width、petal length这两个特征将起到绝对的贡献,之后是sepal length,影响最小的是sepal width。这段代码将会提示我们各个特征的贡献,可以让我们知道部分内部的结构。
热点内容
水瓶座会用什么作为自己的手机密码 发布:2025-04-02 21:46:38 浏览:998
安卓系统文档在哪里看 发布:2025-04-02 21:36:08 浏览:903
加密u盘原理 发布:2025-04-02 21:20:00 浏览:54
c语言自然e 发布:2025-04-02 21:18:57 浏览:656
黑盘网络配置测试连接失败怎么弄 发布:2025-04-02 21:18:05 浏览:637
linux操作系统的软件 发布:2025-04-02 21:14:28 浏览:367
android分包原理 发布:2025-04-02 21:01:28 浏览:350
永恒之塔挂机脚本 发布:2025-04-02 20:54:54 浏览:731
鬼马学园ftp 发布:2025-04-02 20:53:22 浏览:239
机密算法 发布:2025-04-02 20:43:57 浏览:161