随机森林python
‘壹’ 懂python 或随机森林模型的进来
既然你只问下面,那上面的我就不解释了
micro-average(微平均)
=(TP + FP) / (TP + TN + FP + FN),即为accuracy
accuracy = (分类正确的样本个数) / (分类的所有样本个数)
macro-average(宏平均)
引入F-measure= (A + 1) * precision * recall / (A ^ 2 * precision + recall)
如果A取1,那么F-measure实际上就是precison和recall的调和平均值:2*precision*recall / (precision + recall), 此时的F-measure就称为F1值
把所有类的F1值取一个算术平均就得到了Macro-average
最后一个就是加权平均值,没什么好说的
‘贰’ python随机森林分类模型,测试集和训练集的样本数没有准确按照70%和30%分配
进行比例划分的时候 从 int 型 转化为了 float 型, float型总是会有微小的误差的,这个不是大问题。
比如你输入 1- 0.9 , 可能返回 0.1, 也可能返回0.09999999 或者 0.100000000001 , 这是计算机存储机制导致的。
‘叁’ 用python实现机器学习的算法(神经网络,随机森林等),应选用什么版本python好python3如何
先随便找个版本输入importthis
然后仔细拜读祖师爷的教诲~
‘肆’ 如何用python实现随机森林分类
大家如何使用scikit-learn包中的类方法来进行随机森林算法的预测。其中讲的比较好的是各个参数的具体用途。
这里我给出我的理解和部分翻译:
参数说明:
最主要的两个参数是n_estimators和max_features。
n_estimators:表示森林里树的个数。理论上是越大越好。但是伴随着就是计算时间的增长。但是并不是取得越大就会越好,预测效果最好的将会出现在合理的树个数。
max_features:随机选择特征集合的子集合,并用来分割节点。子集合的个数越少,方差就会减少的越快,但同时偏差就会增加的越快。根据较好的实践经验。如果是回归问题则:
max_features=n_features,如果是分类问题则max_features=sqrt(n_features)。
如果想获取较好的结果,必须将max_depth=None,同时min_sample_split=1。
同时还要记得进行cross_validated(交叉验证),除此之外记得在random forest中,bootstrap=True。但在extra-trees中,bootstrap=False。
这里也给出一篇老外写的文章:调整你的随机森林模型参数http://www.analyticsvidhya.com/blog/2015/06/tuning-random-forest-model/
这里我使用了scikit-learn自带的iris数据来进行随机森林的预测:
[python]view plain
fromsklearn.
fromsklearn.
importnumpyasnp
fromsklearn.datasetsimportload_iris
iris=load_iris()
#printiris#iris的4个属性是:萼片宽度萼片长度花瓣宽度花瓣长度标签是花的种类:setosaversicolourvirginica
printiris['target'].shape
rf=RandomForestRegressor()#这里使用了默认的参数设置
rf.fit(iris.data[:150],iris.target[:150])#进行模型的训练
#
#随机挑选两个预测不相同的样本
instance=iris.data[[100,109]]
printinstance
print'instance0prediction;',rf.predict(instance[0])
print'instance1prediction;',rf.predict(instance[1])
printiris.target[100],iris.target[109]
- 返回的结果如下:
- (150,)
- [[ 6.3 3.3 6. 2.5]
- [ 7.2 3.6 6.1 2.5]]
- instance 0 prediction; [ 2.]
- instance 1 prediction; [ 2.]
- 2 2
- 在这里我有点困惑,就是在scikit-learn算法包中随机森林实际上就是一颗颗决策树组成的。但是之前我写的决策树博客中是可以将决策树给显示出来。但是随机森林却做了黑盒处理。我们不知道内部的决策树结构,甚至连父节点的选择特征都不知道是谁。所以我给出下面的代码(这代码不是我的原创),可以显示的显示出所有的特征的贡献。所以对于贡献不大的,甚至是负贡献的我们可以考虑删除这一列的特征值,避免做无用的分类。
fromsklearn.cross_validationimportcross_val_score,ShuffleSplit
X=iris["data"]
Y=iris["target"]
names=iris["feature_names"]
rf=RandomForestRegressor()
scores=[]
foriinrange(X.shape[1]):
score=cross_val_score(rf,X[:,i:i+1],Y,scoring="r2",
cv=ShuffleSplit(len(X),3,.3))
scores.append((round(np.mean(score),3),names[i]))
printsorted(scores,reverse=True)
- 显示的结果如下:
- [(0.934, 'petal width (cm)'), (0.929, 'petal length (cm)'), (0.597, 'sepal length (cm)'), (0.276, 'sepal width (cm)')]
- 这里我们会发现petal width、petal length这两个特征将起到绝对的贡献,之后是sepal length,影响最小的是sepal width。这段代码将会提示我们各个特征的贡献,可以让我们知道部分内部的结构。
[python]view plain
‘伍’ python 随机森林 哪些包
随机森林比adaboost好随机森林的优点有:1.对于很多种资料,它可以产生高准确度的分类器。2.它可以处理大量的输入变量。3.它可以在决定类别时,评估变量的重要性。4.在建造森林时,它可以在内部对于一般化后的误差产生不偏差的估计。5.它包含一个好方法可以估计遗失的资料,并且,如果有很大一部分的资料遗失,仍可以维持准确度。6.它提供一个实验方法,可以去侦测variableinteractions。7.对于不平衡的分类资料集来说,它可以平衡误差。
‘陆’ python 机器学习随机森林怎么存起来用
你说的问题叫模型持久化,就是把学习好的模型保存起来,以后只要调用这个文件就可以了。
每个框架都应该有模型持久化函数,以sklearn为例:
from sklearn.externals import joblib
joblib.mp(clf, "train_model.m") #存储
clf = joblib.load("train_model.m") #调用
‘柒’ python随机森林模型中数值型变量需要处理吗
随机森林是一个包含多颗决策树的分类预测算法。通过随机抽样的方式从数据表中生成多张抽样的数据表,对每个抽样的数据表生成一棵决策树。将多颗决策树组成一个随机森林。当有一条新的数据产生时,让森林里的每一颗决策树分别进行判断,以投票最多的结果作为最终的判断结果。下面我们来介绍如何在python中使用机器学习库sklearn建立随机森林模型并进行分类和预测。
‘捌’ 我用Python进行随机森林回归,训练好模型后用来预测,预测值却为一个定值,请问这是什么原因导致的
随机森林是以决策树为基础的一种更高级的算法。随机森林可用于回归也可以用于分类。它的工作原理是生成多个分类器/模型,各自独立地学习和作出预测。最后对这些预测进行集成,因此优于任何一个单分类的做出预测,是一种优秀的机器学习模型。
之所以你没能学习到有效的模型,可能是你的数据中的因子与预测指标的关联强度不够,因此学习到的是常数模型,也有可能是数据的处理流程或者模型的使用方法不对。网页链接这个网址上的课程完整讲解了随机森林算法的使用,希望对你有帮助
‘玖’ 求python写的随机森林的roc代码
随机森林在R packages和Python scikit-learn中的实现是当下非常流行的,下列是在R和Python中载入随机森林模型的具体代码:
Python
#Import Library
fromsklearn.ensemble import RandomForestClassifier #use RandomForestRegressor for regression problem
#Assumed you have, X (predictor) and Y (target) for training data set and x_test(predictor) of test_dataset
# Create Random Forest object
model= RandomForestClassifier(n_estimators=1000)
# Train the model using the training sets and check score
model.fit(X, y)
#Predict Output
predicted= model.predict(x_test)
R Code
library(randomForest)
x<- cbind(x_train,y_train)
# Fitting model
fit<- randomForest(Species ~ ., x,ntree=500)
summary(fit)
#Predict Output
predicted= predict(fit,x_test)