用r做演算法
『壹』 如何用R編一個子函數實現邏輯斯蒂回歸的牛頓演算法
##說明邏輯回歸屬於概率統計的分類演算法模型的演算法,是根據一個或者多個特徵進行類別標號預測。在R語言中可以通過調用logit函數執行邏輯回歸分類演算法並預測輸出概率。通過調用glm函數將family參數也就是響應分布指定為binominal(二項式),就是使用邏輯回歸演算法。
####操作同進述內容一樣准備好訓練數據集與測試數據集。
Number of Fisher Scoring iterations: 6
找到分類模型中包含的可能導致錯誤分類的非顯著變數,僅使用顯著的變數來訓練分類模型。
Number of Fisher Scoring iterations: 5
調用fit使用一個內置模型來預測testset數據集的輸出,可以通過調整概率是否高於0.5來改變類別標記的輸出結果。
#這是選擇預測之後的輸出結果,這個參數能用在binomial數據,也就是響應變數是二分型的時候,這個參數選成type=response,表示輸出結果預測響應變數為1的概率。
pred = predict(fit,testset,type = "response")
#將ped中概率大於0.5的設置TRUE,代表為「no」,沒有流失客戶,1
#將ped中概率小於0.5的設置FALSE,代表為「yes」,有流失
客戶,0
Class = pred > 0.5
summary(Class)
Mode FALSE TRUE
logical 28 990
對測試數據集的分類和預測結果進行統計分析計數:
tb = table(testset$churn,Class)
> tb
Class
FALSE TRUE
yes 15 126
no 13 864
將上一步驟的統計結果用分類形式表輸出,並生成混淆矩陣
churn.mod = ifelse(testset$churn == "yes",1,0)
> churn.mod
『貳』 R語言-KNN演算法
1、K最近鄰(k-NearestNeighbor,KNN)分類演算法,是一個理論上比較成熟的方法,也是最簡單的機器學習演算法之一。該方法的思路是:如果一個樣本在特徵空間中的k個最相似(即特徵空間中最鄰近)的樣本中的大多數屬於某一個類別,則該樣本也屬於這個類別。
2、KNN演算法中,所選擇的鄰居都是已經正確分類的對象。該方法在定類決策上只依據最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。 KNN方法雖然從原理上也依賴於極限定理,但在類別決策時,只與極少量的相鄰樣本有關。由於KNN方法主要靠周圍有限的鄰近的樣本,而不是靠判別類域的方法來確定所屬類別的,因此對於類域的交叉或重疊較多的待分樣本集來說,KNN方法較其他方法更為適合。
3、KNN演算法不僅可以用於分類,還可以用於回歸。通過找出一個樣本的k個最近鄰居,將這些鄰居的屬性的平均值賦給該樣本,就可以得到該樣本的屬性。更有用的方法是將不同距離的鄰居對該樣本產生的影響給予不同的權值(weight),如權值與距離成正比。
簡言之,就是將未標記的案例歸類為與它們最近相似的、帶有標記的案例所在的類 。
原理及舉例
工作原理:我們知道樣本集中每一個數據與所屬分類的對應關系,輸入沒有標簽的新數據後,將新數據與訓練集的數據對應特徵進行比較,找出「距離」最近的k(通常k<20)數據,選擇這k個數據中出現最多的分類作為新數據的分類。
演算法描述
1、計算已知數據集中的點與當前點的距離
2、按距離遞增次序排序
3、選取與當前數據點距離最近的K個點
4、確定前K個點所在類別出現的頻率
5、返回頻率最高的類別作為當前類別的預測
距離計算方法有"euclidean"(歐氏距離),」minkowski」(明科夫斯基距離), "maximum"(切比雪夫距離), "manhattan"(絕對值距離),"canberra"(蘭式距離), 或 "minkowski"(馬氏距離)等
Usage
knn(train, test, cl, k = 1, l = 0, prob =FALSE, use.all = TRUE)
Arguments
train
matrix or data frame of training set cases.
test
matrix or data frame of test set cases. A vector will be interpreted as a row vector for a single case.
cl
factor of true classifications of training set
k
number of neighbours considered.
l
minimum vote for definite decision, otherwisedoubt. (More precisely, less thank-ldissenting votes are allowed, even
ifkis increased by ties.)
prob
If this is true, the proportion of the votes for the
winning class are returned as attributeprob.
use.all
controls handling of ties. If true, all distances equal
to thekth largest are
included. If false, a random selection of distances equal to thekth is chosen to use exactlykneighbours.
kknn(formula = formula(train), train, test, na.action = na.omit(), k = 7, distance = 2, kernel = "optimal", ykernel = NULL, scale=TRUE, contrasts = c('unordered' = "contr.mmy", ordered = "contr.ordinal"))
參數:
formula A formula object.
train Matrix or data frame of training set cases.
test Matrix or data frame of test set cases.
na.action A function which indicates what should happen when the data contain 』NA』s.
k Number of neighbors considered.
distance Parameter of Minkowski distance.
kernel Kernel to use. Possible choices are "rectangular" (which is standard unweighted knn), "triangular", "epanechnikov" (or beta(2,2)), "biweight" (or beta(3,3)), "triweight" (or beta(4,4)), "cos", "inv", "gaussian", "rank" and "optimal".
ykernel Window width of an y-kernel, especially for prediction of ordinal classes.
scale Logical, scale variable to have equal sd.
contrasts A vector containing the 』unordered』 and 』ordered』 contrasts to use
kknn的返回值如下:
fitted.values Vector of predictions.
CL Matrix of classes of the k nearest neighbors.
W Matrix of weights of the k nearest neighbors.
D Matrix of distances of the k nearest neighbors.
C Matrix of indices of the k nearest neighbors.
prob Matrix of predicted class probabilities.
response Type of response variable, one of continuous, nominal or ordinal.
distance Parameter of Minkowski distance.
call The matched call.
terms The 』terms』 object used.
iris%>%ggvis(~Length,~Sepal.Width,fill=~Species)
library(kknn)
data(iris)
dim(iris)
m<-(dim(iris))[1]
val<-sample(1:m,size=round(m/3),replace=FALSE,prob=rep(1/m,m))
建立訓練數據集
data.train<-iris[-val,]
建立測試數據集
data.test<-iris[val,]
調用kknn 之前首先定義公式
formula : Species ~ Sepal.Length + Sepal.Width + Petal.Length + Petal.Width
iris.kknn<-kknn(Species~.,iris.train,iris.test,distance=1,kernel="triangular")
summary(iris.kknn)
# 獲取fitted.values
fit <- fitted(iris.kknn)
# 建立表格檢驗判類准確性
table(iris.valid$Species, fit)
# 繪畫散點圖,k-nearest neighbor用紅色高亮顯示
pcol <- as.character(as.numeric(iris.valid$Species))
pairs(iris.valid[1:4], pch = pcol, col = c("green3", "red")[(iris.valid$Species != fit)+1]
二、R語言knn演算法
install.packages("class")
library(class)
對於新的測試樣例基於距離相似度的法則,確定其K個最近的鄰居,在K個鄰居中少數服從多數
確定新測試樣例的類別
1、獲得數據
2、理解數據
對數據進行探索性分析,散點圖
如上例
3、確定問題類型,分類數據分析
4、機器學習演算法knn
5、數據處理,歸一化數據處理
normalize <- function(x){
num <- x - min(x)
denom <- max(x) - min(x)
return(num/denom)
}
iris_norm <-as.data.frame(lapply(iris[,1:4], normalize))
summary(iris_norm)
6、訓練集與測試集選取
一般按照3:1的比例選取
方法一、set.seed(1234)
ind <- sample(2,nrow(iris), replace=TRUE, prob=c(0.67, 0.33))
iris_train <-iris[ind==1, 1:4]
iris_test <-iris[ind==2, 1:4]
train_label <-iris[ind==1, 5]
test_label <-iris[ind==2, 5]
方法二、
ind<-sample(1:150,50)
iris_train<-iris[-ind,]
iris_test<-iris[ind,1:4]
iris_train<-iris[-ind,1:4]
train_label<-iris[-ind,5]
test_label<-iris[ind,5]
7、構建KNN模型
iris_pred<-knn(train=iris_train,test=iris_test,cl=train_label,k=3)
8、模型評價
交叉列聯表法
table(test_label,iris_pred)
實例二
數據集
http://archive.ics.uci.e/ml/machine-learning-databases/breast-cancer-wisconsin/wdbc.data
導入數據
dir <-'http://archive.ics.uci.e/ml/machine-learning-databases/breast-cancer-wisconsin/wdbc.data'wdbc.data <-read.csv(dir,header = F)
names(wdbc.data) <- c('ID','Diagnosis','radius_mean','texture_mean','perimeter_mean','area_mean','smoothness_mean','compactness_mean','concavity_mean','concave points_mean','symmetry_mean','fractal dimension_mean','radius_sd','texture_sd','perimeter_sd','area_sd','smoothness_sd','compactness_sd','concavity_sd','concave points_sd','symmetry_sd','fractal dimension_sd','radius_max_mean','texture_max_mean','perimeter_max_mean','area_max_mean','smoothness_max_mean','compactness_max_mean','concavity_max_mean','concave points_max_mean','symmetry_max_mean','fractal dimension_max_mean')
table(wdbc.data$Diagnosis)## M = malignant, B = benign
wdbc.data$Diagnosis <- factor(wdbc.data$Diagnosis,levels =c('B','M'),labels = c(B ='benign',M ='malignant'))
『叄』 請問數控編寫程序時,裡面的R怎樣計算的
數控中的R表示:1.圓弧半徑
2.錐度的大小徑差(一般為負值)
1的演算法超級簡單,直徑為10
那麼R=5
2的演算法考點頭腦,得看車削的方向,一般我們做的左手打夾頭的那種機床,也就是右邊(右邊小,左邊大的錐體)
往左邊車削,那麼就是小的那個直徑減去大的直徑,所以是負值。公式R=d-D
(小減大)
『肆』 基於R語言的梯度推進演算法介紹
基於R語言的梯度推進演算法介紹
通常來說,我們可以從兩個方面來提高一個預測模型的准確性:完善特徵工程(feature engineering)或是直接使用Boosting演算法。通過大量數據科學競賽的試煉,我們可以發現人們更鍾愛於Boosting演算法,這是因為和其他方法相比,它在產生類似的結果時往往更加節約時間。
Boosting演算法有很多種,比如梯度推進(Gradient Boosting)、XGBoost、AdaBoost、Gentle Boost等等。每一種演算法都有自己不同的理論基礎,通過對它們進行運用,演算法之間細微的差別也能夠被我們所察覺。如果你是一個新手,那麼太好了,從現在開始,你可以用大約一周的時間來了解和學習這些知識。
在本文中,筆者將會向你介紹梯度推進演算法的基本概念及其復雜性,此外,文中還分享了一個關於如何在R語言中對該演算法進行實現的例子。
快問快答每當談及Boosting演算法,下列兩個概念便會頻繁的出現:Bagging和Boosting。那麼,這兩個概念是什麼,它們之間究竟有什麼區別呢?讓我們快速簡要地在這里解釋一下:
Bagging:對數據進行隨機抽樣、建立學習演算法並且通過簡單平均來得到最終概率結論的一種方法。
Boosting:與Bagging類似,但在樣本選擇方面顯得更為聰明一些——在演算法進行過程中,對難以進行分類的觀測值賦予了越來越大的權重。
我們知道你可能會在這方面產生疑問:什麼叫做越來越大?我怎麼知道我應該給一個被錯分的觀測值額外增加多少的權重呢?請保持冷靜,我們將在接下來的章節里為你解答。
從一個簡單的例子出發假設你有一個初始的預測模型M需要進行准確度的提高,你知道這個模型目前的准確度為80%(通過任何形式度量),那麼接下來你應該怎麼做呢?
有一個方法是,我們可以通過一組新的輸入變數來構建一個全新的模型,然後對它們進行集成學習。但是,筆者在此要提出一個更簡單的建議,如下所示:
Y= M(x) + error
如果我們能夠觀測到誤差項並非白雜訊,而是與我們的模型輸出(Y)有著相同的相關性,那麼我們為什麼不通過這個誤差項來對模型的准確度進行提升呢?比方說:
error = G(x) + error2
或許,你會發現模型的准確率提高到了一個更高的數字,比如84%。那麼下一步讓我們對error2進行回歸。
error2 = H(x) + error3
然後我們將上述式子組合起來:
Y = M(x) + G(x) + H(x) + error3
這樣的結果可能會讓模型的准確度更進一步,超過84%。如果我們能像這樣為三個學習演算法找到一個最佳權重分配,
Y = alpha * M(x) + beta * G(x) + gamma * H(x) + error4
那麼,我們可能就構建了一個更好的模型。
上面所述的便是Boosting演算法的一個基本原則,當我初次接觸到這一理論時,我的腦海中很快地冒出了這兩個小問題:
1.我們如何判斷回歸/分類方程中的誤差項是不是白雜訊?如果無法判斷,我們怎麼能用這種演算法呢?
2.如果這種演算法真的這么強大,我們是不是可以做到接近100%的模型准確度?
接下來,我們將會對這些問題進行解答,但是需要明確的是,Boosting演算法的目標對象通常都是一些弱演算法,而這些弱演算法都不具備只保留白雜訊的能力;其次,Boosting有可能導致過度擬合,所以我們必須在合適的點上停止這個演算法。
試著想像一個分類問題請看下圖:
從最左側的圖開始看,那條垂直的線表示我們運用演算法所構建的分類器,可以發現在這幅圖中有3/10的觀測值的分類情況是錯誤的。接著,我們給予那三個被誤分的「+」型的觀測值更高的權重,使得它們在構建分類器時的地位非常重要。這樣一來,垂直線就直接移動到了接近圖形右邊界的位置。反復這樣的過程之後,我們在通過合適的權重組合將所有的模型進行合並。
演算法的理論基礎我們該如何分配觀測值的權重呢?
通常來說,我們從一個均勻分布假設出發,我們把它稱為D1,在這里,n個觀測值分別被分配了1/n的權重。
步驟1:假設一個α(t);
步驟2:得到弱分類器h(t);
步驟3:更新總體分布,
其中,
步驟4:再次運用新的總體分布去得到下一個分類器;
覺得步驟3中的數學很可怕嗎?讓我們來一起擊破這種恐懼。首先,我們簡單看一下指數里的參數,α表示一種學習率,y是實際的回應值(+1或-1),而h(x)則是分類器所預測的類別。簡單來說,如果分類器預測錯了,這個指數的冪就變成了1 *α, 反之則是-1*α。也就是說,如果某觀測值在上一次預測中被預測錯誤,那麼它對應的權重可能會增加。那麼,接下來該做什麼呢?
步驟5:不斷重復步驟1-步驟4,直到無法發現任何可以改進的地方;
步驟6:對所有在上面步驟中出現過的分類器或是學習演算法進行加權平均,權重如下所示:
案例練習
最近我參加了由Analytics Vidhya組織的在線hackathon活動。為了使變數變換變得容易,在complete_data中我們合並了測試集與訓練集中的所有數據。我們將數據導入,並且進行抽樣和分類。
library(caret)rm(list=ls())setwd("C:Usersts93856DesktopAV")library(Metrics)complete <- read.csv("complete_data.csv", stringsAsFactors = TRUE)train <- complete[complete$Train == 1,]score <- complete[complete$Train != 1,]set.seed(999)ind <- sample(2, nrow(train), replace=T, prob=c(0.60,0.40))trainData<-train[ind==1,]testData <- train[ind==2,]set.seed(999)ind1 <- sample(2, nrow(testData), replace=T, prob=c(0.50,0.50))trainData_ens1<-testData[ind1==1,]testData_ens1 <- testData[ind1==2,]table(testData_ens1$Disbursed)[2]/nrow(testData_ens1)#Response Rate of 9.052%
接下來,就是構建一個梯度推進模型(Gradient Boosting Model)所要做的:
fitControl <- trainControl(method = "repeatedcv", number = 4, repeats = 4)trainData$outcome1 <- ifelse(trainData$Disbursed == 1, "Yes","No")set.seed(33)gbmFit1 <- train(as.factor(outcome1) ~ ., data = trainData[,-26], method = "gbm", trControl = fitControl,verbose = FALSE)gbm_dev <- predict(gbmFit1, trainData,type= "prob")[,2]gbm_ITV1 <- predict(gbmFit1, trainData_ens1,type= "prob")[,2]gbm_ITV2 <- predict(gbmFit1, testData_ens1,type= "prob")[,2]auc(trainData$Disbursed,gbm_dev)auc(trainData_ens1$Disbursed,gbm_ITV1)auc(testData_ens1$Disbursed,gbm_ITV2)
在上述案例中,運行代碼後所看到的所有AUC值將會非常接近0.84。我們隨時歡迎你對這段代碼進行進一步的完善。在這個領域,梯度推進模型(GBM)是最為廣泛運用的方法,在未來的文章里,我們可能會對GXBoost等一些更加快捷的Boosting演算法進行介紹。
結束語筆者曾不止一次見識過Boosting演算法的迅捷與高效,在Kaggle或是其他平台的競賽中,它的得分能力從未令人失望,當然了,也許這要取決於你能夠把特徵工程(feature engineering)做得多好了。
以上是小編為大家分享的關於基於R語言的梯度推進演算法介紹的相關內容,更多信息可以關注環球青藤分享更多干貨
『伍』 基於R語言的分類演算法之決策樹
基於R語言的分類演算法之決策樹
ID3 《= 最大信息熵增益,只能處理離散型數據
C4.5 《= 信息增益率,可處理連續性和離散型數據,相比ID3,減少了因變數過多導致的過擬合
C5.0 《= 信息增益率,運算性能比C4.5更強大
CART 《= 基尼指數最小原則,連續性和離散型數據均可
信息熵體現的是數據的雜亂程度,信息越雜亂,信息熵越大,反之越小。 例如:擁有四種連續型變數的特徵變數的信息熵一定比擁有三種的要大。
特徵變數的N種可能性,每種可能性的概率相同,N越大,信息熵越大。
每種可能性的概率不同,越偏態,信息熵越小。
所有特徵變數中,信息增益率的,就是根節點(root leaf),根節點一般是選擇N越大的特徵變數,因為N越大,信息熵越大。
信息增益率是在信息熵的基礎上作懲罰計算,避免特徵變數可能性多導致的高信息增益。
代碼相關
library(C50)
C5.0(x,y, trials = 1, rules=FALSE,weights=NULL,control=C5.0Control(),costs=NULL)
x為特徵變數,y為應變數
trials 為迭代次數(這個值根據不同數據而不同,並非越大越好,一般介於5-15之間,可以用遍歷來尋找最高准確率的模型,對模型准確率的提升效果中等)
cost 為損失矩陣,R中應該傳入一個矩陣(據說是對准確率矩陣約束猜測錯誤的項,但是並沒特別明顯的規律,可以使用遍歷來尋找最好的cost,准確率提升效果小)
costs <- matrix(c(1,2,1,2),
ncol = 2, byrow = TRUE,
dimnames = list(c("yes","no"), c("yes","no")))
control 設置C5.0模型的其他參數,比如置信水平和節點最小樣本等(水很深,參數很多,可以自行查閱R的幫助文檔,我只設置了一個CF,准確率提升效果小)
control = C5.0Control(CF = 0.25)
library(C50)
#對iris隨機劃分訓練集和測試集
set.seed(1234)
index <- sample(1:nrow(iris), size = 0.75*nrow(iris))
train <- iris[index,]
test <- iris[-index,]
#查看訓練集和測試集分布是否合理
prop.table(table(train$Species))
prop.table(table(test$Species))
#不設置任何參數
fit1 <- C5.0(x = train[,1:4], y = train[,5])
pred1 <- predict(fit1, newdata = test[,-5])
freq1 <- table(pred1, test[,5])
accuracy <- sum(diag(freq1))/sum(freq1)
pred1 setosa versicolor virginica
setosa 16 0 0
versicolor 0 13 1
virginica 0 0 8
准確率為0.9736842,只有一個錯誤。。。顯然150個iris太少了,優化都省了。
『陸』 如何用r語言編寫viterbi演算法
Viterbi解碼演算法是由Viterbi於1967年提出的一種最大似然解碼辦法,解碼器根據接收序列R按最大似然准則力圖找出正確的原始碼序列。隨著大規模集成電路技術的發展,採用Viterbi演算法的卷積編碼技術已成為廣泛應用的糾錯方案。Viterbi解碼過程可用狀態表示。Sj,t和Sj N/2,t表示t時刻的兩個狀態。在t1時刻,這兩個狀態值根據路徑為0或者1,轉移到狀態S2j,t1和S2j1,t1。每一種可能的狀態轉移都根據接收到的有雜訊的序列R計算路徑度量,然後選擇出各個狀態的最小度量路徑(倖存路徑)。Viterbi演算法就是通過在狀態中尋找最小量路徑向前回溯L步,最後得到的即為解碼輸出。
在卷積碼(n,k,m)表示法中,參數k表示每次輸入信息碼位數,n表示編碼的輸出卷積碼位數,m稱為約束長度(一些書中採用k=m1為約束長度,也可稱(2,1,2)碼網格圖,r=k/n稱為信息率,即編碼效率。本文運用的是(2,1,3)碼,約速長度為2,狀態數為22=-4。
TMS320C6000系列DSPs(數字信號處理器)是TI公司推出的一種並行處理的數字信號處理器,是基於TI的VLIW技術的。本文採用的是TMS320C6211。該處理器的工作頻率經過倍頻可達到150MHz,每個時鍾周期最多可並行執行8條指令,從而可以實現1200MIPS定點運算能力。