回歸分析演算法
① 回歸分析方法
§3.2 回歸分析方法
回歸分析方法,是研究要素之間具體的數量關系的一種強有力的工具,能夠建立反映地理要素之間具體的數量關系的數學模型,即回歸模型。
1. 一元線性回歸模型
1) 一元線性回歸模型的基本結構形式
假設有兩個地理要素(變數)x和y,x為自變數,y為因變數。則一元線性回歸模型的基本結構形式:
a和b為待定參數;α=1,2,…,n為各組觀測數據的下標; εa為隨機變數。如果記a^和b^ 分別為參數a與b的擬合值,則得到一元線性回歸模型
ÿ 是y 的估計值,亦稱回歸值。回歸直線——代表x與y之間相關關系的擬合直線
2) 參數a、b的最小二ÿ乘估計
參數a與b的擬合值:
,
建立一元線性回歸模型的過程,就是用變數 和 的實際觀測數據確定參數a和b的最小二乘估計值α^和β^ 的過程。
3) 一元線性回歸模型的顯著性檢驗
線性回歸方程的顯著性檢驗是藉助於F檢驗來完成的。
檢驗統計量F:
誤差平方和:
回歸平方和:
F≈F(1,n-2)。在顯著水平a下,若 ,則認為回歸方程效果在此水平下顯著;當 時,則認為方程效果不明顯。
[舉例說明]
例1:在表3.1.1中,將國內生產總值(x1)看作因變數y,將農業總產值(x2)看作自變數x,試建立它們之間的一元線性回歸模型並對其進行顯著性檢驗。
解:
(1) 回歸模型
將y和x的樣本數據代入參數a與b的擬合公式,計算得:
故,國內生產總值與農業總產值之間的回歸方程為
(2) 顯著性檢驗
在置信水平α=0.01下查F分布表得:F0.01(1,46)=7.22。由於F=4951.098 >> F0.01(1,46)=7.22,所以回歸方程(3.2.7)式在置信水平a=0.01下是顯著的。
2. 多元線性回歸模型
在多要素的地理系統中,多個(多於兩個)要素之間也存在著相關影響、相互關聯的情況。因此,多元地理回歸模型更帶有普遍性的意義。
1) 多元線性回歸模型的建立
(1) 多元線性回歸模型的結構形式
假設某一因變數y受k 個自變數 的影響,其n組觀測值為 。則多元線性回歸模型的結構形式:
為待定參數, 為隨機變數。如果 分別為 的擬合值,則回歸方程為
b0為常數, 稱為偏回歸系數。
偏回歸系數 ——當其它自變數都固定時,自變數 每變化一個單位而使因變數xi平均改變的數值。
(2) 求解偏回歸系數
,
2) 多元線性回歸模型的顯著性檢驗
用F檢驗法。
F統計量:
當統計量F計算出來之後,就可以查F分布表對模型進行顯著性檢驗。
[舉例說明]
例2:某地區各城市的公共交通營運總額(y)與城市人口總數(x1 )以及工農業總產值(x2)的年平均統計數據如表3.2.1(點擊展開顯示該表)所示。試建立y與x1及x2之間的線性回歸模型並對其進行顯著性檢驗。
表3.2.1 某地區城市公共交通營運額、人口數及工農業總產值的年平均數據
城市序號
公共交通營運額y/103人公里 人口數x1/103人 工農業總產值x2
/107元
1 6825.99 1298.00 437.26
2 512.00 119.80 1286.48
... ... ... ...
14 192.00 12.47 1072.27
註:本表數據詳見書本P54。
解:
(1) 計算線性回歸模型
由表3.2.1中的數據,有
計算可得:
故y與x1 及y2之間的線性回歸方程
(2) 顯著性檢驗
故:
在置信水平a=0.01下查F分布表知:F0.01(2,11)=7.21。由於F=38.722> F0.01(2,11)=7.21,所以在置信水平a=0.01下,回歸方程式是顯著的。
3. 非線性回歸模型的建立方法
1) 非線性關系的線性化
(1) 非線性關系模型的線性化
對於要素之間的非線性關系通過變數替換就可以將原來的非線性關系轉化為新變數下的線性關系。
[幾種非線性關系模型的線性化]
① 於指數曲線 ,令 , ,將其轉化為直線形式:
,其中, ;
② 對於對數曲線 ,令 , ,將其轉化為直線形式:
;
③ 對於冪函數曲線 ,令 , ,將其轉化為直線形式:
,其中,
④ 對於雙曲線 ,令 ,將其轉化為直線形式:
;
⑤ 對於S型曲線 ,將其轉化為直線形式:
;
⑥ 對於冪函數乘積:
令 將其轉化為直線形式:
其中, ;
⑦ 對於對數函數和:
令 ,將其化為線性形式:
(2) 建立非線性回歸模型的一般方法
① 通過適當的變數替換將非線性關系線性化;
② 用線性回歸分析方法建立新變數下的線性回歸模型:
③ 通過新變數之間的線性相關關系反映原來變數之間的非線性相關關系。
3) 非線性回歸模型建立的實例
非線性回歸模型建立的實例
景觀是地理學的重要研究內容之一。有關研究表明(Li,2000;徐建華等,2001),任何一種景觀類型的斑塊,其面積(Area)與周長(Perimeter)之間的數量關系可以用雙對數曲線來描述,即
例3:表3.2.2給出了某地區林地景觀斑塊面積(Area)與周長(Perimeter)的數據。試建立林地景觀斑塊面積A與周長P之間的雙對數相關關系模型。
表3.2.2某地區各個林地景觀斑塊面積(m2)與周長(m)
序號 面積A 周長P 序號 面積A 周長P
1 10447.370 625.392 42 232844.300 4282.043
2 15974.730 612.286 43 4054.660 289.307
... ... ... ... ... ...
41 1608.625 225.842 82 564370.800 12212.410
註:本表數據詳見書本57和58頁。
解:因為林地景觀斑塊面積(A)與周長(P)之間的數量關系是雙對數曲線形式,即
所以對表3.2.2中的原始數據進行對數變換,變換後得到的各新變數對應的觀測數據如表3.2.3所示。
② 回歸分析法
回歸分析法,是在研究礦坑涌水量與其影響因素存在一定相關關系後,提出的一種數理統計方法。礦坑涌水量是在各種自然和人為因素綜合作用下有規律地變化著。影響礦坑涌水量變化的因素極其復雜繁多,甚至有些因素我們目前還沒有發現,有些因素雖被發現但也無力調控和測定。因此,大量事實告訴我們,礦坑涌水量(稱為因變數)與某些影響因素(稱為自變數)的關系也存在數學中稱之為相關的關系。回歸分析法就是利用數學統計的方法,找出礦坑涌水量與影響因素之間的相關關系的數學表達式——回歸方程,用求得的回歸方程來預測礦坑涌水量。
回歸分析法與水文地質比擬法的原理基本相同,都是尋求礦坑涌水量與其主要影響因素之間的關系表達式,並以這種尋找到的數學關系式來預測新的礦坑涌水量。所不同的是數學表達式的來源不同。水文地質比擬法,多數是根據經驗提出,用起來方便靈活,缺點是缺乏嚴密性;回歸分析法,是以已經有的實測數據為基礎,通過數理統計的方法建立回歸方程,其優點是可靠性較水文地質比擬法大一些,但計算較復雜。
應該注意的是,回歸方程是一種非確定性的變數關系,嚴格地講,它不允許外推。但具體工作中往往又需要外推,因此,回歸方程外推的范圍不宜過大。當回歸方程為直線時,外推深度一般不應超過試驗降深的1.5~1.75倍;當回歸方程為曲線相關時,雖可適當增大外推范圍,但一般也不宜超過2倍。同時,必須根據礦床具體的水文地質條件,檢驗外推結果是否合理。
幾種常用的回歸方程如下:
(一)二元直線相關
當礦坑涌水量與主要影響因素之間為直線相關關系時,其數學表達式為
Q=a+bs (4-5)
式中:Q為試驗時的涌水量;S為當抽水量為Q時相對應的水位降深;a為常數;b為回歸系數,它表示當S每增加1m時涌水量平均增加的水量數值。
a,b可根據試驗數據利用最小二乘法求得
雙層水位礦床地下水深層局部疏干方法的理論與實踐
式中:
根據求得的a,b系數值,便可寫出回歸方程。
(二)三元直線相關
如果礦坑涌水量與兩個影響因素存在直線相關時,其數學表達式便為三元直線相關(比如降深S和時間t):
Q=b0+b1S+b2t (4-8)
式中:b0為常數;b1,b2分別為水量Q對自變數S和t的回歸系數;S,t為當礦坑涌水量為Q時的兩個因素自變數;b0,b1,b2可用最小二乘法確定;
雙層水位礦床地下水深層局部疏干方法的理論與實踐
根據求得的b0,b1,b2可以寫出三元直線方程。
(三)涌水量-降深曲線法(Q-S曲線法)
涌水量-降深曲線法也稱涌水量曲線法,其實質就是利用抽(放)水的試驗資料,建立涌水量(Q)和降深(S)之間的關系曲線方程,根據試驗階段和未來開采階段水文地質條件的相似性,合理地把Q-S曲線外推,來預測礦坑涌水量。
大量試驗資料證明,涌水量曲線一般有4種類型(圖4-1)。
圖4-1 涌水量-降深曲線圖
(1)直線型
Q=bs
式中:
這種類型的曲線方程,一般表現為地下水流呈層流狀態,抽水時水位降深與含水層厚度相比很小。
(2)拋物線型
S=aQ+bQ2 (4-11)
雙層水位礦床地下水深層局部疏干方法的理論與實踐
(3)冪函數曲線型
雙層水位礦床地下水深層局部疏干方法的理論與實踐
(4)對數曲線型
Q=a+blgS (4-17)
式中:
雙層水位礦床地下水深層局部疏干方法的理論與實踐
上述各式中a,b均為待定系數,求出a,b後便可寫出涌水量曲線方程。
一般情況下,圖4-1中的2號曲線代表的是拋物線型曲線,它表示強富水性含水層在抽水強烈時,地下水抽水井附近出現三維流的情況下的曲線形態;第3,4兩種類型曲線一般表示含水層規模較小,補給條件比較差情況下出現的曲線類型。
涌水量曲線方程的形態不但與含水層的規模、性質以及補給徑流條件有關,而且與抽水強度的大小和抽水時間長短也有關系。因此,採用Q-S曲線方程法預測礦坑涌水量時,一般要求抽(放)水試驗的規模盡量大一些,常採取大口徑、大降深群孔抽(放)水試驗,以求盡量符合未來的開采狀態,充分揭露和顯示其盡量多的水文地質條件,盡量波及礦床的各種邊界,從而求取最大可能符合實際條件的礦坑涌水量。
③ 回歸演算法有哪些
一張圖為你解釋清楚回歸演算法
④ 經濟的回歸分析是什麼回歸分析方法是計量經濟學的
回歸分析是研究一個變數(因變數)關於另一個變數(自變數)的具體依賴關系的計算方法和理論。回歸分析主要內容包括: 1、根據樣本觀察值對經濟計量模型參數進行估計,求得回歸方程 2、對回歸方程、參數估計值進行顯著性檢驗 3、利用回歸方程進行分析、評價即預測
⑤ 回歸分析的公式中,Xi、Yi指的是什麼怎麼計算
Xi指的是第i個數據中的X值,Yi指的是第i個數據中的Y值。
Xi中的i=1,2,3,4……i只是一個代號,它可以等於1,2,3等等的值,即X1,X2,X3,i只是X下標的一個總稱。
例如:有四組數據(X,Y):(1,2)、(3,4)、(5,6)、(7,8)
當i=1時,即Xi=X1,X1=1,X1就是第一組數據中的X值為1。
同理,X2=3,X3=5,X4=7。
(5)回歸分析演算法擴展閱讀
回歸分析估計了兩個或多個變數之間的關系。
比如,在當前的經濟條件下,要估計一家公司的銷售額增長情況。現在,有公司最新的數據,這些數據顯示出銷售額增長大約是經濟增長的2.5倍。那麼使用回歸分析,就可以根據當前和過去的信息來預測未來公司的銷售情況。
使用回歸分析的好處良多。具體如下:
1、它表明自變數和因變數之間的顯著關系;
2、它表明多個自變數對一個因變數的影響強度。
回歸分析也允許去比較那些衡量不同尺度的變數之間的相互影響,如價格變動與促銷活動數量之間聯系。這些有利於幫助市場研究人員,數據分析人員以及數據科學家排除並估計出一組最佳的變數,用來構建預測模型。
在所有的回歸方法中,OLS最為著名,也是所有空間回歸分析的正確起點。它可為嘗試了解或預測(早逝/降雨)的變數或過程提供一個全局模型,而且,它可創建一個回歸方程來表示該過程。
地理加權回歸 (GWR) 是若干空間回歸方法中的一種,被越來越多地用於地理及其他學科。通過對數據集中的各要素擬合回歸方程,GWR為要嘗試了解/預測的變數或過程提供了一個局部模型。若使用得當,這些方法可提供強大且可靠的統計數據,以對線性關系進行檢查和估計。
⑥ 數據分析師必須掌握的7種回歸分析方法
1、線性回歸
線性回歸是數據分析法中最為人熟知的建模技術之一。它一般是人們在學習預測模型時首選的技術之一。在這種數據分析法中,由於變數是連續的,因此自變數可以是連續的也可以是離散的,回歸線的性質是線性的。
線性回歸使用最佳的擬合直線(也就是回歸線)在因變數(Y)和一個或多個自變數(X)之間建立一種關系。
2、邏輯回歸
邏輯回歸是用來計算“事件=Success”和“事件=Failure”的概率。當因變數的類型屬於二元(1 /0,真/假,是/否)變數時,我們就應該使用邏輯回歸.
邏輯回歸不要求自變數和因變數是線性關系。它可以處理各種類型的關系,因為它對預測的相對風險指數OR使用了一個非線性的log轉換。
為了避免過擬合和欠擬合,我們應該包括所有重要的變數。有一個很好的方法來確保這種情況,就是使用逐步篩選方法來估計邏輯回歸。它需要大的樣本量,因為在樣本數量較少的情況下,極大似然估計的效果比普通的最小二乘法差。
3、多項式回歸
對於一個回歸方程,如果自變數的指數大於1,那麼它就是多項式回歸方程。雖然會有一個誘導可以擬合一個高次多項式並得到較低的錯誤,但這可能會導致過擬合。你需要經常畫出關系圖來查看擬合情況,並且專注於保證擬合合理,既沒有過擬合又沒有欠擬合。下面是一個圖例,可以幫助理解:
明顯地向兩端尋找曲線點,看看這些形狀和趨勢是否有意義。更高次的多項式最後可能產生怪異的推斷結果。
4、逐步回歸
在處理多個自變數時,我們可以使用這種形式的回歸。在這種技術中,自變數的選擇是在一個自動的過程中完成的,其中包括非人為操作。
這一壯舉是通過觀察統計的值,如R-square,t-stats和AIC指標,來識別重要的變數。逐步回歸通過同時添加/刪除基於指定標準的協變數來擬合模型。
5、嶺回歸
嶺回歸分析是一種用於存在多重共線性(自變數高度相關)數據的技術。在多重共線性情況下,盡管最小二乘法(OLS)對每個變數很公平,但它們的差異很大,使得觀測值偏移並遠離真實值。嶺回歸通過給回歸估計上增加一個偏差度,來降低標准誤差。
除常數項以外,這種回歸的假設與最小二乘回歸類似;它收縮了相關系數的值,但沒有達到零,這表明它沒有特徵選擇功能,這是一個正則化方法,並且使用的是L2正則化。
6、套索回歸
它類似於嶺回歸。除常數項以外,這種回歸的假設與最小二乘回歸類似;它收縮系數接近零(等於零),確實有助於特徵選擇;這是一個正則化方法,使用的是L1正則化;如果預測的一組變數是高度相關的,Lasso 會選出其中一個變數並且將其它的收縮為零。
7、回歸
ElasticNet是Lasso和Ridge回歸技術的混合體。它使用L1來訓練並且L2優先作為正則化矩陣。當有多個相關的特徵時,ElasticNet是很有用的。Lasso會隨機挑選他們其中的一個,而ElasticNet則會選擇兩個。Lasso和Ridge之間的實際的優點是,它允許ElasticNet繼承循環狀態下Ridge的一些穩定性。
通常在高度相關變數的情況下,它會產生群體效應;選擇變數的數目沒有限制;並且可以承受雙重收縮。
關於數據分析師必須掌握的7種回歸分析方法,青藤小編就和您分享到這里了,希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的職業前景及就業內容,可以點擊本站的其他文章進行學習。
⑦ 什麼是回歸分析原理與方法
作經濟研究,這是基本的方法和手段。
不知道你想了解些什麼,就找了些最簡單的,給你,希望有幫助。什麼地方不明白再問。
直線回歸是用直線回歸方程表示兩個數量變數間依存關系的統計分析方法,屬雙變數分析的范疇。
1.
直線回歸方程的求法
(1)回歸方程的概念:
直線回歸方程的一般形式是Ý(音y
hat)=a+bx,其中x為自變數,一般為資料中能精確測定和控制的量,Y為應變數,指在x規定范圍內隨機變化的量。a為截距,是回歸直線與縱軸的交點,b為斜率,意為x每改變一個單位時,Ý的變化量。
(2)直線回歸方程的求法
確定直線回歸方程利用的是最小二乘法原理,基本步驟為:
1)先求
b,基本公式為b=lxy/lxx=SSxy/SSxx
,其中lxy為X,Y的離均差積和,lxx為X的離均差平方和;
2)再求a,根據回歸方程
a等於Y的均值減去x均值與b乘積的差值。
(3)回歸方程的圖示:
根據回歸方程,在坐標軸上任意取相距較遠的兩點,連接上述兩點就可得到回歸方程的圖示。應注意的是,連出的回歸直線不應超過x的實測值范圍.
2.
回歸關系的檢驗
回歸關系的檢驗又稱回歸方程的檢驗,其目的是檢驗求得的回歸方程在總體中是否成立,即是否樣本代表的總體也有直線回歸關系。方法有以下兩種:
(1)方差分析
其基本思想是將總變異分解為SS回歸和SS剩餘,然後利用F檢驗來判斷回歸方程是否成立。
(2)t檢驗
其基本思想是利用樣本回歸系數b與總體均數回歸系數ß進行比較來判斷回歸方程是否成立,實際應用中因為回歸系數b的檢驗過程較為復雜,而相關系數r的檢驗過程簡單並與之等價,故一般用相關系數r的檢驗來代替回歸系數b的檢驗。
3.
直線回歸方程的應用
(1)描述兩變數之間的依存關系;
利用直線回歸方程即可定量描述兩個變數間依存的數量關系
(2)利用回歸方程進行預測;
把預報因子(即自變數x)代入回歸方程對預報量(即因變數Y)進行估計,即可得到個體Y值的容許區間。
(3)利用回歸方程進行統計控制
規定Y值的變化,通過控制x的范圍來實現統計控制的目標。如已經得到了空氣中NO2的濃度和汽車流量間的回歸方程,即可通過控制汽車流量來控制空氣中NO2的濃度。
4.
應用直線回歸的注意事項
(1)做回歸分析要有實際意義;
(2)回歸分析前,最好先作出散點圖;
(3)回歸直線不要外延。
⑧ 回歸分析法計算公式是什麼
相關計算公式為:a=[∑Xi2∑Yi-∑Xi∑XiYi]/[n∑Xi2-(∑Xi)2],b=[n∑XiYi-∑Xi∑Yi]/[n∑Xi2-(∑Xi)2]。
回歸直線法是根據若干期業務量和資金佔用的歷史資料,運用最小平方法原理計算不變資金和單位產銷量所需變動資金的一種資金習性分析方法。
回歸分析法主要解決的問題:
1、確定變數之間是否存在相關關系,若存在,則找出數學表達式。
2、根據一個或幾個變數的值,預測或控制另一個或幾個變數的值,且要估計這種控制或預測可以達到何種精確度。
⑨ 什麼是回歸分析法
回歸分析(英語:Regression Analysis)是一種統計學上分析數據的方法,目的在於了解兩個或多個變數間是否相關、相關方向與強度,並建立數學模型以便觀察特定變數來預測研究者感興趣的變數。
回歸分析中,當研究的因果關系只涉及因變數和一個自變數時,叫做一元回歸分析;當研究的因果關系涉及因變數和兩個或兩個以上自變數時,叫做多元回歸分析。此外,回歸分析中,又依據描述自變數與因變數之間因果關系的函數表達式是線性的還是非線性的,分為線性回歸分析和非線性回歸分析。回歸分析法預測是利用回歸分析方法,根據一個或一組自變數的變動情況預測與其有相關關系的某隨機變數的未來值。進行回歸分析需要建立描述變數間相關關系的回歸方程。根據自變數的個數,可以是一元回歸,也可以是多元回歸。根據所研究問題的性質,可以是線性回歸,也可以是非線性回歸。非線性回歸方程一般可以通過數學方法為線性回歸方程進行處理。
⑩ 最小二乘法、回歸分析法、灰色預測法、決策論、神經網路等5個演算法的使用范圍及優缺點是什麼
最小二乘法:通過最小化誤差的平方和尋找數據的最佳函數匹配。利用最小二乘法可以簡便地求得未知的數據,並使得這些求得的數據與實際數據之間誤差的平方和為最小。最小二乘法還可用於曲線擬合。其他一些優化問題也可通過最小化能量或最大化熵用最小二乘法來表達。優點:實現簡單,計算簡單。缺點:不能擬合非線性數據.
回歸分析法:指的是確定兩種或兩種以上變數間相互依賴的定量關系的一種統計分析方法。在大數據分析中,回歸分析是一種預測性的建模技術,它研究的是因變數(目標)和自變數(預測器)之間的關系。這種技術通常用於預測分析,時間序列模型以及發現變數之間的因果關系。優點:在分析多因素模型時,更加簡單和方便,不僅可以預測並求出函數,還可以自己對結果進行殘差的檢驗,檢驗模型的精度。缺點:回歸方程式只是一種推測,這影響了因子的多樣性和某些因子的不可測性,使得回歸分析在某些情況下受到限制。
灰色預測法:
色預測法是一種對含有不確定因素的系統進行預測的方法 。它通過鑒別系統因素之間發展趨勢的相異程度,即進行關聯分析,並對原始數據進行生成處理來尋找系統變動的規律,生成有較強規律性的數據序列,然後建立相應的微分方程模型,從而預測事物未來發展趨勢的狀況。它用等時間距離觀測到的反應預測對象特徵的一系列數量值構造灰色預測模型,預測未來某一時刻的特徵量,或者達到某一特徵量的時間。優點:對於不確定因素的復雜系統預測效果較好,且所需樣本數據較小。缺點:基於指數率的預測沒有考慮系統的隨機性,中長期預測精度較差。
決策樹:在已知各種情況發生概率的基礎上,通過構成決策樹來求取凈現值的期望值大於等於零的概率,評價項目風險,判斷其可行性的決策分析方法,是直觀運用概率分析的一種圖解法。由於這種決策分支畫成圖形很像一棵樹的枝幹,故稱決策樹。在機器學習中,決策樹是一個預測模型,他代表的是對象屬性與對象值之間的一種映射關系。優點:能夠處理不相關的特徵;在相對短的時間內能夠對大型數據源做出可行且效果良好的分析;計算簡單,易於理解,可解釋性強;比較適合處理有缺失屬性的樣本。缺點:忽略了數據之間的相關性;容易發生過擬合(隨機森林可以很大程度上減少過擬合);在決策樹當中,對於各類別樣本數量不一致的數據,信息增益的結果偏向於那些具有更多數值的特徵。
神經網路:優點:分類的准確度高;並行分布處理能力強,分布存儲及學習能力強,對雜訊神經有較強的魯棒性和容錯能力,能充分逼近復雜的非線性關系;具備聯想記憶的功能。缺點:神經網路需要大量的參數,如網路拓撲結構、權值和閾值的初始值;不能觀察之間的學習過程,輸出結果難以解釋,會影響到結果的可信度和可接受程度;學習時間過長,甚至可能達不到學習的目的。