反向傳播演算法推導
㈠ 反向傳播演算法的介紹
反向傳播演算法(英:Backpropagation algorithm,簡稱:BP演算法)是一種監督學習演算法,常被用來訓練多層感知機。 於1974年,Paul Werbos[1]首次給出了如何訓練一般網路的學習演算法,而人工神經網路只是其中的特例。不巧的,在當時整個人工神經網路社群中卻無人知曉Paul所提出的學習演算法。直到80年代中期,BP演算法才重新被David Rumelhart、Geoffrey Hinton及Ronald Williams[2][3]、David Parker[4]和Yann LeCun[5]獨立發現,並獲得了廣泛的注意,引起了人工神經網路領域研究的第二次熱潮。BP演算法是Delta規則的推廣,要求每個人工神經元(節點)所使用的激勵函數必須是可微的。BP演算法特別適合用來訓練前向神經網路。
㈡ 一文徹底搞懂BP演算法:原理推導+數據演示+項目實戰(上篇)
反向傳播演算法(Backpropagation Algorithm,簡稱BP演算法)是深度學習的重要思想基礎,對於初學者來說也是必須要掌握的基礎知識!本文希望以一個清晰的脈絡和詳細的說明,來讓讀者徹底明白BP演算法的原理和計算過程。
全文分為上下兩篇,上篇主要介紹BP演算法的原理(即公式的推導),介紹完原理之後,我們會將一些具體的數據帶入一個簡單的三層神經網路中,去完整的體驗一遍BP演算法的計算過程;下篇是一個項目實戰,我們將帶著讀者一起親手實現一個BP神經網路(不使用任何第三方的深度學習框架)來解決一個具體的問題。
圖 1 所示是一個簡單的三層(兩個隱藏層,一個輸出層)神經網路結構,假設我們使用這個神經網路來解決二分類問題,我們給這個網路一個輸入樣本 ,通過前向運算得到輸出 。輸出值 的值域為 ,例如 的值越接近0,代表該樣本是"0"類的可能性越大,反之是"1"類的可能性大。
為了便於理解後續的內容,我們需要先搞清楚前向傳播的計算過程,以圖1所示的內容為例:
輸入的樣本為:
第一層網路的參數為:
第二層網路的參數為:
第三層網路的參數為:
第一層隱藏層有三個神經元: 、 和 。該層的輸入為:
以 神經元為例,則其輸入為:
同理有:
假設我們選擇函數 作為該層的激活函數(圖1中的激活函數都標了一個下標,一般情況下,同一層的激活函數都是一樣的,不同層可以選擇不同的激活函數),那麼該層的輸出為: 、 和 。
第二層隱藏層有兩個神經元: 和 。該層的輸入為:
即第二層的輸入是第一層的輸出乘以第二層的權重,再加上第二層的偏置。因此得到和的輸入分別為:
該層的輸出分別為: 和 。
輸出層只有一個神經元 :。該層的輸入為:
即:
因為該網路要解決的是一個二分類問題,所以輸出層的激活函數也可以使用一個Sigmoid型函數,神經網路最後的輸出為: 。
在1.1節里,我們已經了解了數據沿著神經網路前向傳播的過程,這一節我們來介紹更重要的反向傳播的計算過程。假設我們使用隨機梯度下降的方式來學習神經網路的參數,損失函數定義為 ,其中 是該樣本的真實類標。使用梯度下降進行參數的學習,我們必須計算出損失函數關於神經網路中各層參數(權重 和偏置 )的偏導數。
假設我們要對第 層隱藏層的參數 和 求偏導數,即求 和 。假設 代表第 層神經元的輸入,即 ,其中 為前一層神經元的輸出,則根據鏈式法則有:
因此,我們只需要計算偏導數 、 和 。
前面說過,第k層神經元的輸入為: ,因此可以得到:
上式中, 代表第 層神經元的權重矩陣 的第 行, 代表第 層神經元的權重矩陣 的第 行中的第 列。
我們以1.1節中的簡單神經網路為例,假設我們要計算第一層隱藏層的神經元關於權重矩陣的導數,則有:
因為偏置b是一個常數項,因此偏導數的計算也很簡單:
依然以第一層隱藏層的神經元為例,則有:
偏導數 又稱為 誤差項(error term,也稱為「靈敏度」) ,一般用 表示,例如 是第一層神經元的誤差項,其值的大小代表了第一層神經元對於最終總誤差的影響大小。
根據第一節的前向計算,我們知道第 層的輸入與第 層的輸出之間的關系為:
又因為 ,根據鏈式法則,我們可以得到 為:
由上式我們可以看到,第 層神經元的誤差項 是由第 層的誤差項乘以第 層的權重,再乘以第 層激活函數的導數(梯度)得到的。這就是誤差的反向傳播。
現在我們已經計算出了偏導數 、 和 ,則 和 可分別表示為:
下面是基於隨機梯度下降更新參數的反向傳播演算法:
單純的公式推導看起來有些枯燥,下面我們將實際的數據帶入圖1所示的神經網路中,完整的計算一遍。
我們依然使用如圖5所示的簡單的神經網路,其中所有參數的初始值如下:
輸入的樣本為(假設其真實類標為"1"):
第一層網路的參數為:
第二層網路的參數為:
第三層網路的參數為:
假設所有的激活函數均為Logistic函數: 。使用均方誤差函數作為損失函數:
為了方便求導,我們將損失函數簡化為:
我們首先初始化神經網路的參數,計算第一層神經元:
上圖中我們計算出了第一層隱藏層的第一個神經元的輸入 和輸出 ,同理可以計算第二個和第三個神經元的輸入和輸出:
接下來是第二層隱藏層的計算,首先我們計算第二層的第一個神經元的輸入z₄和輸出f₄(z₄):
同樣方法可以計算該層的第二個神經元的輸入 和輸出 :
最後計算輸出層的輸入 和輸出 :
首先計算輸出層的誤差項 ,我們的誤差函數為 ,由於該樣本的類標為「1」,而預測值為 ,因此誤差為 ,輸出層的誤差項為:
接著計算第二層隱藏層的誤差項,根據誤差項的計算公式有:
最後是計算第一層隱藏層的誤差項:
㈢ 解讀反向傳播演算法(BackPropagation)
冒泡~周末愉快鴨!
舉個例子:
如下圖所示,這是 帶有一個隱層的三層神經網路 ,
-小女孩→隱藏層節點
-小黃帽→輸出層節點
-哆啦A夢→誤差
小女孩左側接受輸入信號,經過隱層節點產生輸出結果,哆啦A夢則指導參數往更優的方向調整。 由於哆啦A夢可以直接將誤差反饋給小黃帽,所以與小黃帽直接相連的左側參數矩陣可以直接通過誤差進行參數優化(實縱線);而與小女孩直接相連的左側參數矩陣由於不能得到哆啦A夢的直接反饋而不能直接被優化(虛棕線)。但由於反向傳播演算法使得哆啦A夢的反饋可以被傳遞到小女孩那進而產生間接誤差,所以與小女孩直接相連的左側權重矩陣可以通過間接誤差得到權重更新,迭代幾輪,誤差會降低到最小。( 也就是說小男孩得到的是直接誤差,小女孩是間接誤差 )
接下來將用例子演示整個過程
假設有下圖這樣一個帶權值的網路層,第一層是輸入層,包含兩個神經元i1,i2,和截距項b1;第二層是隱含層,包含兩個神經元h1,h2和截距項b2,第三層是輸出o1,o2,每條線上標的wi是層與層之間連接的權重,激活函數我們默認為sigmoid函數。
通過前向傳播我們得到輸出值為[0.75136079 , 0.772928465],與實際值[0.01 , 0.99]相差還很遠,接下來我們對誤差進行反向傳播,更新權值,重新計算輸出。
3.輸入層---->隱含層的權值更新:
在上文計算總誤差對w5的偏導時,是從out(o1)---->net(o1)---->w5,但是在隱含層之間的權值更新時,是out(h1)---->net(h1)---->w1,而out(h1)會接受E(o1)和E(o2)兩個地方傳來的誤差,所以這個地方兩個都要計算。
根據BP演算法的過程演示,可以得到BP演算法的一般過程:
1. 正向傳播FP(求損失)
此過程中,我們根據輸入的樣本、給定的初始化權重值W和偏置項的值b, 計算最終輸出值以及輸出值與實際值之間的損失值。( 注意:如果損失值不在給定的范圍內則進行接下來反向傳播的過程, 否則停止W,b的更新。 )
2.反向傳播BP(回傳誤差)
將輸出以某種形式通過隱層向輸入層逐層反傳,並將誤差分攤給各層的所有單元,從而獲得各層單元的誤差信號,此誤差信號即作為修正各單元權值的依據。( 主要為: ①隱層到輸出層的參數W的更新 ②從輸入層到隱層的參數W的更新。 )
Ending~理解計算和公式還是很重要的鴨!
㈣ 一文搞懂反向傳播演算法
這是一場以誤差(Error)為主導的反向傳播(Back Propagation)運動,旨在得到最優的全局參數矩陣,進而將多層神經網路應用到分類或者回歸任務中去。
前向傳遞輸入信號直至輸出產生誤差,反向傳播誤差信息更新權重矩陣。這兩句話很好的形容了信息的流動方向,權重得以在信息雙向流動中得到優化,這讓我想到了北京城的夜景,車輛川流不息,車水馬龍,你來我往(* ॑꒳ ॑* )⋆*。
至於為什麼會提出反向傳播演算法,我直接應用梯度下降(Gradient Descent)不行嗎?想必大家肯定有過這樣的疑問。答案肯定是不行的,縱然梯度下降神通廣大,但卻不是萬能的。梯度下降可以應對帶有明確求導函數的情況,或者說可以應對那些可以求出誤差的情況,比如邏輯回歸(Logistic Regression),我們可以把它看做沒有隱層的網路;但對於多隱層的神經網路,輸出層可以直接求出誤差來更新參數,但其中隱層的誤差是不存在的,因此不能對它直接應用梯度下降,而是先將誤差反向傳播至隱層,然後再應用梯度下降,其中將誤差從末層往前傳遞的過程需要鏈式法則(Chain Rule)的幫助,因此反向傳播演算法可以說是梯度下降在鏈式法則中的應用。
為了幫助較好的理解反向傳播概念,對它有一個直觀的理解,接下來就拿猜數字游戲舉個栗子。
這一過程類比沒有隱層的神經網路,比如邏輯回歸,其中小黃帽代表輸出層節點,左側接受輸入信號,右側產生輸出結果,小藍貓則代表了誤差,指導參數往更優的方向調整。由於小藍貓可以直接將誤差反饋給小黃帽,同時只有一個參數矩陣和小黃帽直接相連,所以可以直接通過誤差進行參數優化(實縱線),迭代幾輪,誤差會降低到最小。
這一過程類比帶有一個隱層的三層神經網路,其中小女孩代表隱藏層節點,小黃帽依然代表輸出層節點,小女孩左側接受輸入信號,經過隱層節點產生輸出結果,小藍貓代表了誤差,指導參數往更優的方向調整。由於小藍貓可以直接將誤差反饋給小黃帽,所以與小黃帽直接相連的左側參數矩陣可以直接通過誤差進行參數優化(實縱線);而與小女孩直接相連的左側參數矩陣由於不能得到小藍貓的直接反饋而不能直接被優化(虛棕線)。但由於反向傳播演算法使得小藍貓的反饋可以被傳遞到小女孩那進而產生間接誤差,所以與小女孩直接相連的左側權重矩陣可以通過間接誤差得到權重更新,迭代幾輪,誤差會降低到最小。
上邊的栗子從直觀角度了解了反向傳播,接下來就詳細的介紹其中兩個流程前向傳播與反向傳播,在介紹之前先統一一下標記。
如何將輸入層的信號傳輸至隱藏層呢,以隱藏層節點c為例,站在節點c上往後看(輸入層的方向),可以看到有兩個箭頭指向節點c,因此a,b節點的信息將傳遞給c,同時每個箭頭有一定的權重,因此對於c節點來說,輸入信號為:
同理,節點d的輸入信號為:
由於計算機善於做帶有循環的任務,因此我們可以用矩陣相乘來表示:
所以,隱藏層節點經過非線性變換後的輸出表示如下:
同理,輸出層的輸入信號表示為權重矩陣乘以上一層的輸出:
同樣,輸出層節點經過非線性映射後的最終輸出表示為:
輸入信號在權重矩陣們的幫助下,得到每一層的輸出,最終到達輸出層。可見,權重矩陣在前向傳播信號的過程中扮演著運輸兵的作用,起到承上啟下的功能。
既然梯度下降需要每一層都有明確的誤差才能更新參數,所以接下來的重點是如何將輸出層的誤差反向傳播給隱藏層。
其中輸出層、隱藏層節點的誤差如圖所示,輸出層誤差已知,接下來對隱藏層第一個節點c作誤差分析。還是站在節點c上,不同的是這次是往前看(輸出層的方向),可以看到指向c節點的兩個藍色粗箭頭是從節點e和節點f開始的,因此對於節點c的誤差肯定是和輸出層的節點e和f有關。
不難發現,輸出層的節點e有箭頭分別指向了隱藏層的節點c和d,因此對於隱藏節點e的誤差不能被隱藏節點c霸為己有,而是要服從按勞分配的原則(按權重分配),同理節點f的誤差也需服從這樣的原則,因此對於隱藏層節點c的誤差為:
同理,對於隱藏層節點d的誤差為:
為了減少工作量,我們還是樂意寫成矩陣相乘的形式:
你會發現這個矩陣比較繁瑣,如果能夠簡化到前向傳播那樣的形式就更好了。實際上我們可以這么來做,只要不破壞它們的比例就好,因此我們可以忽略掉分母部分,所以重新成矩陣形式為:
仔細觀察,你會發現這個權重矩陣,其實是前向傳播時權重矩陣w的轉置,因此簡寫形式如下:
不難發現,輸出層誤差在轉置權重矩陣的幫助下,傳遞到了隱藏層,這樣我們就可以利用間接誤差來更新與隱藏層相連的權重矩陣。可見,權重矩陣在反向傳播的過程中同樣扮演著運輸兵的作用,只不過這次是搬運的輸出誤差,而不是輸入信號(我們不生產誤差,只是誤差的搬運工(っ̯ -。))。
第三部分大致介紹了輸入信息的前向傳播與輸出誤差的後向傳播,接下來就根據求得的誤差來更新參數。
首先對隱藏層的w11進行參數更新,更新之前讓我們從後往前推導,直到預見w11為止:
因此誤差對w11求偏導如下:
求導得如下公式(所有值已知):
同理,誤差對於w12的偏導如下:
同樣,求導得w12的求值公式:
同理,誤差對於偏置求偏導如下:
帶入上述公式為:
接著對輸入層的w11進行參數更新,更新之前我們依然從後往前推導,直到預見第一層的w11為止(只不過這次需要往前推的更久一些):
因此誤差對輸入層的w11求偏導如下:
同理,輸入層的其他三個參數按照同樣的方法即可求出各自的偏導,在這不再贅述。
在每個參數偏導數明確的情況下,帶入梯度下降公式即可(不在重點介紹):
至此,利用鏈式法則來對每層參數進行更新的任務已經完成。
利用鏈式法則來更新權重你會發現其實這個方法簡單,但過於冗長。由於更新的過程可以看做是從網路的輸入層到輸出層從前往後更新,每次更新的時候都需要重新計算節點的誤差,因此會存在一些不必要的重復計算。其實對於已經計算完畢的節點我們完全可以直接拿來用,因此我們可以重新看待這個問題,從後往前更新。先更新後邊的權重,之後再在此基礎上利用更新後邊的權重產生的中間值來更新較靠前的參數。這個中間變數就是下文要介紹的delta變數,一來簡化公式,二來減少計算量,有點動態規劃的趕腳。
接下來用事實說話,大家仔細觀察一下在第四部分鏈式求導部分誤差對於輸出層的w11以及隱藏層的w11求偏導以及偏置的求偏導的過程,你會發現,三個公式存在相同的部分,同時隱藏層參數求偏導的過程會用到輸出層參數求偏導的部分公式,這正是引入了中間變數delta的原因(其實紅框的公式就是delta的定義)。
大家看一下經典書籍《神經網路與深度學習》中對於delta的描述為在第l層第j個神經元上的誤差,定義為誤差對於當前帶權輸入求偏導,數學公式如下:
因此輸出層的誤差可以表示為(上圖紅色框公式):
隱藏層的誤差可以表示為(上圖藍色框公式):
同時對於權重更新的表示為(上圖綠色框公式):
其實對於偏置的更新表示為(上圖紅色框):
上述4個公式其實就是《神經網路與深度學習》書中傳說的反向傳播4大公式(詳細推導證明可移步此書):
仔細觀察,你會發現BP1與BP2相結合就能發揮出最大功效,可以計算出任意層的誤差,只要首先利用BP1公式計算出輸出層誤差,然後利用BP2層層傳遞,就無敵了,這也正是誤差反向傳播演算法的緣由吧。同時對於權重w以及偏置b我們就可以通過BP3和BP4公式來計算了。
至此,我們介紹了反向傳播的相關知識,一開始看反向傳播資料的時候總覺得相對獨立,這個教材這么講,另一篇博客又換一個講法,始終不能很好的理解其中的含義,到目前為止,思路相對清晰。我們先從大致流程上介紹了反向傳播的來龍去脈,接著用鏈式求導法則來計算權重以及偏置的偏導,進而我們推出了跟經典著作一樣樣兒的結論,因此本人覺得較為詳細,應該對初學者有一定的借鑒意義,希望對大家有所幫助。
Nielsen M A. Neural networks and deep learning[M]. 2015.
Rashid T. Make your own neural network[M]. CreateSpace IndependentPublishing Platform, 2016.
㈤ 讀懂反向傳播演算法(bp演算法)
反向傳播演算法可以說是神經網路最基礎也是最重要的知識點。基本上所以的優化演算法都是在反向傳播算出梯度之後進行改進的。同時,也因為反向傳播演算法是一個遞歸的形式,一層一層的向後傳播誤差即可,很容易實現(這部分聽不懂沒關系,下面介紹)。不要被反向傳播嚇到,掌握其核心思想就很容易自己手推出來。
我們知道神經網路都是有一個loss函數的。這個函數根據不同的任務有不同的定義方式,但是這個loss函數的目的就是計算出當前神經網路建模出來輸出的數據和理想數據之間的距離。計算出loss之後,根據反向傳播演算法就可以更新網路中的各種參數以此使loss不斷下降,即可使輸出的數據更加理想。
所以,現在的任務是,已知一個網路的loss之後,如何根據loss來更新參數呢?具體點即如何更新網路節點中的權重w和偏差b的值呢?
這里我們採用的是全連接神經網路進行說明。
要想把這個過程說清楚,首先需要將神經網路中各個參數用文字表達清楚。定義的就是w和b在網路中的准確位置。
對於 表示的是神經網路中第 層第k個節點到神經網路中第 層第j個節點之間的權重。注意w的下標是首位表示的是節點後層節點的位置,末尾表示是前層節點的位置。理解這樣的表達方式在後面的計算中會很好理解。
同理,對於b的表示:
b的表示相比於w要簡單一些,符號 表示第l層網路在第j個節點的偏置。無論w還是b的表示,上標都是表示層數。並且 和 表示都是第l層網路第j個節點的參數。所以該節點的輸出可以表示為:
神經網路輸出之後會經過一個激活函數,這用激活函數用 表示,則經過激活函數輸出為:
至此,根據上面符號 、 、 、 。我們可以對於神經網路裡面每一個數據准確的表示了。
給定一個損失函數之後,用 表示,說白了反向傳播就是求∂C/∂w和∂C/∂b,然後將這個值乘以和對應的w,b進行相減就可以實現一次的參數更新了。為什麼這樣的操作就可以優化網路,減小loss值呢?
來源於導數的概念和速度相關。∂C/∂w和∂C/∂b相當於loss值C相對於w和v變化的速度。如果∂C/∂w是正的,則增大w,C也會增大,如果希望C減小的話,應該減小w;並且∂C/∂w的絕對值越大,表示w對C的值影響越大,w稍微有一點變化,C就會有大幅變化。如果要優化C變小,w應該對應的減少多少呢?也沒有一個確定的答案。這里通過變化的速度和學習率相乘作為一個減小的值。通過多輪迭代。最終是希望c達到最小點。而當函數落入最小值的時候,無論是局部最小還是全局最小,其周圍一定是平滑的。所以此時∂C/∂w和∂C/∂b將會變得很小甚至為0,即參數不在更新了。當函數在局部最小點處參數不在更新出現梯度消失的問題時,目前也有各種trick進行解決。不是這里的重點。
為了好說明,這里定義一個很簡單的損失函數C:
接下來就是有意思的階段了。這里還是利用上一節中∂C/∂w和∂C/∂b的解釋。如果我們想要求出∂C/∂w和∂C/∂b的值,即具體的 、 對C影響速率的值,我們找一個中間變數∂C/∂ 。因為我們知道:
我們定義:
當我們知道了 值之後,我們根據 式子可以很容易求出 。
利用導數的鏈式法則:
很容易推出來不是?同理可以求出:
可以看出通過媒介 很容易求出∂C/∂w和∂C/∂b。那麼我們現在來理解一下 到底是什麼意思,以及如何求出來每一個l層j節點的 值。
根據定義:
可以看出來 就是 對於C的影響大小(聯系之前說的導數和速率的關系)。而 是第 層第 個神經元未進過激活函數之前的輸出。所以我們可以理解 為網路中第 層第 個神經元對loss的影響。所以很直觀的看法就是我們先求出單個神經元對loss值得影響,然後再計算該神經元內部參數對於loss的影響。
ok,如果我們已經理解了為什麼要引入 變數以及如何利用該變數計算具體參數的梯度後,接下來我們就可以看看如何獲得 值。反向傳播的名字我想也就是通過計算 的方式而來的。是一層一層遞歸而來的。
既然說是遞歸的方式,我們來思考一下 和 之間有什麼關系,如果找到這個關系之後,我們就可以默認我們如果知道最後一層網路節點的 值,我們就可以獲得倒數第二層網路節點的 值,倒數第三層,倒數第四層,……以此推類即可獲得整個網路的每個節點的 值。至此我們的反向傳播也基本完成了。
所以最重要的有兩點:
先看問題1,直接根據求導的鏈式法則就可以找出兩個的關系,具體公式如下,可以多看看手寫一下,思路上也很簡單。
覺得這樣的鏈式公式還是很直觀的,如果不好理解,可以自己畫一個神經網路圖,連上節點與節點之間的線,標上參數,然後推一下應該就能理解了。
這里的 都表示的未經過激活函數的神經元的輸出。 表示激活函數。因為:
所以:
帶入上式就可以得出:
至此就找出了 和 之間的關系了。
(還能簡化,根據最開始我們定義的 )。
理解起來就是網路中前面一層某一個神經元對於loss的影響與該層的後一層所有的神經元對loss的影響、該神經元的輸出大小、該神經元與後一層神經元連接的權重有關系的,並且是一個累加的效應。這樣的理解也是非常直觀合乎常理的。
現在萬事具備,只差問題2了。即假設最後一層網路是L,最後一層 如何計算得出。最後一層的 值就像一個導火索,一旦有了開始,就可以利用我們之前推出來的: 公式進行反向傳播了(反向傳播還是很形象的不是?)。現在解決這個問題。這個問題就是和損失函數具體怎麼定義有關系了。不過我們先不考慮C的具體形式,根據通用的鏈式法則我們可以得到:
這里需要注意的是最後一層激活函數使用的是哪種。最後一層激活函數在計算某一個神經元的輸出時可能會結合其他節點的輸出來計算。比如softmax激活函數,其輸出的是一個概率值【0,1】。輸出大小就是結合輸出所有的值。
現在我們來考慮兩個具體的損失函數,並且採用之前定義的均方誤差損失函數 :
求導為:
因為sigmoid輸出的值僅僅和輸入的x值有關 。所以 當 時值為0.所以:
根據上面,BP推導有三部曲,先求出 ,再根據 分別求出 、 。總結公式如下:
啟動上面反傳的導火索是最後一層的 值,計算公式為:
根據最後一層不同類型的激活函數不同對待。
㈥ 一文搞懂梯度下降&反向傳播
如果把神經網路模型比作一個黑箱,把模型參數比作黑箱上面一個個小旋鈕,那麼根據通用近似理論(universal approximation theorem),只要黑箱上的旋鈕數量足夠多,而且每個旋鈕都被調節到合適的位置,那這個模型就可以實現近乎任意功能(可以逼近任意的數學模型)。
顯然,這些旋鈕(參數)不是由人工調節的,所謂的機器學習,就是通過程序來自動調節這些參數。神經網路不僅參數眾多(少則十幾萬,多則上億),而且網路是由線性層和非線性層交替疊加而成,上層參數的變化會對下層的輸出產生非線性的影響,因此,早期的神經網路流派一度無法往多層方向發展,因為他們找不到能用於任意多層網路的、簡潔的自動調節參數的方法。
直到上世紀80年代,祖師爺辛頓發明了反向傳播演算法,用輸出誤差的均方差(就是loss值)一層一層遞進地反饋到各層神經網路,用梯度下降法來調節每層網路的參數。至此,神經網路才得以開始它的深度之旅。
本文用python自己動手實現梯度下降和反向傳播演算法。 請點擊這里 到Github上查看源碼。
梯度下降法是一種將輸出誤差反饋到神經網路並自動調節參數的方法,它通過計算輸出誤差的loss值( J )對參數 W 的導數,並沿著導數的反方向來調節 W ,經過多次這樣的操作,就能將輸出誤差減小到最小值,即曲線的最低點。
雖然Tensorflow、Pytorch這些框架都實現了自動求導的功能,但為了徹底理解參數調節的過程,還是有必要自己動手實現梯度下降和反向傳播演算法。我相信你和我一樣,已經忘了之前學的微積分知識,因此,到可汗學院復習下 Calculus
和 Multivariable Calculus 是個不錯的方法,或是拜讀 這篇關於神經網路矩陣微積分的文章 。
Figure2是求導的基本公式,其中最重要的是 Chain Rule ,它通過引入中間變數,將「 y 對 x 求導」的過程轉換為「 y 對中間變數 u 求導,再乘以 u 對 x 求導」,這樣就將一個復雜的函數鏈求導簡化為多個簡單函數求導。
如果你不想涉及這些求導的細節,可以跳過具體的計算,領會其思想就好。
對於神經網路模型: Linear -> ReLu -> Linear -> MSE(Loss function) 來說,反向傳播就是根據鏈式法則對 求導,用輸出誤差的均方差(MSE)對模型的輸出求導,並將導數傳回上一層神經網路,用於它們來對 w 、 b 和 x (上上層的輸出)求導,再將 x 的導數傳回到它的上一層神經網路,由此將輸出誤差的均方差通過遞進的方式反饋到各神經網路層。
對於 求導的第一步是為這個函數鏈引入中間變數:
接著第二步是對各中間變數求導,最後才是將這些導數乘起來。
首先,反向傳播的起點是對loss function求導,即 。 :
mse_grad()之所以用unsqueeze(-1)給導數增加一個維度,是為了讓導數的shape和tensor shape保持一致。
linear層的反向傳播是對 求導,它也是一個函數鏈,也要先對中間變數求導再將所有導數相乘:
這些中間變數的導數分別是:
對向量 求導,指的是對向量所有的標量求偏導( ),即: ,這個橫向量也稱為y的梯度。
這里 ,是一個向量,因此, 求導,指的是y的所有標量(y_1, y_2, ..., y_n)對向量x求偏導,即:
。
這個矩陣稱為雅克比矩陣,它是個對角矩陣,因為 ,因此 。
同理, 。
因此,所有中間導數相乘的結果:
lin_grad() 中的inp.g、w.g和b.g分別是求 的導數,以inp.g為例,它等於 ,且需要乘以前面各層的導數,即 outp.g @ w.t() ,之所以要用點積運算符(@)而不是標量相乘,是為了讓它的導數shape和tensor shape保持一致。同理,w.g和b.g也是根據相同邏輯來計算的。
ReLu層的求導相對來說就簡單多了,當輸入 <= 0時,導數為0,當輸入 > 0時,導數為1。
求導運算終於結束了,接下來就是驗證我們的反向傳播是否正確。驗證方法是將forward_backward()計算的導數和Pytorch自動微分得到的導數相比較,如果它們相近,就認為我們的反向傳播演算法是正確的。
首先,將計算好的參數導數保存到w1g、b1g、w2g和b2g中,再用Pytorch的自動微分來求w11、b11、w22和b22的導數。
最後,用np.allclose()來比較導數間的差異,如果有任何一個導數不相近,assert就會報錯。結果證明,我們自己動手實現的演算法是正確的。
反向傳播是遵循鏈式法則的,它將前向傳播的輸出作為輸入,輸入作為輸出,通過遞進的方式將求導這個動作從後向前傳遞回各層。神經網路參數的求導需要進行矩陣微積分計算,根據這些導數的反方向來調節參數,就可以讓模型的輸出誤差的優化到最小值。
歡迎關注和點贊,你的鼓勵將是我創作的動力