bp神經網路演算法原理

發布時間: 2023-08-03 20:13:56

『壹』一文徹底搞懂BP演算法：原理推導+數據演示+項目實戰（上篇）

反向傳播演算法（Backpropagation Algorithm，簡稱BP演算法）是深度學習的重要思想基礎，對於初學者來說也是必須要掌握的基礎知識！本文希望以一個清晰的脈絡和詳細的說明，來讓讀者徹底明白BP演算法的原理和計算過程。

全文分為上下兩篇，上篇主要介紹BP演算法的原理（即公式的推導），介紹完原理之後，我們會將一些具體的數據帶入一個簡單的三層神經網路中，去完整的體驗一遍BP演算法的計算過程；下篇是一個項目實戰，我們將帶著讀者一起親手實現一個BP神經網路（不使用任何第三方的深度學習框架）來解決一個具體的問題。

圖 1 所示是一個簡單的三層（兩個隱藏層，一個輸出層）神經網路結構，假設我們使用這個神經網路來解決二分類問題，我們給這個網路一個輸入樣本，通過前向運算得到輸出。輸出值的值域為，例如的值越接近0，代表該樣本是"0"類的可能性越大，反之是"1"類的可能性大。

為了便於理解後續的內容，我們需要先搞清楚前向傳播的計算過程，以圖1所示的內容為例：

輸入的樣本為：

第一層網路的參數為：

第二層網路的參數為：

第三層網路的參數為：

第一層隱藏層有三個神經元：、和。該層的輸入為：

以神經元為例，則其輸入為：

同理有：

假設我們選擇函數作為該層的激活函數（圖1中的激活函數都標了一個下標，一般情況下，同一層的激活函數都是一樣的，不同層可以選擇不同的激活函數），那麼該層的輸出為：、和。

第二層隱藏層有兩個神經元：和。該層的輸入為：

即第二層的輸入是第一層的輸出乘以第二層的權重，再加上第二層的偏置。因此得到和的輸入分別為：

該層的輸出分別為：和。

輸出層只有一個神經元：。該層的輸入為：

即：

因為該網路要解決的是一個二分類問題，所以輸出層的激活函數也可以使用一個Sigmoid型函數，神經網路最後的輸出為：。

在1.1節里，我們已經了解了數據沿著神經網路前向傳播的過程，這一節我們來介紹更重要的反向傳播的計算過程。假設我們使用隨機梯度下降的方式來學習神經網路的參數，損失函數定義為，其中是該樣本的真實類標。使用梯度下降進行參數的學習，我們必須計算出損失函數關於神經網路中各層參數（權重和偏置）的偏導數。

假設我們要對第層隱藏層的參數和求偏導數，即求和。假設代表第層神經元的輸入，即，其中為前一層神經元的輸出，則根據鏈式法則有：

因此，我們只需要計算偏導數、和。

前面說過，第k層神經元的輸入為：，因此可以得到：

上式中，代表第層神經元的權重矩陣的第行，代表第層神經元的權重矩陣的第行中的第列。

我們以1.1節中的簡單神經網路為例，假設我們要計算第一層隱藏層的神經元關於權重矩陣的導數，則有：

因為偏置b是一個常數項，因此偏導數的計算也很簡單：

依然以第一層隱藏層的神經元為例，則有：

偏導數又稱為 誤差項（error term，也稱為「靈敏度」） ，一般用表示，例如是第一層神經元的誤差項，其值的大小代表了第一層神經元對於最終總誤差的影響大小。

根據第一節的前向計算，我們知道第層的輸入與第層的輸出之間的關系為：

又因為，根據鏈式法則，我們可以得到為：

由上式我們可以看到，第層神經元的誤差項是由第層的誤差項乘以第層的權重，再乘以第層激活函數的導數（梯度）得到的。這就是誤差的反向傳播。
現在我們已經計算出了偏導數、和，則和可分別表示為：

下面是基於隨機梯度下降更新參數的反向傳播演算法：

單純的公式推導看起來有些枯燥，下面我們將實際的數據帶入圖1所示的神經網路中，完整的計算一遍。

我們依然使用如圖5所示的簡單的神經網路，其中所有參數的初始值如下：

輸入的樣本為（假設其真實類標為"1"）：

第一層網路的參數為：

第二層網路的參數為：

第三層網路的參數為：

假設所有的激活函數均為Logistic函數：。使用均方誤差函數作為損失函數：

為了方便求導，我們將損失函數簡化為：

我們首先初始化神經網路的參數，計算第一層神經元：

上圖中我們計算出了第一層隱藏層的第一個神經元的輸入和輸出，同理可以計算第二個和第三個神經元的輸入和輸出：

接下來是第二層隱藏層的計算，首先我們計算第二層的第一個神經元的輸入z₄和輸出f₄(z₄)：

同樣方法可以計算該層的第二個神經元的輸入和輸出：

最後計算輸出層的輸入和輸出：

首先計算輸出層的誤差項，我們的誤差函數為，由於該樣本的類標為「1」，而預測值為，因此誤差為，輸出層的誤差項為：

接著計算第二層隱藏層的誤差項，根據誤差項的計算公式有：

最後是計算第一層隱藏層的誤差項：

『貳』 BP神經網路(誤差反傳網路)

雖然每個人工神經元很簡單，但是只要把多個人工

神經元按一定方式連接起來就構成了一個能處理復雜信息的神經網路。採用BP演算法的多層前饋網路是目前應用最廣泛的神經網路，稱之為BP神經網路。它的最大功能就是能映射復雜的非線性函數關系。

對於已知的模型空間和數據空間，我們知道某個模型和他對應的數據，但是無法寫出它們之間的函數關系式，但是如果有大量的一一對應的模型和數據樣本集合，利用BP神經網路可以模擬(映射)它們之間的函數關系。

一個三層BP網路如圖8.11所示，分為輸入層、隱層、輸出層。它是最常用的BP網路。理論分析證明三層網路已經能夠表達任意復雜的連續函數關系了。只有在映射不連續函數時(如鋸齒波)才需要兩個隱層^[8]。

圖8.11中，X=(x₁，…，x_i，…，x_n)^T為輸入向量，如加入x₀=-1，可以為隱層神經元引入閥值;隱層輸出向量為:Y=(y₁，…，y_i，…，y_m)^T，如加入y₀=-1，可以為輸出層神經元引入閥值;輸出層輸出向量為:O=(o₁，…，o_i，…，o_l)^T;輸入層到隱層之間的權值矩陣用V表示，V=(V₁，…，V_j，…，V_l)^T，其中列向量V_j表示隱層第j個神經元的權值向量;隱層到輸出層之間的權值矩陣用W表示，W=(W₁，…，W_k，…，W_l)^T，

其中列向量W_k表示輸出層第k個神經元的權值向量。

圖8.11 三層BP網路^[8]

BP演算法的基本思想是:預先給定一一對應的輸入輸出樣本集。學習過程由信號的正向傳播與誤差的反向傳播兩個過程組成。正向傳播時，輸入樣本從輸入層傳入，經過各隱層逐層處理後，傳向輸出層。若輸出層的實際輸出與期望的輸出(教師信號)不符，則轉入誤差的反向傳播。將輸出誤差以某種形式通過隱層向輸入層逐層反傳，並將誤差分攤給各層的所有神經元，獲得各層的誤差信號，用它們可以對各層的神經元的權值進行調整(關於如何修改權值參見韓立群著作^[8])，循環不斷地利用輸入輸出樣本集進行權值調整，以使所有輸入樣本的輸出誤差都減小到滿意的精度。這個過程就稱為網路的學習訓練過程。當網路訓練完畢後，它相當於映射(表達)了輸入輸出樣本之間的函數關系。

在地球物理勘探中，正演過程可以表示為如下函數:

d=f(m) (8.31)

它的反函數為

m=f^-1(d) (8.32)

如果能夠獲得這個反函數，那麼就解決了反演問題。一般來說，難以寫出這個反函數，但是我們可以用BP神經網路來映射這個反函數m=f^-1(d)。對於地球物理反問題，如果把觀測數據當作輸入數據，模型參數當作輸出數據，事先在模型空間隨機產生大量樣本進行正演計算，獲得對應的觀測數據樣本，利用它們對BP網路進行訓練，則訓練好的網路就相當於是地球物理數據方程的反函數。可以用它進行反演，輸入觀測數據，網路就會輸出它所對應的模型。

BP神經網路在能夠進行反演之前需要進行學習訓練。訓練需要大量的樣本，產生這些樣本需要大量的正演計算，此外在學習訓練過程也需要大量的時間。但是BP神經網路一旦訓練完畢，在反演中的計算時間可以忽略。

要想使BP神經網路比較好地映射函數關系，需要有全面代表性的樣本，但是由於模型空間的無限性，難以獲得全面代表性的樣本集合。用這樣的樣本訓練出來的BP網路，只能反映樣本所在的較小范圍數據空間和較小范圍模型空間的函數關系。對於超出它們的觀測數據就無法正確反演。目前BP神經網路在一維反演有較多應用，在二維、三維反演應用較少，原因就是難以產生全面代表性的樣本空間。

『叄』深入淺出BP神經網路演算法的原理

深入淺出BP神經網路演算法的原理
相信每位剛接觸神經網路的時候都會先碰到BP演算法的問題，如何形象快速地理解BP神經網路就是我們學習的高級樂趣了（畫外音：樂趣？你在跟我談樂趣？）
本篇博文就是要簡單粗暴地幫助各位童鞋快速入門採取BP演算法的神經網路。
BP神經網路是怎樣的一種定義？看這句話：一種按「誤差逆傳播演算法訓練」的多層前饋網路。
BP的思想就是：利用輸出後的誤差來估計輸出層前一層的誤差，再用這層誤差來估計更前一層誤差，如此獲取所有各層誤差估計。這里的誤差估計可以理解為某種偏導數，我們就是根據這種偏導數來調整各層的連接權值，再用調整後的連接權值重新計算輸出誤差。直到輸出的誤差達到符合的要求或者迭代次數溢出設定值。
說來說去，「誤差」這個詞說的很多嘛，說明這個演算法是不是跟誤差有很大的關系？
沒錯，BP的傳播對象就是「誤差」，傳播目的就是得到所有層的估計誤差。
它的學習規則是：使用最速下降法，通過反向傳播（就是一層一層往前傳）不斷調整網路的權值和閾值，最後使全局誤差系數最小。
它的學習本質就是：對各連接權值的動態調整。

拓撲結構如上圖：輸入層（input），隱藏層（hide layer），輸出層（output）
BP網路的優勢就是能學習和儲存大量的輸入輸出的關系，而不用事先指出這種數學關系。那麼它是如何學習的？
BP利用處處可導的激活函數來描述該層輸入與該層輸出的關系，常用S型函數δ來當作激活函數。

我們現在開始有監督的BP神經網路學習演算法：
1、正向傳播得到輸出層誤差e
=>輸入層輸入樣本=>各隱藏層=>輸出層
2、判斷是否反向傳播
=>若輸出層誤差與期望不符=>反向傳播
3、誤差反向傳播
=>誤差在各層顯示=>修正各層單元的權值，直到誤差減少到可接受程度。
演算法闡述起來比較簡單，接下來通過數學公式來認識BP的真實面目。
假設我們的網路結構是一個含有N個神經元的輸入層，含有P個神經元的隱層，含有Q個神經元的輸出層。

這些變數分別如下：

認識好以上變數後，開始計算：
一、用（-1，1）內的隨機數初始化誤差函數，並設定精度ε，最多迭代次數M
二、隨機選取第k個輸入樣本及對應的期望輸出

重復以下步驟至誤差達到要求：
三、計算隱含層各神經元的輸入和輸出

四、計算誤差函數e對輸出層各神經元的偏導數，根據輸出層期望輸出和實際輸出以及輸出層輸入等參數計算。

五、計算誤差函數對隱藏層各神經元的偏導數，根據後一層（這里即輸出層）的靈敏度（稍後介紹靈敏度）δo(k)，後一層連接權值w，以及該層的輸入值等參數計算
六、利用第四步中的偏導數來修正輸出層連接權值

七、利用第五步中的偏導數來修正隱藏層連接權值

八、計算全局誤差（m個樣本，q個類別）

比較具體的計算方法介紹好了，接下來用比較簡潔的數學公式來大致地概括這個過程，相信看完上述的詳細步驟都會有些了解和領悟。
假設我們的神經網路是這樣的，此時有兩個隱藏層。
我們先來理解靈敏度是什麼？
看下面一個公式：

這個公式是誤差對b的一個偏導數，這個b是怎麼？它是一個基，靈敏度δ就是誤差對基的變化率，也就是導數。
因為?u/?b=1，所以?E/?b=?E/?u=δ，也就是說bias基的靈敏度?E/?b=δ等於誤差E對一個節點全部輸入u的導數?E/?u。
也可以認為這里的靈敏度等於誤差E對該層輸入的導數，注意了，這里的輸入是上圖U級別的輸入，即已經完成層與層權值計算後的輸入。
每一個隱藏層第l層的靈敏度為：

這里的「?」表示每個元素相乘，不懂的可與上面詳細公式對比理解
而輸出層的靈敏度計算方法不同，為：

而最後的修正權值為靈敏度乘以該層的輸入值，注意了，這里的輸入可是未曾乘以權值的輸入，即上圖的Xi級別。

對於每一個權值(W)ij都有一個特定的學習率ηIj，由演算法學習完成。

『肆』 BP神經網路原理

人工神經網路有很多模型，但是日前應用最廣、基本思想最直觀、最容易被理解的是多層前饋神經網路及誤差逆傳播學習演算法（Error Back-Prooaeation），簡稱為BP網路。

在1986年以Rumelhart和McCelland為首的科學家出版的《Parallel Distributed Processing》一書中，完整地提出了誤差逆傳播學習演算法，並被廣泛接受。多層感知網路是一種具有三層或三層以上的階層型神經網路。典型的多層感知網路是三層、前饋的階層網路（圖4.1），即：輸入層、隱含層（也稱中間層）、輸出層，具體如下：

圖4.1 三層BP網路結構

（1）輸入層

輸入層是網路與外部交互的介面。一般輸入層只是輸入矢量的存儲層，它並不對輸入矢量作任何加工和處理。輸入層的神經元數目可以根據需要求解的問題和數據表示的方式來確定。一般而言，如果輸入矢量為圖像，則輸入層的神經元數目可以為圖像的像素數，也可以是經過處理後的圖像特徵數。

（2）隱含層

1989年，Robert Hecht Nielsno證明了對於任何在閉區間內的一個連續函數都可以用一個隱層的BP網路來逼近，因而一個三層的BP網路可以完成任意的n維到m維的映射。增加隱含層數雖然可以更進一步的降低誤差、提高精度，但是也使網路復雜化，從而增加了網路權值的訓練時間。誤差精度的提高也可以通過增加隱含層中的神經元數目來實現，其訓練效果也比增加隱含層數更容易觀察和調整，所以一般情況應優先考慮增加隱含層的神經元個數，再根據具體情況選擇合適的隱含層數。

（3）輸出層

輸出層輸出網路訓練的結果矢量，輸出矢量的維數應根據具體的應用要求來設計，在設計時，應盡可能減少系統的規模，使系統的復雜性減少。如果網路用作識別器，則識別的類別神經元接近1，而其它神經元輸出接近0。

以上三層網路的相鄰層之間的各神經元實現全連接，即下一層的每一個神經元與上一層的每個神經元都實現全連接，而且每層各神經元之間無連接，連接強度構成網路的權值矩陣W。

BP網路是以一種有教師示教的方式進行學習的。首先由教師對每一種輸入模式設定一個期望輸出值。然後對網路輸入實際的學習記憶模式，並由輸入層經中間層向輸出層傳播（稱為「模式順傳播」）。實際輸出與期望輸出的差即是誤差。按照誤差平方最小這一規則，由輸出層往中間層逐層修正連接權值，此過程稱為「誤差逆傳播」（陳正昌，2005）。所以誤差逆傳播神經網路也簡稱BP（Back Propagation）網。隨著「模式順傳播」和「誤差逆傳播」過程的交替反復進行。網路的實際輸出逐漸向各自所對應的期望輸出逼近，網路對輸入模式的響應的正確率也不斷上升。通過此學習過程，確定下各層間的連接權值後。典型三層BP神經網路學習及程序運行過程如下（標志淵，2006）：

（1）首先，對各符號的形式及意義進行說明：

網路輸入向量P_k=（a₁，a₂，...，a_n）；

網路目標向量T_k=（y₁，y₂，...，y_n）；

中間層單元輸入向量S_k=（s₁，s₂，...，s_p），輸出向量B_k=（b₁，b₂，...，b_p）；

輸出層單元輸入向量L_k=（l₁，l₂，...，l_q），輸出向量C_k=（c₁，c₂，...，c_q）；

輸入層至中間層的連接權w_ij，i=1，2，...，n，j=1，2，...p；

中間層至輸出層的連接權v_jt，j=1，2，...，p，t=1，2，...，p；

中間層各單元的輸出閾值θ_j，j=1，2，...，p；

輸出層各單元的輸出閾值γ_j，j=1，2，...，p；

參數k=1，2，...，m。

（2）初始化。給每個連接權值w_ij、v_jt、閾值θ_j與γ_j賦予區間（-1，1）內的隨機值。

（3）隨機選取一組輸入和目標樣本

提供給網路。

（4）用輸入樣本

、連接權w_ij和閾值θ_j計算中間層各單元的輸入s_j，然後用s_j通過傳遞函數計算中間層各單元的輸出b_j。

基坑降水工程的環境效應與評價方法

b_j=f（s_j） j=1，2，...，p （4.5）

（5）利用中間層的輸出b_j、連接權v_jt和閾值γ_t計算輸出層各單元的輸出L_t，然後通過傳遞函數計算輸出層各單元的響應C_t。

基坑降水工程的環境效應與評價方法

C_t=f（L_t） t=1，2，...，q （4.7）

（6）利用網路目標向量

，網路的實際輸出C_t，計算輸出層的各單元一般化誤差

。

基坑降水工程的環境效應與評價方法

（7）利用連接權v_jt、輸出層的一般化誤差d_t和中間層的輸出b_j計算中間層各單元的一般化誤差

。

基坑降水工程的環境效應與評價方法

（8）利用輸出層各單元的一般化誤差

與中間層各單元的輸出b_j來修正連接權v_jt和閾值γ_t。

基坑降水工程的環境效應與評價方法

（9）利用中間層各單元的一般化誤差

，輸入層各單元的輸入P_k=（a₁，a₂，...，a_n）來修正連接權w_ij和閾值θ_j。

基坑降水工程的環境效應與評價方法

（10）隨機選取下一個學習樣本向量提供給網路，返回到步驟（3），直到m個訓練樣本訓練完畢。

（11）重新從m個學習樣本中隨機選取一組輸入和目標樣本，返回步驟（3），直到網路全局誤差E小於預先設定的一個極小值，即網路收斂。如果學習次數大於預先設定的值，網路就無法收斂。

（12）學習結束。

可以看出，在以上學習步驟中，（8）、（9）步為網路誤差的「逆傳播過程」，（10）、（11）步則用於完成訓練和收斂過程。

通常，經過訓練的網路還應該進行性能測試。測試的方法就是選擇測試樣本向量，將其提供給網路，檢驗網路對其分類的正確性。測試樣本向量中應該包含今後網路應用過程中可能遇到的主要典型模式（宋大奇，2006）。這些樣本可以直接測取得到，也可以通過模擬得到，在樣本數據較少或者較難得到時，也可以通過對學習樣本加上適當的雜訊或按照一定規則插值得到。為了更好地驗證網路的泛化能力，一個良好的測試樣本集中不應該包含和學習樣本完全相同的模式（董軍，2007）。

閱讀全文

熱點內容

伺服器如何配置介面域名發布：2025-03-13 07:52:41 瀏覽：316

oracle物理存儲結構發布：2025-03-13 07:43:00 瀏覽：821

大型ftp 發布：2025-03-13 07:41:20 瀏覽：20

c語言奇數發布：2025-03-13 07:36:58 瀏覽：219

手機游戲源碼交易平台發布：2025-03-13 07:25:46 瀏覽：634

為什麼現在沒有原生安卓系統了發布：2025-03-13 07:11:31 瀏覽：880

編程報名網發布：2025-03-13 06:54:11 瀏覽：975

androidstudio安裝apk 發布：2025-03-13 06:48:39 瀏覽：500

電腦伺服器怎麼打開連接網路發布：2025-03-13 06:42:12 瀏覽：631

阿里雲伺服器文檔發布：2025-03-13 06:39:51 瀏覽：778

bp神經網路演算法原理

與bp神經網路演算法原理相關的資訊