當前位置:首頁 » 編程語言 » python梯度下降

python梯度下降

發布時間: 2023-01-31 04:02:32

『壹』 一文搞懂梯度下降&反向傳播

如果把神經網路模型比作一個黑箱,把模型參數比作黑箱上面一個個小旋鈕,那麼根據通用近似理論(universal approximation theorem),只要黑箱上的旋鈕數量足夠多,而且每個旋鈕都被調節到合適的位置,那這個模型就可以實現近乎任意功能(可以逼近任意的數學模型)。

顯然,這些旋鈕(參數)不是由人工調節的,所謂的機器學習,就是通過程序來自動調節這些參數。神經網路不僅參數眾多(少則十幾萬,多則上億),而且網路是由線性層和非線性層交替疊加而成,上層參數的變化會對下層的輸出產生非線性的影響,因此,早期的神經網路流派一度無法往多層方向發展,因為他們找不到能用於任意多層網路的、簡潔的自動調節參數的方法。

直到上世紀80年代,祖師爺辛頓發明了反向傳播演算法,用輸出誤差的均方差(就是loss值)一層一層遞進地反饋到各層神經網路,用梯度下降法來調節每層網路的參數。至此,神經網路才得以開始它的深度之旅。

本文用python自己動手實現梯度下降和反向傳播演算法。 請點擊這里 到Github上查看源碼

梯度下降法是一種將輸出誤差反饋到神經網路並自動調節參數的方法,它通過計算輸出誤差的loss值( J )對參數 W 的導數,並沿著導數的反方向來調節 W ,經過多次這樣的操作,就能將輸出誤差減小到最小值,即曲線的最低點。

雖然Tensorflow、Pytorch這些框架都實現了自動求導的功能,但為了徹底理解參數調節的過程,還是有必要自己動手實現梯度下降和反向傳播演算法。我相信你和我一樣,已經忘了之前學的微積分知識,因此,到可汗學院復習下 Calculus
和 Multivariable Calculus 是個不錯的方法,或是拜讀 這篇關於神經網路矩陣微積分的文章 。

Figure2是求導的基本公式,其中最重要的是 Chain Rule ,它通過引入中間變數,將「 y x 求導」的過程轉換為「 y 對中間變數 u 求導,再乘以 u x 求導」,這樣就將一個復雜的函數鏈求導簡化為多個簡單函數求導。

如果你不想涉及這些求導的細節,可以跳過具體的計算,領會其思想就好。

對於神經網路模型: Linear -> ReLu -> Linear -> MSE(Loss function) 來說,反向傳播就是根據鏈式法則對 求導,用輸出誤差的均方差(MSE)對模型的輸出求導,並將導數傳回上一層神經網路,用於它們來對 w b x (上上層的輸出)求導,再將 x 的導數傳回到它的上一層神經網路,由此將輸出誤差的均方差通過遞進的方式反饋到各神經網路層。

對於 求導的第一步是為這個函數鏈引入中間變數:

接著第二步是對各中間變數求導,最後才是將這些導數乘起來。

首先,反向傳播的起點是對loss function求導,即 。 :

mse_grad()之所以用unsqueeze(-1)給導數增加一個維度,是為了讓導數的shape和tensor shape保持一致。

linear層的反向傳播是對 求導,它也是一個函數鏈,也要先對中間變數求導再將所有導數相乘:

這些中間變數的導數分別是:

對向量 求導,指的是對向量所有的標量求偏導( ),即: ,這個橫向量也稱為y的梯度。

這里 ,是一個向量,因此, 求導,指的是y的所有標量(y_1, y_2, ..., y_n)對向量x求偏導,即:

這個矩陣稱為雅克比矩陣,它是個對角矩陣,因為 ,因此 。

同理, 。

因此,所有中間導數相乘的結果:

lin_grad() 中的inp.g、w.g和b.g分別是求 的導數,以inp.g為例,它等於 ,且需要乘以前面各層的導數,即 outp.g @ w.t() ,之所以要用點積運算符(@)而不是標量相乘,是為了讓它的導數shape和tensor shape保持一致。同理,w.g和b.g也是根據相同邏輯來計算的。

ReLu層的求導相對來說就簡單多了,當輸入 <= 0時,導數為0,當輸入 > 0時,導數為1。

求導運算終於結束了,接下來就是驗證我們的反向傳播是否正確。驗證方法是將forward_backward()計算的導數和Pytorch自動微分得到的導數相比較,如果它們相近,就認為我們的反向傳播演算法是正確的。

首先,將計算好的參數導數保存到w1g、b1g、w2g和b2g中,再用Pytorch的自動微分來求w11、b11、w22和b22的導數。

最後,用np.allclose()來比較導數間的差異,如果有任何一個導數不相近,assert就會報錯。結果證明,我們自己動手實現的演算法是正確的。

反向傳播是遵循鏈式法則的,它將前向傳播的輸出作為輸入,輸入作為輸出,通過遞進的方式將求導這個動作從後向前傳遞回各層。神經網路參數的求導需要進行矩陣微積分計算,根據這些導數的反方向來調節參數,就可以讓模型的輸出誤差的優化到最小值。

歡迎關注和點贊,你的鼓勵將是我創作的動力

『貳』 梯度下降演算法的原理是什麼

梯度下降是非常常用的優化演算法。作為機器學習的基礎知識,這是一個必須要掌握的演算法。藉助本文,讓我們來一起詳細了解一下這個演算法。


前言

本文的代碼可以到我的Github上獲取:

https://github.com/paulQuei/gradient_descent

本文的演算法示例通過Python語言實現,在實現中使用到了numpy和matplotlib。如果你不熟悉這兩個工具,請自行在網上搜索教程。


關於優化

大多數學習演算法都涉及某種形式的優化。優化指的是改變x以最小化或者最大化某個函數的任務。

我們通常以最小化指代大多數最優化問題。最大化可經由最小化來實現。

我們把要最小化或最大化的函數成為目標函數(objective function)或准則(criterion)。

我們通常使用一個上標*表示最小化或最大化函數的x值,記做這樣:

[x^* = arg; min; f(x)]


優化本身是一個非常大的話題。如果有興趣,可以通過《數值優化》和《運籌學》的書籍進行學習。


模型與假設函數

所有的模型都是錯誤的,但其中有些是有用的。– George Edward Pelham Box


模型是我們對要分析的數據的一種假設,它是為解決某個具體問題從數據中學習到的,因此它是機器學習最核心的概念。

針對一個問題,通常有大量的模型可以選擇。

本文不會深入討論這方面的內容,關於各種模型請參閱機器學習的相關書籍。本文僅以最簡單的線性模型為基礎來討論梯度下降演算法。

這里我們先介紹一下在監督學習(supervised learning)中常見的三個符號:


  • m,描述訓練樣本的數量

  • x,描述輸入變數或特徵

  • y,描述輸出變數或者叫目標值

  • 請注意,一個樣本可能有很多的特徵,因此x和y通常是一個向量。不過在剛開始學習的時候,為了便於理解,你可以暫時理解為這就是一個具體的數值。
  • 訓練集會包含很多的樣本,我們用 表示其中第i個樣本。

    x是數據樣本的特徵,y是其目標值。例如,在預測房價的模型中,x是房子的各種信息,例如:面積,樓層,位置等等,y是房子的價格。在圖像識別的任務中,x是圖形的所有像素點數據,y是圖像中包含的目標對象。

    我們是希望尋找一個函數,將x映射到y,這個函數要足夠的好,以至於能夠預測對應的y。由於歷史原因,這個函數叫做假設函數(hypothesis function)。

    學習的過程如下圖所示。即:首先根據已有的數據(稱之為訓練集)訓練我們的演算法模型,然後根據模型的假設函數來進行新數據的預測。

    線性模型(linear model)正如其名稱那樣:是希望通過一個直線的形式來描述模式。線性模型的假設函數如下所示:

    [h_{ heta}(x) = heta_{0} + heta_{1} * x]

    這個公式對於大家來說應該都是非常簡單的。如果把它繪制出來,其實就是一條直線。

    下圖是一個具體的例子,即: 的圖形:

    在實際的機器學習工程中,你會擁有大量的數據。這些數據會來自於某個數據源。它們存儲在csv文件中,或者以其他的形式打包。

    但是本文作為演示使用,我們通過一些簡單的代碼自動生成了需要的數據。為了便於計算,演示的數據量也很小。

    import numpy as np

    max_x = 10
    data_size = 10
    theta_0 = 5
    theta_1 = 2

    def get_data:
    x = np.linspace(1, max_x, data_size)
    noise = np.random.normal(0, 0.2, len(x))
    y = theta_0 + theta_1 * x + noise
    return x, y

    這段代碼很簡單,我們生成了x范圍是 [1, 10] 整數的10條數據。對應的y是以線性模型的形式計算得到,其函數是:。現實中的數據常常受到各種因素的干擾,所以對於y我們故意加上了一些高斯雜訊。因此最終的y值為比原先會有輕微的偏離。

    最後我們的數據如下所示:

    x = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
    y = [6.66, 9.11, 11.08, 12.67, 15.12, 16.76, 18.75, 21.35, 22.77, 24.56]

    我們可以把這10條數據繪制出來這樣就有一個直觀的了解了,如下圖所示:

    雖然演示用的數據是我們通過公式計算得到的。但在實際的工程中,模型的參數是需要我們通過數據學習到的。所以下文我們假設我們不知道這里線性模式的兩個參數是什麼,而是通過演算法的形式求得。

    最後再跟已知的參數進行對比以驗證我們的演算法是否正確。

    有了上面的數據,我們可以嘗試畫一條直線來描述我們的模型。

    例如,像下面這樣畫一條水平的直線:

    很顯然,這條水平線離數據太遠了,非常的不匹配。

    那我們可以再畫一條斜線。

    我們初次畫的斜線可能也不貼切,它可能像下面這樣:

    最後我們通過不斷嘗試,找到了最終最合適的那條,如下所示:

    梯度下降演算法的計算過程,就和這種本能式的試探是類似的,它就是不停的迭代,一步步的接近最終的結果。


    代價函數

    上面我們嘗試了幾次通過一條直線來擬合(fitting)已有的數據。

    二維平面上的一條直線可以通過兩個參數唯一的確定,兩個參數的確定也即模型的確定。那如何描述模型與數據的擬合程度呢?答案就是代價函數。

    代價函數(cost function)描述了學習到的模型與實際結果的偏差程度。以上面的三幅圖為例,最後一幅圖中的紅線相比第一條水平的綠線,其偏離程度(代價)應該是更小的。

    很顯然,我們希望我們的假設函數與數據盡可能的貼近,也就是說:希望代價函數的結果盡可能的小。這就涉及到結果的優化,而梯度下降就是尋找最小值的方法之一。

  • 代價函數也叫損失函數。
  • 對於每一個樣本,假設函數會依據計算出一個估算值,我們常常用來表示。即 。

    很自然的,我們會想到,通過下面這個公式來描述我們的模型與實際值的偏差程度:

    [(h_ heta(x^i) - y^i)^2 = (widehat{y}^{i} - y^i)^2 = ( heta_{0} + heta_{1} * x^{i} - y^{i})^2]

    請注意, 是實際數據的值, 是我們的模型的估算值。前者對應了上圖中的離散點的y坐標,後者對應了離散點在直線上投影點的y坐標。

    每一條數據都會存在一個偏差值,而代價函數就是對所有樣本的偏差求平均值,其計算公式如下所示:

    [L( heta) = frac {1}{m} sum_{i=1}^{m}(h_ heta(x^i) - y^i)^2 = frac {1}{m} sum_{i=1}^{m}( heta_{0} + heta_{1} * x^{i} - y^{i})^2]

    當損失函數的結果越小,則意味著通過我們的假設函數估算出的結果與真實值越接近。這也就是為什麼我們要最小化損失函數的原因。

  • 不同的模型可能會用不同的損失函數。例如,logistic回歸的假設函數是這樣的:。其代價函數是這樣的:
  • 藉助上面這個公式,我們可以寫一個函數來實現代價函數:

    def cost_function(x, y, t0, t1):
    cost_sum = 0
    for i in range(len(x)):
    cost_item = np.power(t0 + t1 * x[i] - y[i], 2)
    cost_sum += cost_item
    return cost_sum / len(x)

    這個函數的代碼應該不用多做解釋,它就是根據上面的完成計算。

    我們可以嘗試選取不同的 和 組合來計算代價函數的值,然後將結果繪制出來:

    import numpy as np
    import matplotlib.pyplot as plt

    from matplotlib import cm
    from mpl_toolkits.mplot3d import Axes3D

    theta_0 = 5
    theta_1 = 2

    def draw_cost(x, y):
    fig = plt.figure(figsize=(10, 8))
    ax = fig.gca(projection='3d')
    scatter_count = 100
    radius = 1
    t0_range = np.linspace(theta_0 - radius, theta_0 + radius, scatter_count)
    t1_range = np.linspace(theta_1 - radius, theta_1 + radius, scatter_count)
    cost = np.zeros((len(t0_range), len(t1_range)))
    for a in range(len(t0_range)):
    for b in range(len(t1_range)):
    cost[a][b] = cost_function(x, y, t0_range[a], t1_range[b])
    t0, t1 = np.meshgrid(t0_range, t1_range)

    ax.set_xlabel('theta_0')
    ax.set_ylabel('theta_1')
    ax.plot_surface(t0, t1, cost, cmap=cm.hsv)

    在這段代碼中,我們對 和 各自指定了一個范圍進行100次的采樣,然後以不同的 組合對來計算代價函數的值。

    如果我們將所有點的代價函數值繪制出來,其結果如下圖所示:

    從這個圖形中我們可以看出,當 越接近 [5, 2]時其結果(偏差)越小。相反,離得越遠,結果越大。


    直觀解釋

    從上面這幅圖中我們可以看出,代價函數在不同的位置結果大小不同。

    從三維的角度來看,這就和地面的高低起伏一樣。最高的地方就好像是山頂。

    而我們的目標就是:從任意一點作為起點,能夠快速尋找到一條路徑並以此到達圖形最低點(代價值最小)的位置。

    而梯度下降的演算法過程就和我們從山頂想要快速下山的做法是一樣的。

    在生活中,我們很自然會想到沿著最陡峭的路往下行是下山速度最快的。如下面這幅圖所示:

    針對這幅圖,細心的讀者可能很快就會有很多的疑問,例如:

  • 對於一個函數,怎麼確定下行的方向?

  • 每一步該往前走多遠?

  • 有沒有可能停留在半山腰的平台上?

  • 這些問題也就是本文接下來要討論的內容。


    演算法描述

    梯度下降演算法最開始的一點就是需要確定下降的方向,即:梯度。

    我們常常用 來表示梯度。

    對於一個二維空間的曲線來說,梯度就是其切線的方向。如下圖所示:

    而對於更高維空間的函數來說,梯度由所有變數的偏導數決定。

    其表達式如下所示:

    [ abla f({ heta}) = ( frac{partial f({ heta})}{partial heta_1} , frac{partial f({ heta})}{partial heta_2} , ... , frac{partial f({ heta})}{partial heta_n} )]

    在機器學習中,我們主要是用梯度下降演算法來最小化代價函數,記做:

    [ heta ^* = arg min L( heta)]

    其中,L是代價函數,是參數。

    梯度下降演算法的主體邏輯很簡單,就是沿著梯度的方向一直下降,直到參數收斂為止。

    記做:

    [ heta ^{k + 1}_i = heta^{k}_i - lambda abla f( heta^{k})]

  • 這里的下標i表示第i個參數。 上標k指的是第k步的計算結果,而非k次方。在能夠理解的基礎上,下文的公式中將省略上標k。
  • 這里有幾點需要說明:

  • 收斂是指函數的變化率很小。具體選擇多少合適需要根據具體的項目來確定。在演示項目中我們可以選擇0.01或者0.001這樣的值。不同的值將影響演算法的迭代次數,因為在梯度下降的最後,我們會越來越接近平坦的地方,這個時候函數的變化率也越來越小。如果選擇一個很小的值,將可能導致演算法迭代次數暴增。

  • 公式中的 稱作步長,也稱作學習率(learning rate)。它決定了每一步往前走多遠,關於這個值我們會在下文中詳細講解。你可以暫時人為它是一個類似0.01或0.001的固定值。

  • 在具體的項目,我們不會讓演算法無休止的運行下去,所以通常會設置一個迭代次數的最大上限。


  • 線性回歸的梯度下降

    有了上面的知識,我們可以回到線性模型代價函數的梯度下降演算法實現了。

    首先,根據代價函數我們可以得到梯度向量如下:

    [ abla f({ heta}) = (frac{partial L( heta)}{ partial heta_{0}}, frac{ partial L( heta)}{ partial heta_{1}}) = (frac {2}{m} sum_{i=1}^{m}( heta_{0} + heta_{1} * x^{i} - y^{i}) , frac {2}{m} sum_{i=1}^{m}( heta_{0} + heta_{1} * x^{i} - y^{i}) x^{i})]

    接著,將每個偏導數帶入迭代的公式中,得到:

    [ heta_{0} := heta_{0} - lambda frac{partial L( heta_{0})}{ partial heta_{0}} = heta_{0} - frac {2 lambda }{m} sum_{i=1}^{m}( heta_{0} + heta_{1} * x^{i} - y^{i}) heta_{1} := heta_{1} - lambda frac{partial L( heta_{1})}{ partial heta_{1}} = heta_{1} - frac {2 lambda }{m} sum_{i=1}^{m}( heta_{0} + heta_{1} * x^{i} - y^{i}) x^{i}]

    由此就可以通過代碼實現我們的梯度下降演算法了,演算法邏輯並不復雜:

    learning_rate = 0.01

    def gradient_descent(x, y):
    t0 = 10
    t1 = 10
    delta = 0.001
    for times in range(1000):
    sum1 = 0
    sum2 = 0
    for i in range(len(x)):
    sum1 += (t0 + t1 * x[i] - y[i])
    sum2 += (t0 + t1 * x[i] - y[i]) * x[i]
    t0_ = t0 - 2 * learning_rate * sum1 / len(x)
    t1_ = t1 - 2 * learning_rate * sum2 / len(x)
    print('Times: {}, gradient: [{}, {}]'.format(times, t0_, t1_))
    if (abs(t0 - t0_) < delta and abs(t1 - t1_) < delta):
    print('Gradient descent finish')
    return t0_, t1_
    t0 = t0_
    t1 = t1_
    print('Gradient descent too many times')
    return t0, t1

    這段代碼說明如下:

  • 我們隨機選擇了 都為10作為起點

  • 設置最多迭代1000次

  • 收斂的范圍設為0.001

  • 學習步長設為0.01

  • 如果我們將演算法迭代過程中求得的線性模式繪制出來,可以得到下面這幅動態圖:

    最後演算法得到的結果如下:


    Times: 657, gradient: [5.196562662718697, 1.952931052920264]
    Times: 658, gradient: [5.195558390180733, 1.9530753071808193]
    Times: 659, gradient: [5.194558335124868, 1.9532189556399233]
    Times: 660, gradient: [5.193562479839619, 1.9533620008416623]
    Gradient descent finish

    從輸出中可以看出,演算法迭代了660次就收斂了。這時的結果[5.193562479839619, 1.9533620008416623],這已經比較接近目標值 [5, 2]了。如果需要更高的精度,可以將delta的值調的更小,當然,此時會需要更多的迭代次數。


    高維擴展

    雖然我們舉的例子是二維的,但是對於更高維的情況也是類似的。同樣是根據迭代的公式進行運算即可:

    [ heta_{i} = heta_{i} - lambda frac {partial L( heta)}{partial heta_i} = heta_{i} - frac{2lambda}{m} sum_{i=1}^{m}(h_ heta(x^{k})-y^k)x_i^k]

    這里的下標i表示第i個參數,上標k表示第k個數據。


    梯度下降家族BGD

    在上面的內容中我們看到,演算法的每一次迭代都需要把所有樣本進行遍歷處理。這種做法稱為之Batch Gradient Descent,簡稱BGD。作為演示示例只有10條數據,這是沒有問題的。

    但在實際的項目中,數據集的數量可能是幾百萬幾千萬條,這時候每一步迭代的計算量就會非常的大了。

    於是就有了下面兩個變種。


    SGD

    Stochastic Gradient Descent,簡稱SGD,這種演算法是每次從樣本集中僅僅選擇一個樣本來進行計算。很顯然,這樣做演算法在每一步的計算量一下就少了很多。

    其演算法公式如下:

    [ heta_{i} = heta_{i} - lambda frac {partial L( heta)}{partial heta_i} = heta_{i} - lambda(h_ heta(x^k)-y^k)x_i^k]

    當然,減少演算法計算量也是有代價的,那就是:演算法結果會強依賴於隨機取到的數據情況,這可能會導致演算法的最終結果不太令人滿意。


    MBGD

    以上兩種做法其實是兩個極端,一個是每次用到了所有數據,另一個是每次只用一個數據。

    我們自然就會想到兩者取其中的方法:每次選擇一小部分數據進行迭代。這樣既避免了數據集過大導致每次迭代計算量過大的問題,也避免了單個數據對演算法的影響。

    這種演算法稱之為Mini-batch Gradient Descent,簡稱MBGD。

    其演算法公式如下:

    [ heta_{i} = heta_{i} - lambda frac {partial L( heta)}{partial heta_i} = heta_{i} - frac{2lambda}{m} sum_{i=a}^{a + b}(h_ heta(x^k)-y^k)x_i^k]

    當然,我們可以認為SGD是Mini-batch為1的特例。

    針對上面提到的演算法變種,該如何選擇呢?

    下面是Andrew Ng給出的建議:

  • 如果樣本數量較小(例如小於等於2000),選擇BGD即可。

  • 如果樣本數量很大,選擇 來進行MBGD,例如:64,128,256,512。

  • 下表是 Optimization for Deep Learning 中對三種演算法的對比

    方法准確性更新速度內存佔用在線學習BGD好慢高否SGD好(with annealing)快低是MBGD好中等中等是
    演算法優化

    式7是演算法的基本形式,在這個基礎上有很多人進行了更多的研究。接下來我們介紹幾種梯度下降演算法的優化方法。


    Momentum

    Momentum是動量的意思。這個演算法的思想就是藉助了動力學的模型:每次演算法的迭代會使用到上一次的速度作為依據。

    演算法的公式如下:

    [v^t = gamma v^{t - 1} + lambda abla f( heta) heta = heta - v_t]

    對比式7可以看出,這個演算法的主要區別就是引入了,並且,每個時刻的受前一個時刻的影響。

    從形式上看,動量演算法引入了變數 v 充當速度角色——它代表參數在參數空間移動的方向和速率。速度被設為負梯度的指數衰減平均。名稱動量來自物理類比,根據牛頓運動定律,負梯度是移動參數空間中粒子的力。動量在物理學上定義為質量乘以速度。在動量學習演算法中,我們假設是單位質量,因此速度向量 v 也可以看作是粒子的動量。

    對於可以取值0,而是一個常量,設為0.9是一個比較好的選擇。

    下圖是momentum演算法的效果對比:

    對原來的演算法稍加修改就可以增加動量效果:

    def gradient_descent_with_momentum(x, y):
    t0 = 10
    t1 = 10
    delta = 0.001
    v0 = 0
    v1 = 0
    gamma = 0.9
    for times in range(1000):
    sum1 = 0
    sum2 = 0
    for i in range(len(x)):
    sum1 += (t0 + t1 * x[i] - y[i])
    sum2 += (t0 + t1 * x[i] - y[i]) * x[i]
    v0 = gamma * v0 + 2 * learning_rate * sum1 / len(x)
    v1 = gamma * v1 + 2 * learning_rate * sum2 / len(x)
    t0_ = t0 - v0
    t1_ = t1 - v1
    print('Times: {}, gradient: [{}, {}]'.format(times, t0_, t1_))
    if (abs(t0 - t0_) < delta and abs(t1 - t1_) < delta):
    print('Gradient descent finish')
    return t0_, t1_
    t0 = t0_
    t1 = t1_
    print('Gradient descent too many times')
    return t0, t1

    以下是該演算法的輸出:


    Times: 125, gradient: [4.955453758569991, 2.000005017897775]
    Times: 126, gradient: [4.955309381126545, 1.9956928964532015]
    Times: 127, gradient: [4.9542964317327005, 1.9855674828684156]
    Times: 128, gradient: [4.9536358220657, 1.9781180992510465]
    Times: 129, gradient: [4.95412496254411, 1.9788858350530971]
    Gradient descent finish

    從結果可以看出,改進的演算法只用了129次迭代就收斂了。速度比原來660次快了很多。

    同樣的,我們可以把演算法計算的過程做成動態圖:

    對比原始的演算法過程可以看出,改進演算法最大的區別是:在尋找目標值時會在最終結果上下跳動,但是越往後跳動的幅度越小,這也就是動量所產生的效果。


    Learning Rate 優化

    至此,你可能還是好奇該如何設定學習率的值。

    事實上,這個值的選取需要一定的經驗或者反復嘗試才能確定。

  • 《深度學習》一書中是這樣描述的:「與其說是科學,這更像是一門藝術,我們應該謹慎地參考關於這個問題的大部分指導。」。
  • 關鍵在於,這個值的選取不能過大也不能過小。

    如果這個值過小,會導致每一次迭代的步長很小,其結果就是演算法需要迭代非常多的次數。

    那麼,如果這個值過大會怎麼樣呢?其結果就是:演算法可能在結果的周圍來回震盪,卻落不到目標的點上。下面這幅圖描述了這個現象:

    事實上,學習率的取值未必一定要是一個常數,關於這個值的設定有很多的研究。

    下面是比較常見的一些改進演算法。


    AdaGrad

    AdaGrad是Adaptive Gradient的簡寫,該演算法會為每個參數設定不同的學習率。它使用歷史梯度的平方和作為基礎來進行計算。

    其演算法公式如下:

    [ heta_i = heta_i - frac{lambda}{sqrt{G_t + epsilon}} abla f( heta)]

    對比式7,這里的改動就在於分號下面的根號。

    根號中有兩個符號,第二個符號比較好理解,它就是為了避免除0而人為引入的一個很小的常數,例如可以設為:0.001。

    第一個符號的表達式展開如下:

    [G_t = sum_{i = 1}^{t} abla f( heta){i} abla f( heta){i}^{T}]

    這個值其實是歷史中每次梯度的平方的累加和。

    AdaGrad演算法能夠在訓練中自動的對learning rate進行調整,對於出現頻率較低參數採用較大的學習率;相反,對於出現頻率較高的參數採用較小的學習率。因此,Adagrad非常適合處理稀疏數據。

    但該演算法的缺點是它可能導致學習率非常小以至於演算法收斂非常的慢。

    關於這個演算法的直觀解釋可以看李宏毅教授的視頻課程:ML Lecture 3-1: Gradient Descent。


    RMSProp

    RMS是Root Mean Square的簡寫。RMSProp是AI教父Geoff Hinton提出的一種自適應學習率方法。AdaGrad會累加之前所有的梯度平方,而RMSProp僅僅是計算對應的平均值,因此可緩解Adagrad演算法學習率下降較快的問題。

    該演算法的公式如下:

    [E[ abla f( heta_{i})^2]^{t} = gamma E[ abla f( heta_{i})^2]^{t - 1} + (1-gamma)( abla f( heta_{i})^{t})^{2} heta_i = heta_i - frac{lambda}{sqrt{E[g^2]^{t+1} + epsilon}} abla f( heta_{i})]

    類似的,是為了避免除0而引入。 是衰退參數,通常設為0.9。

    這里的 是t時刻梯度平方的平均值。


    Adam

    Adam是Adaptive Moment Estimation的簡寫。它利用梯度的一階矩估計和二階矩估計動態調整每個參數的學習率。

    Adam的優點主要在於經過偏置校正後,每一次迭代學習率都有個確定范圍,使得參數比較平穩。

    該演算法公式如下:

    [m^{t} = eta_{1} m^{t-1} + (1-eta_{1}) abla f( heta) v^{t} = eta_{2} v^{t-1} + (1-eta_{2}) abla f( heta)^2 widehat{m}^{t} = frac{m^{t}}{1 - eta^{t}_1} widehat{v}^{t} = frac{v^{t}}{1 - eta^{t}_2} heta = heta - frac{lambda}{sqrt{widehat{v}^{t}} + epsilon}widehat{m}^{t}]

    ,分別是對梯度的一階矩估計和二階矩估計。, 是對,的校正,這樣可以近似為對期望的無偏估計。

    Adam演算法的提出者建議 默認值為0.9,默認值為0.999,默認值為 。

    在實際應用中 ,Adam較為常用,它可以比較快地得到一個預估結果。


    優化小結

    這里我們列舉了幾種優化演算法。它們很難說哪種最好,不同的演算法適合於不同的場景。在實際的工程中,可能需要逐個嘗試一下才能確定選擇哪一個,這個過程也是目前現階段AI項目要經歷的工序之一。

    實際上,該方面的研究遠不止於此,如果有興趣,可以繼續閱讀 《Sebastian Ruder: An overview of gradient descent optimization algorithms》 這篇論文或者 Optimization for Deep Learning 這個Slides進行更多的研究。

    由於篇幅所限,這里不再繼續展開了。


    演算法限制

    梯度下降演算法存在一定的限制。首先,它要求函數必須是可微分的,對於不可微的函數,無法使用這種方法。

    除此之外,在某些情況下,使用梯度下降演算法在接近極值點的時候可能收斂速度很慢,或者產生Z字形的震盪。這一點需要通過調整學習率來迴避。

    另外,梯度下降還會遇到下面兩類問題。


    局部最小值

    局部最小值(Local Minima)指的是,我們找到的最小值僅僅是一個區域內的最小值,而並非全局的。由於演算法的起點是隨意取的,以下面這個圖形為例,我們很容易落到局部最小值的點裡面。

    這就是好像你從上頂往下走,你第一次走到的平台未必是山腳,它有可能只是半山腰的一個平台的而已。

    演算法的起點決定了演算法收斂的速度以及是否會落到局部最小值上。

    壞消息是,目前似乎沒有特別好的方法來確定選取那個點作為起點是比較好的,這就有一點看運氣的成分了。多次嘗試不同的隨機點或許是一個比較好的方法,這也就是為什麼做演算法的優化這項工作是特別消耗時間的了。

    但好消息是:

  • 對於凸函數或者凹函數來說,不存在局部極值的問題。其局部極值一定是全局極值。

  • 最近的一些研究表明,某些局部極值並沒有想像中的那麼糟糕,它們已經非常的接近全局極值所帶來的結果了。


  • 鞍點

    除了Local Minima,在梯度下降的過程中,還有可能遇到另外一種情況,即:鞍點(Saddle Point)。鞍點指的是我們找到點某個點確實是梯度為0,但它卻不是函數的極值,它的周圍既有比它小的值,也有比它大的值。這就好像馬鞍一樣。

    如下圖所示:

    多類隨機函數表現出以下性質:在低維空間中,局部極值很普遍。但在高維空間中,局部極值比較少見,而鞍點則很常見。

    不過對於鞍點,可以通過數學方法Hessian矩陣來確定。關於這點,這里就不再展開了,有興趣的讀者可以以這里提供的幾個鏈接繼續探索。


    參考資料與推薦讀物

  • Wikipeida: Gradient descent

  • Sebastian Ruder: An overview of gradient descent optimization algorithms

  • 吳恩達:機器學習

  • 吳恩達:深度學習

  • Peter Flach:機器學習

  • 李宏毅 - ML Lecture 3-1: Gradient Descent

  • PDF: 李宏毅 - Gradient Descent

  • Intro to optimization in deep learning: Gradient Descent

  • Intro to optimization in deep learning: Momentum, RMSProp and Adam

  • Stochastic Gradient Descent – Mini-batch and more

  • 劉建平Pinard - 梯度下降(Gradient Descent)小結

  • 多元函數的偏導數、方向導數、梯度以及微分之間的關系思考

  • [Machine Learning] 梯度下降法的三種形式BGD、SGD以及MBGD

  • 作者:阿Paul https://paul.pub/gradient-descent/

『叄』 python邏輯回歸怎麼求正系數

Python 邏輯回歸求正系數的方法可以分為兩種:

1. 使用線性模型的求解方法:可以使用sklearn中的LogisticRegression類來求解正系數,調用其中的fit()方法就可以求解出正系數。

2. 使用梯度下降法:可以自己實現梯度下降法,通過不斷迭代更新正系數,最終獲得最優的正系數。

『肆』 python gradientboostingregressor可以做預測嗎

可以

最近項目中涉及基於Gradient Boosting Regression 演算法擬合時間序列曲線的內容,利用python機器學習包scikit-learn 中的GradientBoostingRegressor完成

因此就學習了下Gradient Boosting演算法,在這里分享下我的理解

Boosting 演算法簡介

Boosting演算法,我理解的就是兩個思想:

1)「三個臭皮匠頂個諸葛亮」,一堆弱分類器的組合就可以成為一個強分類器;

2)「知錯能改,善莫大焉」,不斷地在錯誤中學習,迭代來降低犯錯概率

當然,要理解好Boosting的思想,首先還是從弱學習演算法和強學習演算法來引入:

1)強學習演算法:存在一個多項式時間的學習演算法以識別一組概念,且識別的正確率很高;

2)弱學習演算法:識別一組概念的正確率僅比隨機猜測略好;

Kearns & Valiant證明了弱學習演算法與強學習演算法的等價問題,如果兩者等價,只需找到一個比隨機猜測略好的學習演算法,就可以將其提升為強學習演算法。

那麼是怎麼實現「知錯就改」的呢?

Boosting演算法,通過一系列的迭代來優化分類結果,每迭代一次引入一個弱分類器,來克服現在已經存在的弱分類器組合的shortcomings

在Adaboost演算法中,這個shortcomings的表徵就是權值高的樣本點

而在Gradient Boosting演算法中,這個shortcomings的表徵就是梯度

無論是Adaboost還是Gradient Boosting,都是通過這個shortcomings來告訴學習器怎麼去提升模型,也就是「Boosting」這個名字的由來吧

Adaboost演算法

Adaboost是由Freund 和 Schapire在1997年提出的,在整個訓練集上維護一個分布權值向量W,用賦予權重的訓練集通過弱分類演算法產生分類假設(基學習器)y(x),然後計算錯誤率,用得到的錯誤率去更新分布權值向量w,對錯誤分類的樣本分配更大的權值,正確分類的樣本賦予更小的權值。每次更新後用相同的弱分類演算法產生新的分類假設,這些分類假設的序列構成多分類器。對這些多分類器用加權的方法進行聯合,最後得到決策結果。

其結構如下圖所示:

可以發現,如果要用Gradient Boosting 演算法的話,在sklearn包里調用還是非常方便的,幾行代碼即可完成,大部分的工作應該是在特徵提取上。

感覺目前做數據挖掘的工作,特徵設計是最重要的,據說現在kaggle競賽基本是GBDT的天下,優劣其實還是特徵上,感覺做項目也是,不斷的在研究數據中培養對數據的敏感度。

『伍』 如何通過Python進行深度學習

作者 | Vihar Kurama

編譯 | 荷葉

來源 | 雲棲社區

摘要:深度學習背後的主要原因是人工智慧應該從人腦中汲取靈感。本文就用一個小例子無死角的介紹一下深度學習!

人腦模擬

深度學習背後的主要原因是人工智慧應該從人腦中汲取靈感。此觀點引出了「神經網路」這一術語。人腦中包含數十億個神經元,它們之間有數萬個連接。很多情況下,深度學習演算法和人腦相似,因為人腦和深度學習模型都擁有大量的編譯單元(神經元),這些編譯單元(神經元)在獨立的情況下都不太智能,但是當他們相互作用時就會變得智能。

我認為人們需要了解到深度學習正在使得很多幕後的事物變得更好。深度學習已經應用於谷歌搜索和圖像搜索,你可以通過它搜索像「擁抱」這樣的詞語以獲得相應的圖像。-傑弗里·辛頓

神經元

神經網路的基本構建模塊是人工神經元,它模仿了人類大腦的神經元。這些神經元是簡單、強大的計算單元,擁有加權輸入信號並且使用激活函數產生輸出信號。這些神經元分布在神經網路的幾個層中。

inputs 輸入 outputs 輸出 weights 權值 activation 激活

人工神經網路的工作原理是什麼?

深度學習由人工神經網路構成,該網路模擬了人腦中類似的網路。當數據穿過這個人工網路時,每一層都會處理這個數據的一方面,過濾掉異常值,辨認出熟悉的實體,並產生最終輸出。

輸入層:該層由神經元組成,這些神經元只接收輸入信息並將它傳遞到其他層。輸入層的圖層數應等於數據集里的屬性或要素的數量。輸出層:輸出層具有預測性,其主要取決於你所構建的模型類型。隱含層:隱含層處於輸入層和輸出層之間,以模型類型為基礎。隱含層包含大量的神經元。處於隱含層的神經元會先轉化輸入信息,再將它們傳遞出去。隨著網路受訓練,權重得到更新,從而使其更具前瞻性。

神經元的權重

權重是指兩個神經元之間的連接的強度或幅度。你如果熟悉線性回歸的話,可以將輸入的權重類比為我們在回歸方程中用的系數。權重通常被初始化為小的隨機數值,比如數值0-1。

前饋深度網路

前饋監督神經網路曾是第一個也是最成功的學習演算法。該網路也可被稱為深度網路、多層感知機(MLP)或簡單神經網路,並且闡明了具有單一隱含層的原始架構。每個神經元通過某個權重和另一個神經元相關聯。

該網路處理向前處理輸入信息,激活神經元,最終產生輸出值。在此網路中,這稱為前向傳遞。

inputlayer 輸入層 hidden layer 輸出層 output layer 輸出層

激活函數

激活函數就是求和加權的輸入到神經元的輸出的映射。之所以稱之為激活函數或傳遞函數是因為它控制著激活神經元的初始值和輸出信號的強度。

用數學表示為:

我們有許多激活函數,其中使用最多的是整流線性單元函數、雙曲正切函數和solfPlus函數。

激活函數的速查表如下:

反向傳播

在網路中,我們將預測值與預期輸出值相比較,並使用函數計算其誤差。然後,這個誤差會傳回這個網路,每次傳回一個層,權重也會根絕其導致的誤差值進行更新。這個聰明的數學法是反向傳播演算法。這個步驟會在訓練數據的所有樣本中反復進行,整個訓練數據集的網路更新一輪稱為一個時期。一個網路可受訓練數十、數百或數千個時期。

prediction error 預測誤差

代價函數和梯度下降

代價函數度量了神經網路對給定的訓練輸入和預期輸出「有多好」。該函數可能取決於權重、偏差等屬性。

代價函數是單值的,並不是一個向量,因為它從整體上評估神經網路的性能。在運用梯度下降最優演算法時,權重在每個時期後都會得到增量式地更新。

兼容代價函數

用數學表述為差值平方和:

target 目標值 output 輸出值

權重更新的大小和方向是由在代價梯度的反向上採取步驟計算出的。

其中η 是學習率

其中Δw是包含每個權重系數w的權重更新的向量,其計算方式如下:

target 目標值 output 輸出值

圖表中會考慮到單系數的代價函數

initial weight 初始權重 gradient 梯度 global cost minimum 代價極小值

在導數達到最小誤差值之前,我們會一直計算梯度下降,並且每個步驟都會取決於斜率(梯度)的陡度。

多層感知器(前向傳播)

這類網路由多層神經元組成,通常這些神經元以前饋方式(向前傳播)相互連接。一層中的每個神經元可以直接連接後續層的神經元。在許多應用中,這些網路的單元會採用S型函數或整流線性單元(整流線性激活)函數作為激活函數。

現在想想看要找出處理次數這個問題,給定的賬戶和家庭成員作為輸入

要解決這個問題,首先,我們需要先創建一個前向傳播神經網路。我們的輸入層將是家庭成員和賬戶的數量,隱含層數為1, 輸出層將是處理次數。

將圖中輸入層到輸出層的給定權重作為輸入:家庭成員數為2、賬戶數為3。

現在將通過以下步驟使用前向傳播來計算隱含層(i,j)和輸出層(k)的值。

步驟:

1, 乘法-添加方法。

2, 點積(輸入*權重)。

3,一次一個數據點的前向傳播。

4, 輸出是該數據點的預測。

i的值將從相連接的神經元所對應的輸入值和權重中計算出來。

i = (2 * 1) + (3* 1) → i = 5

同樣地,j = (2 * -1) + (3 * 1) → j =1

K = (5 * 2) + (1* -1) → k = 9

Python中的多層感知器問題的解決

激活函數的使用

為了使神經網路達到其最大預測能力,我們需要在隱含層應用一個激活函數,以捕捉非線性。我們通過將值代入方程式的方式來在輸入層和輸出層應用激活函數。

這里我們使用整流線性激活(ReLU):

用Keras開發第一個神經網路

關於Keras:

Keras是一個高級神經網路的應用程序編程介面,由Python編寫,能夠搭建在TensorFlow,CNTK,或Theano上。

使用PIP在設備上安裝Keras,並且運行下列指令。

在keras執行深度學習程序的步驟

1,載入數據;

2,創建模型;

3,編譯模型;

4,擬合模型;

5,評估模型。

開發Keras模型

全連接層用Dense表示。我們可以指定層中神經元的數量作為第一參數,指定初始化方法為第二參數,即初始化參數,並且用激活參數確定激活函數。既然模型已經創建,我們就可以編譯它。我們在底層庫(也稱為後端)用高效數字型檔編譯模型,底層庫可以用Theano或TensorFlow。目前為止,我們已經完成了創建模型和編譯模型,為進行有效計算做好了准備。現在可以在PIMA數據上運行模型了。我們可以在模型上調用擬合函數f(),以在數據上訓練或擬合模型。

我們先從KERAS中的程序開始,

神經網路一直訓練到150個時期,並返回精確值。

『陸』 Python實現簡單多線程任務隊列

Python實現簡單多線程任務隊列
最近我在用梯度下降演算法繪制神經網路的數據時,遇到了一些演算法性能的問題。梯度下降演算法的代碼如下(偽代碼):
defgradient_descent(): # the gradient descent code plotly.write(X, Y)
一般來說,當網路請求 plot.ly 繪圖時會阻塞等待返回,於是也會影響到其他的梯度下降函數的執行速度。
一種解決辦法是每調用一次 plotly.write 函數就開啟一個新的線程,但是這種方法感覺不是很好。 我不想用一個像 cerely(一種分布式任務隊列)一樣大而全的任務隊列框架,因為框架對於我的這點需求來說太重了,並且我的繪圖也並不需要 redis 來持久化數據。
那用什麼辦法解決呢?我在 python 中寫了一個很小的任務隊列,它可以在一個單獨的線程中調用 plotly.write函數。下面是程序代碼。
classTaskQueue(Queue.Queue):
首先我們繼承 Queue.Queue 類。從 Queue.Queue 類可以繼承 get 和 put 方法,以及隊列的行為。
def__init__(self, num_workers=1): Queue.Queue.__init__(self) self.num_workers=num_workers self.start_workers()
初始化的時候,我們可以不用考慮工作線程的數量。
defadd_task(self, task,*args,**kwargs): args=argsor() kwargs=kwargsor{} self.put((task, args, kwargs))
我們把 task, args, kwargs 以元組的形式存儲在隊列中。*args 可以傳遞數量不等的參數,**kwargs 可以傳遞命名參數。
defstart_workers(self): foriinrange(self.num_workers): t=Thread(target=self.worker) t.daemon=True t.start()
我們為每個 worker 創建一個線程,然後在後台刪除。
下面是 worker 函數的代碼:
defworker(self): whileTrue: tupl=self.get() item, args, kwargs=self.get() item(*args,**kwargs) self.task_done()
worker 函數獲取隊列頂端的任務,並根據輸入參數運行,除此之外,沒有其他的功能。下面是隊列的代碼:
我們可以通過下面的代碼測試:
defblokkah(*args,**kwargs): time.sleep(5) print「Blokkah mofo!」 q=TaskQueue(num_workers=5) foriteminrange(1): q.add_task(blokkah) q.join()# wait for all the tasks to finish. print「Alldone!」
Blokkah 是我們要做的任務名稱。隊列已經緩存在內存中,並且沒有執行很多任務。下面的步驟是把主隊列當做單獨的進程來運行,這樣主程序退出以及執行資料庫持久化時,隊列任務不會停止運行。但是這個例子很好地展示了如何從一個很簡單的小任務寫成像工作隊列這樣復雜的程序。
defgradient_descent(): # the gradient descent code queue.add_task(plotly.write, x=X, y=Y)
修改之後,我的梯度下降演算法工作效率似乎更高了。如果你很感興趣的話,可以參考下面的代碼。 classTaskQueue(Queue.Queue): def__init__(self, num_workers=1):Queue.Queue.__init__(self)self.num_workers=num_workersself.start_workers() defadd_task(self, task,*args,**kwargs):args=argsor()kwargs=kwargsor{}self.put((task, args, kwargs)) defstart_workers(self):foriinrange(self.num_workers):t=Thread(target=self.worker)t.daemon=Truet.start() defworker(self):whileTrue:tupl=self.get()item, args, kwargs=self.get()item(*args,**kwargs)self.task_done() deftests():defblokkah(*args,**kwargs):time.sleep(5)print"Blokkah mofo!" q=TaskQueue(num_workers=5) foriteminrange(10):q.add_task(blokkah) q.join()# block until all tasks are doneprint"All done!" if__name__=="__main__":tests()

『柒』 從零開始用Python構建神經網路

從零開始用Python構建神經網路
動機:為了更加深入的理解深度學習,我們將使用 python 語言從頭搭建一個神經網路,而不是使用像 Tensorflow 那樣的封裝好的框架。我認為理解神經網路的內部工作原理,對數據科學家來說至關重要。
這篇文章的內容是我的所學,希望也能對你有所幫助。
神經網路是什麼?
介紹神經網路的文章大多數都會將它和大腦進行類比。如果你沒有深入研究過大腦與神經網路的類比,那麼將神經網路解釋為一種將給定輸入映射為期望輸出的數學關系會更容易理解。
神經網路包括以下組成部分
? 一個輸入層,x
? 任意數量的隱藏層
? 一個輸出層,?
? 每層之間有一組權值和偏置,W and b
? 為隱藏層選擇一種激活函數,σ。在教程中我們使用 Sigmoid 激活函數
下圖展示了 2 層神經網路的結構(注意:我們在計算網路層數時通常排除輸入層)

2 層神經網路的結構
用 Python 可以很容易的構建神經網路類

訓練神經網路
這個網路的輸出 ? 為:

你可能會注意到,在上面的等式中,輸出 ? 是 W 和 b 函數。
因此 W 和 b 的值影響預測的准確率. 所以根據輸入數據對 W 和 b 調優的過程就被成為訓練神經網路。
每步訓練迭代包含以下兩個部分:
? 計算預測結果 ?,這一步稱為前向傳播
? 更新 W 和 b,,這一步成為反向傳播
下面的順序圖展示了這個過程:

前向傳播
正如我們在上圖中看到的,前向傳播只是簡單的計算。對於一個基本的 2 層網路來說,它的輸出是這樣的:

我們在 NeuralNetwork 類中增加一個計算前向傳播的函數。為了簡單起見我們假設偏置 b 為0:

但是我們還需要一個方法來評估預測結果的好壞(即預測值和真實值的誤差)。這就要用到損失函數。
損失函數
常用的損失函數有很多種,根據模型的需求來選擇。在本教程中,我們使用誤差平方和作為損失函數。
誤差平方和是求每個預測值和真實值之間的誤差再求和,這個誤差是他們的差值求平方以便我們觀察誤差的絕對值。
訓練的目標是找到一組 W 和 b,使得損失函數最好小,也即預測值和真實值之間的距離最小。
反向傳播
我們已經度量出了預測的誤差(損失),現在需要找到一種方法來傳播誤差,並以此更新權值和偏置。
為了知道如何適當的調整權值和偏置,我們需要知道損失函數對權值 W 和偏置 b 的導數。
回想微積分中的概念,函數的導數就是函數的斜率。

梯度下降法
如果我們已經求出了導數,我們就可以通過增加或減少導數值來更新權值 W 和偏置 b(參考上圖)。這種方式被稱為梯度下降法。
但是我們不能直接計算損失函數對權值和偏置的導數,因為在損失函數的等式中並沒有顯式的包含他們。因此,我們需要運用鏈式求導發在來幫助計算導數。

鏈式法則用於計算損失函數對 W 和 b 的導數。注意,為了簡單起見。我們只展示了假設網路只有 1 層的偏導數。
這雖然很簡陋,但是我們依然能得到想要的結果—損失函數對權值 W 的導數(斜率),因此我們可以相應的調整權值。
現在我們將反向傳播演算法的函數添加到 Python 代碼中

為了更深入的理解微積分原理和反向傳播中的鏈式求導法則,我強烈推薦 3Blue1Brown 的如下教程:
Youtube:https://youtu.be/tIeHLnjs5U8
整合並完成一個實例
既然我們已經有了包括前向傳播和反向傳播的完整 Python 代碼,那麼就將其應用到一個例子上看看它是如何工作的吧。

神經網路可以通過學習得到函數的權重。而我們僅靠觀察是不太可能得到函數的權重的。
讓我們訓練神經網路進行 1500 次迭代,看看會發生什麼。 注意觀察下面每次迭代的損失函數,我們可以清楚地看到損失函數單調遞減到最小值。這與我們之前介紹的梯度下降法一致。

讓我們看看經過 1500 次迭代後的神經網路的最終預測結果:

經過 1500 次迭代訓練後的預測結果
我們成功了!我們應用前向和方向傳播演算法成功的訓練了神經網路並且預測結果收斂於真實值。
注意預測值和真實值之間存在細微的誤差是允許的。這樣可以防止模型過擬合並且使得神經網路對於未知數據有著更強的泛化能力。
下一步是什麼?
幸運的是我們的學習之旅還沒有結束,仍然有很多關於神經網路和深度學習的內容需要學習。例如:
? 除了 Sigmoid 以外,還可以用哪些激活函數
? 在訓練網路的時候應用學習率
? 在面對圖像分類任務的時候使用卷積神經網路
我很快會寫更多關於這個主題的內容,敬請期待!
最後的想法
我自己也從零開始寫了很多神經網路的代碼
雖然可以使用諸如 Tensorflow 和 Keras 這樣的深度學習框架方便的搭建深層網路而不需要完全理解其內部工作原理。但是我覺得對於有追求的數據科學家來說,理解內部原理是非常有益的。
這種練習對我自己來說已成成為重要的時間投入,希望也能對你有所幫助

『捌』 python怎麼實現人工智慧

程序學習的過程就是使用梯度下降改變演算法模型參數的過程。

比如說f(x) = aX+b; 這裡面的參數是a和b,使用數據訓練演算法模型來改變參數,達到演算法模型可以實現人臉識別、語音識別的目的。

實現人工智慧的根本是演算法,python是實現演算法的一種語言,因為python語言的易用性和數據處理的友好性,所以現在很多用python語言做機器學習。其它語言比如java、c++等也也可以實現人工智慧相關演算法。下圖是一個神經網路的示意圖。

『玖』 怎麼看python中邏輯回歸輸出的解釋

以下為python代碼,由於訓練數據比較少,這邊使用了批處理梯度下降法,沒有使用增量梯度下降法。

##author:lijiayan##data:2016/10/27
##name:logReg.pyfrom numpy import *import matplotlib.pyplot as pltdef loadData(filename):
data = loadtxt(filename)
m,n = data.shape print 'the number of examples:',m print 'the number of features:',n-1 x = data[:,0:n-1]
y = data[:,n-1:n] return x,y#the sigmoid functiondef sigmoid(z): return 1.0 / (1 + exp(-z))#the cost functiondef costfunction(y,h):
y = array(y)
h = array(h)
J = sum(y*log(h))+sum((1-y)*log(1-h)) return J# the batch gradient descent algrithmdef gradescent(x,y):
m,n = shape(x) #m: number of training example; n: number of features x = c_[ones(m),x] #add x0 x = mat(x) # to matrix y = mat(y)
a = 0.0000025 # learning rate maxcycle = 4000 theta = zeros((n+1,1)) #initial theta J = [] for i in range(maxcycle):
h = sigmoid(x*theta)
theta = theta + a * (x.T)*(y-h)
cost = costfunction(y,h)
J.append(cost)

plt.plot(J)
plt.show() return theta,cost#the stochastic gradient descent (m should be large,if you want the result is good)def stocGraddescent(x,y):
m,n = shape(x) #m: number of training example; n: number of features x = c_[ones(m),x] #add x0 x = mat(x) # to matrix y = mat(y)
a = 0.01 # learning rate theta = ones((n+1,1)) #initial theta J = [] for i in range(m):
h = sigmoid(x[i]*theta)
theta = theta + a * x[i].transpose()*(y[i]-h)
cost = costfunction(y,h)
J.append(cost)
plt.plot(J)
plt.show() return theta,cost#plot the decision boundarydef plotbestfit(x,y,theta):
plt.plot(x[:,0:1][where(y==1)],x[:,1:2][where(y==1)],'ro')
plt.plot(x[:,0:1][where(y!=1)],x[:,1:2][where(y!=1)],'bx')
x1= arange(-4,4,0.1)
x2 =(-float(theta[0])-float(theta[1])*x1) /float(theta[2])

plt.plot(x1,x2)
plt.xlabel('x1')
plt.ylabel(('x2'))
plt.show()def classifyVector(inX,theta):
prob = sigmoid((inX*theta).sum(1)) return where(prob >= 0.5, 1, 0)def accuracy(x, y, theta):
m = shape(y)[0]
x = c_[ones(m),x]
y_p = classifyVector(x,theta)
accuracy = sum(y_p==y)/float(m) return accuracy

調用上面代碼:

from logReg import *
x,y = loadData("horseColicTraining.txt")
theta,cost = gradescent(x,y)print 'J:',cost

ac_train = accuracy(x, y, theta)print 'accuracy of the training examples:', ac_train

x_test,y_test = loadData('horseColicTest.txt')
ac_test = accuracy(x_test, y_test, theta)print 'accuracy of the test examples:', ac_test

學習速率=0.0000025,迭代次數=4000時的結果:

似然函數走勢(J = sum(y*log(h))+sum((1-y)*log(1-h))),似然函數是求最大值,一般是要穩定了才算最好。

從上面這個例子,我們可以看到對特徵進行歸一化操作的重要性。

熱點內容
如何給word文件加密碼 發布:2024-11-02 06:21:10 瀏覽:717
台達模擬量編程 發布:2024-11-02 06:19:41 瀏覽:410
23456解壓 發布:2024-11-02 06:19:40 瀏覽:183
我的世界伺服器個人創造在哪裡 發布:2024-11-02 06:10:36 瀏覽:638
增霸卡的密碼是多少 發布:2024-11-02 06:06:18 瀏覽:813
傳奇天下第一完整腳本 發布:2024-11-02 06:04:03 瀏覽:586
javago性能 發布:2024-11-02 05:51:47 瀏覽:862
國內ip代理伺服器設置方式 發布:2024-11-02 05:42:42 瀏覽:842
線刷包文件夾 發布:2024-11-02 05:35:35 瀏覽:626
銀行家演算法的安全性演算法 發布:2024-11-02 05:20:15 瀏覽:598