次梯度演算法

發布時間: 2022-05-14 05:38:46

A. 梯度的計算公式是什麼

梯度的計算公式：gra=aₓ（∂u/∂x）+aᵧ（∂u/∂y）+az（∂u/∂z）

梯度的本意是一個向量（矢量），表示某一函數在該點處的方向導數沿著該方向取得最大值，即函數在該點處沿著該方向（此梯度的方向）變化最快，變化率最大（為該梯度的模）。

(1)次梯度演算法擴展閱讀：

在向量微積分中，標量場的梯度是一個向量場。標量場中某一點上的梯度指向標量場增長最快的方向，梯度的長度是這個最大的變化率。更嚴格的說，從歐幾里得空間Rn到R的函數的梯度是在Rn某一點最佳的線性近似。在這個意義上，梯度是雅可比矩陣的特殊情況。

在單變數的實值函數的情況，梯度只是導數，或者，對於一個線性函數，也就是線的斜率。

B. matlab怎麼寫bregman演算法

它是對泛函J在u點的subgradient的定義，p點是其對偶空間的中的某一點。subgradient可以翻譯為次梯度，子梯度，弱梯度等。等式左邊最右邊一項是內積運算。
如果泛函J是簡單的一元函數，則就是兩個實數相乘。次梯度有什麼好處呢？對於一般的導數定義，例如y=|x|在0點是不可導的，但是對於次梯度，它是存在的。

C. 深度機器學習中的batch的大小對學習效果有何影響

來源：知乎
程引

愛折騰

談談深度學習中的 Batch_Size
Batch_Size（批尺寸）是機器學習中一個重要參數，涉及諸多矛盾，下面逐一展開。
首先，為什麼需要有 Batch_Size 這個參數？
Batch 的選擇，首先決定的是下降的方向。如果數據集比較小，完全可以採用全數據集（ Full Batch Learning ）的形式，這樣做至少有 2 個好處：其一，由全數據集確定的方向能夠更好地代表樣本總體，從而更准確地朝向極值所在的方向。其二，由於不同權重的梯度值差別巨大，因此選取一個全局的學習率很困難。 Full Batch Learning 可以使用Rprop 只基於梯度符號並且針對性單獨更新各權值。
對於更大的數據集，以上 2 個好處又變成了 2 個壞處：其一，隨著數據集的海量增長和內存限制，一次性載入所有的數據進來變得越來越不可行。其二，以 Rprop 的方式迭代，會由於各個 Batch 之間的采樣差異性，各次梯度修正值相互抵消，無法修正。這才有了後來 RMSProp 的妥協方案。
既然 Full Batch Learning 並不適用大數據集，那麼走向另一個極端怎麼樣？
所謂另一個極端，就是每次只訓練一個樣本，即 Batch_Size = 1。這就是在線學習（Online Learning）。線性神經元在均方誤差代價函數的錯誤面是一個拋物面，橫截面是橢圓。對於多層神經元、非線性網路，在局部依然近似是拋物面。使用在線學習，每次修正方向以各自樣本的梯度方向修正，橫沖直撞各自為政，難以達到收斂。

可不可以選擇一個適中的 Batch_Size 值呢？
當然可以，這就是批梯度下降法（Mini-batches Learning）。因為如果數據集足夠充分，那麼用一半（甚至少得多）的數據訓練算出來的梯度與用全部數據訓練出來的梯度是幾乎一樣的。
在合理范圍內，增大 Batch_Size 有何好處？

內存利用率提高了，大矩陣乘法的並行化效率提高。
跑完一次 epoch（全數據集）所需的迭代次數減少，對於相同數據量的處理速度進一步加快。
在一定范圍內，一般來說 Batch_Size 越大，其確定的下降方向越准，引起訓練震盪越小。

盲目增大 Batch_Size 有何壞處？

內存利用率提高了，但是內存容量可能撐不住了。
跑完一次 epoch（全數據集）所需的迭代次數減少，要想達到相同的精度，其所花費的時間大大增加了，從而對參數的修正也就顯得更加緩慢。
Batch_Size 增大到一定程度，其確定的下降方向已經基本不再變化。

調節 Batch_Size 對訓練效果影響到底如何？
這里跑一個 LeNet 在 MNIST 數據集上的效果。MNIST 是一個手寫體標准庫，我使用的是 Theano 框架。這是一個 Python 的深度學習庫。安裝方便（幾行命令而已），調試簡單（自帶 Profile），GPU / CPU 通吃，官方教程相當完備，支持模塊十分豐富（除了 CNNs，更是支持 RBM / DBN / LSTM / RBM-RNN / SdA / MLPs）。在其上層有 Keras 封裝，支持 GRU / JZS1, JZS2, JZS3 等較新結構，支持 Adagrad / Adadelta / RMSprop / Adam 等優化演算法。

運行結果如上圖所示，其中絕對時間做了標幺化處理。運行結果與上文分析相印證：

Batch_Size 太小，演算法在 200 epoches 內不收斂。

隨著 Batch_Size 增大，處理相同數據量的速度越快。
隨著 Batch_Size 增大，達到相同精度所需要的 epoch 數量越來越多。

由於上述兩種因素的矛盾， Batch_Size 增大到某個時候，達到時間上的最優。
由於最終收斂精度會陷入不同的局部極值，因此 Batch_Size 增大到某些時候，達到最終收斂精度上的最優。

歡迎一起討論。

D. 什麼是分布式梯度跟蹤優化

一種基於隨機梯度追蹤技術的大數據二分類分布式優化方法，具體步驟為：設定二分類問題，獲取訓練樣本數據、測試樣本數據、樣本特徵；採用one‑hot編碼將訓練樣本數據和測試樣本數據擴展成向量數據，得到訓練樣本向量數據和測試樣本向量數據；將訓練樣本向量數據進行智能體分配，結合梯度跟蹤策略與隨機平均梯度策略，建立帶未知參數的分布式隨機梯度跟蹤策略S‑DIGing的問題模型；求解未知參數；將測試樣本向量數據代入分布式隨機梯度跟蹤策略S‑DIGing的問題模型中進行二分類驗證，並輸出所述二分類問題對應的分布式隨機梯度跟蹤策略S‑DIGing的問題模型。極大降低了策略的復雜度和計算量，從而使S‑DIGing策略能夠很好地處理大規模問題。響優化演算法的收斂速度的問題，提出一種時延情形下的分布式Push-sum次梯度優化演算法，該方法在權矩陣不具有正對角線元素時仍適用，並應用系統擴維的方法將有時延優化問題轉化為無時延優化問題。在時延和次梯度有界且有向切換網路周期強連通的條件下，證明了所提出的分布式Push-sum次梯度優化演算法的收斂性。研究表明：存在通信時延時的演算法收斂速度比無時延時的收斂速度要慢，並具有較大的收斂誤差。最後，通過數值模擬驗證了研究的結論。

E. 一個多元函數的次梯度怎樣求

次梯度法是求解凸函數最優化（凸優化）問題的一種迭代法。次梯度法能夠用於不可微的目標函數。當目標函數可微時，對於無約束問題次梯度法與梯度下降法具有同樣的搜索方向。雖然在實際的應用中，次梯度法比內點法和牛頓法慢得多，但是次梯度法可以直接應用於更廣泛的問題，次梯度法只需要很少的存儲需求。然而，通過將次梯度法與分解技術結合，有時能夠開發出問題的簡單分配演算法

次梯度方法有許多可採用的步長。以下為5種能夠保證收斂性的步長規則：

1、恆定步長，

F. 深度機器學習中的batch的大小對學習效果有何影響

深度機器學習中的batch的大小對學習效果有何影響？
如題，在深度學習中，剛入門的小弟一直聽聞一個batch中同時訓練多個數據可以得到較好的效果，於是小弟在caffe上跑deepID的網路時對如何選取batchsize頗具困惑。懇求萬能的知友給予指點~~

14 個回答

談談深度學習中的 Batch_Size Batch_Size（批尺寸）是機器學習中一個重要參數，涉及諸多矛盾，下面逐一展開。首先，為什麼需要有 Batch_Size 這個參數？ Batch 的選擇，首先決定的是下降的方向。如果數據集比較小，完全可以採用全數據集（ Full Batch Lea… 顯示全部
談談深度學習中的 Batch_Size
Batch_Size（批尺寸）是機器學習中一個重要參數，涉及諸多矛盾，下面逐一展開。

首先，為什麼需要有 Batch_Size 這個參數？
Batch 的選擇，首先決定的是下降的方向。如果數據集比較小，完全可以採用全數據集（ Full Batch Learning）的形式，這樣做至少有 2 個好處：其一，由全數據集確定的方向能夠更好地代表樣本總體，從而更准確地朝向極值所在的方向。其二，由於不同權重的梯度值差別巨大，因此選取一個全局的學習率很困難。 Full Batch Learning 可以使用Rprop 只基於梯度符號並且針對性單獨更新各權值。

對於更大的數據集，以上 2 個好處又變成了 2 個壞處：其一，隨著數據集的海量增長和內存限制，一次性載入所有的數據進來變得越來越不可行。其二，以 Rprop 的方式迭代，會由於各個 Batch 之間的采樣差異性，各次梯度修正值相互抵消，無法修正。這才有了後來 RMSProp 的妥協方案。

既然 Full Batch Learning 並不適用大數據集，那麼走向另一個極端怎麼樣？
所謂另一個極端，就是每次只訓練一個樣本，即 Batch_Size = 1。這就是在線學習（Online Learning）。線性神經元在均方誤差代價函數的錯誤面是一個拋物面，橫截面是橢圓。對於多層神經元、非線性網路，在局部依然近似是拋物面。使用在線學習，每次修正方向以各自樣本的梯度方向修正，橫沖直撞各自為政，難以達到收斂。
可不可以選擇一個適中的 Batch_Size 值呢？
當然可以，這就是批梯度下降法（Mini-batches Learning）。因為如果數據集足夠充分，那麼用一半（甚至少得多）的數據訓練算出來的梯度與用全部數據訓練出來的梯度是幾乎一樣的。

在合理范圍內，增大 Batch_Size 有何好處？

內存利用率提高了，大矩陣乘法的並行化效率提高。
跑完一次 epoch（全數據集）所需的迭代次數減少，對於相同數據量的處理速度進一步加快。
在一定范圍內，一般來說 Batch_Size 越大，其確定的下降方向越准，引起訓練震盪越小。

盲目增大 Batch_Size 有何壞處？

內存利用率提高了，但是內存容量可能撐不住了。
跑完一次 epoch（全數據集）所需的迭代次數減少，要想達到相同的精度，其所花費的時間大大增加了，從而對參數的修正也就顯得更加緩慢。
Batch_Size 增大到一定程度，其確定的下降方向已經基本不再變化。

調節 Batch_Size 對訓練效果影響到底如何？
這里跑一個 LeNet 在 MNIST 數據集上的效果。MNIST 是一個手寫體標准庫，我使用的是 Theano 框架。這是一個 Python 的深度學習庫。安裝方便（幾行命令而已），調試簡單（自帶 Profile），GPU / CPU 通吃，官方教程相當完備，支持模塊十分豐富（除了 CNNs，更是支持 RBM / DBN / LSTM / RBM-RNN / SdA / MLPs）。在其上層有Keras 封裝，支持 GRU / JZS1, JZS2, JZS3 等較新結構，支持 Adagrad / Adadelta / RMSprop / Adam 等優化演算法。
運行結果如上圖所示，其中絕對時間做了標幺化處理。運行結果與上文分析相印證：

Batch_Size 太小，演算法在 200 epoches 內不收斂。

隨著 Batch_Size 增大，處理相同數據量的速度越快。
隨著 Batch_Size 增大，達到相同精度所需要的 epoch 數量越來越多。

由於上述兩種因素的矛盾， Batch_Size 增大到某個時候，達到時間上的最優。
由於最終收斂精度會陷入不同的局部極值，因此 Batch_Size 增大到某些時候，達到最終收斂精度上的最優。

歡迎一起討論。

知乎用戶理論物理跳深度學習...60%概率失業
20 人贊同
批訓練的引入最大好處是針對非凸損失函數來做的，畢竟非凸的情況下，全樣本就算工程上算的動，也會卡在局部優上，批表示了全樣本的部分抽樣實現，相當於人為引入修正梯度上的采樣雜訊，使「一路不通找別路」更有可能搜索最優值。樓上很多說到隨機梯度… 顯示全部
批訓練的引入最大好處是針對非凸損失函數來做的，畢竟非凸的情況下，全樣本就算工程上算的動，也會卡在局部優上，批表示了全樣本的部分抽樣實現，相當於人為引入修正梯度上的采樣雜訊，使「一路不通找別路」更有可能搜索最優值。

樓上很多說到隨機梯度收斂問題，物理上是這樣的理解，

增加噪音擴大了你的行動范圍，不會受限於局部。
然而過大的行動范圍使得你的選擇過多而」迷茫「。
這是一個損失函數局部優有「多坑人」和局部優「數目太多好難選」之間的競爭，競爭平衡點才是你最終的訓練值。故此，最終的訓練值是一個分布，大夥們一般取平均來證明自己的模型多牛逼。
物理上，就是能量（坑好深）和熵（選擇多）的競爭結果，而且復雜系統中，能量和熵一輩子都在競爭，討論自由能最小值在非凸問題上的意義，比直接討論損失函數的最小值更有意義。
然而，這種牛逼，不僅依賴模型，而且依賴數據本身。調參需要預先建立競爭平衡的理論模型，單純用軟體刷指標只能用在某個數據集上，不具有轉移性。純浪費電！
這些觀點在大部分復雜物理系統的采樣，自旋玻璃的研究，蛋白質折疊構象搜索上，都有廣泛的認識。但是工業界被凸優化影響過多了，除了特徵選擇和防止過擬合外可以通過直覺建立，遇到非凸優化問題，基本不可能拍腦袋調出一個通用的（如果數學上可以，物理上應該最先發現，然而並沒有）。於是，即便在物理上遇到這種問題，目前很low，而且節省成本的方法就是燒錢增加計算蠻力點。矛盾到我笑尿了。

關於深度學習中的非凸優化，可以參考LeCun今年來對深度學習和自旋玻璃之間的聯系，以及隨機微分方程同增強采樣之間的研究。

Yinghong li 重新出發干實事

caffe小菜鳥也來答一下，感覺就是大batch size在顯存能允許的情況下收斂速度是比較快的但有時的確會有陷入局部最小的情況，小batch size引入的隨機性會更大些，有時候能有更好的效果，但是就是收斂速度慢一些…… 還有就是除了batch size這個參數外，如果在… 顯示全部
caffe小菜鳥也來答一下，感覺就是大batch size在顯存能允許的情況下收斂速度是比較快的但有時的確會有陷入局部最小的情況，小batch size引入的隨機性會更大些，有時候能有更好的效果，但是就是收斂速度慢一些……
還有就是除了batch size這個參數外，如果在solver setting中有momentum這個參數的話也要注意batch size的選取，具體參考一下caffe的tutorial

關於訓練參數怎麼選取可以參考以下一些文章:
Bengio的 Practical recommendations for gradient-based learning

Lecun 和 Bottou的 Efficient Backprop

還有一個代碼上的細節，就是caffe的代碼實現上選取一個batch的時候似乎是按著資料庫的圖片順序選取輸入圖片的，所以在生成資料庫的時候切記要shuffle一下圖片順序~

供題主參考，求大神指正~

匿名用戶
4 人贊同
搞機器學習大忌就是不做實驗想當然，話說這種問題題主跑幾組不同的batch不就知道了...調參調參不調哪來的參～另外，運用在不同的領域，不同的網路結構，不同的訓練方法，batch的取法，用法和影響也不一樣。不知道題主問的是哪種batch？顯示全部
搞機器學習大忌就是不做實驗想當然，話說這種問題題主跑幾組不同的batch不就知道了...調參調參不調哪來的參～

另外，運用在不同的領域，不同的網路結構，不同的訓練方法，batch的取法，用法和影響也不一樣。不知道題主問的是哪種batch？

知乎用戶我是認真的
我也看到過說理論上batchsize=1是最好的，不過實際上調的時候，可能因為我調參的能力比較有限，確實batchsize太小會出現網路收斂不穩定，最後結果比較差的情況，這個在ImageNet和其他資料庫上都遇到過，而batchsize太大確實也會影響隨機性的引入。目前一般… 顯示全部
我也看到過說理論上batchsize=1是最好的，不過實際上調的時候，可能因為我調參的能力比較有限，確實batchsize太小會出現網路收斂不穩定，最後結果比較差的情況，這個在ImageNet和其他資料庫上都遇到過，而batchsize太大確實也會影響隨機性的引入。目前一般調ImageNet的時候，大家都喜歡把顯存占滿，不過小一些的庫，個人感覺還是應該大大小小都嘗試一下。不知道各路大神有沒有什麼好辦法指點一下。。

匿名用戶
23 人贊同
看你GPU顯存，顯存大就把batch size設大點，反之亦然。一般情況下對學習效果沒影響。補充點細節：事實上從優化的角度來說最快的是純stochastic，即batch size為1。關於這一點參見Leon Bottou的分析：http://leon.bottou.org/publications/pdf/compstat-2010.pdf。當然，文中的分析適用於large … 顯示全部
看你GPU顯存，顯存大就把batch size設大點，反之亦然。一般情況下對學習效果沒影響。

補充點細節：

事實上從優化的角度來說最快的是純stochastic，即batch size為1。
關於這一點參見Leon Bottou的分析：http://leon.bottou.org/publications/pdf/compstat-2010.pdf。當然，文中的分析適用於large scale的情況下，但deep neural net適用的條件之一就是有大量數據。另外http://cilvr.nyu.e/lib/exe/fetch.php?media=deeplearning:dl-optimization.pdf 的第11頁也有比較stochastic和batch的優劣。

拿Yann Lecun在上述第二個鏈接第10頁中舉的toy example來說，如果事實上只有100個數據點，但有人各復制了10遍拿給你，你不知道。這時候你如果做batch gradient descent，更只用了100個點效果一樣；而做stochastic gradient descent則相當於做了10個epoch。相近的計算量後者效果顯然更好。至於mini batch，要你取的每個mini batch都很diverse的情況才會效果好。

當然你會說，現實中哪會有100個數據各重復10遍就直接拿來用的？沒錯，是不會，但現實中的數據，尤其是large scale的數據中，必然有大量的rendancy，不然你也很難學出有較好泛化性的model。因此stochastic在large scale總是優於batch。

那為什麼還要用mini batch呢？這是由於GPU並行運算的性質，同時把多組數據傳過去一起運算比一條一條運算來的快，因而mini batch只是為了充分利用GPU memory而做出的妥協。既然如此，batch size也調到剛好能塞進顯存就差不多了。

司徒功源非典型程序猿
2 人贊同
簡而言之，步子太大容易扯著蛋... 顯示全部
簡而言之，步子太大容易扯著蛋...

發布於 2016-01-14 1 條評論感謝

匿名用戶
9 人贊同
其實是有影響的。batch數太小，而類別又比較多的時候，真的可能會導致loss函數震盪而不收斂，尤其是在你的網路比較復雜的時候。這個做過幾個實驗，但是沒有詳細的做，主要是針對googlenet，alexnet以及vgg幾個模型（實驗結果就是batch為32的時候，alex開始… 顯示全部
其實是有影響的。batch數太小，而類別又比較多的時候，真的可能會導致loss函數震盪而不收斂，尤其是在你的網路比較復雜的時候。這個做過幾個實驗，但是沒有詳細的做，主要是針對googlenet，alexnet以及vgg幾個模型（實驗結果就是batch為32的時候，alex開始收斂，但是googlenet不收斂；提高batch size，googlenet開始收斂）。
就像lecun[note]里說的一樣，隨機梯度下降不能像full batch那樣明顯的保證收斂。一般而言，根據你的GPU顯存，設置為最大，而且一般要求是8的倍數（比如32，128），這樣，GPU內部的並行運算效率最高。
那麼怎麼選擇batch number呢？就像剛才說的，8的倍數，然後是稍微大一點（一般而言）。另外一個方法，就是選擇一部分數據，跑幾個batch看看你的loss是不是在變小,選擇一個合適的就可以了。

G. 鄒采榮的學術成果

一、發表論文(代表作10篇,部分檢索結果：1997開始至今被收錄SCI 33篇、EI 96篇、CPCI 29篇)：
1.Zou-CR, Plotkin-EI, Swamy-MNS, 2-D Fast Kalman Algorithms for Adaptive Parameter-Estimation of Nonhomogeneous Gaussian Markov Random-Field Model,IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS II-ANALOG AND DIGITAL SIGNAL PROCESSING , Vol.41, Iss. 10,pp 678-692,1994;
2. Zou-CR, Plotkin-EI, Swamy-MNS, He-ZY. Recursive-in- Order Least-Squares Parameter-Estimation Algorithm for 2-D Noncausal Gaussian Markov Random-Field Model, CIRCUITS SYSTEMS AND SIGNAL PROCESSING Vol.14 Iss.1,pp 87-110,1995;
3.Luo LJ,Lu Y,Zou CR, Image Sequence Macroblock Classification Using Neural Networks, SIGNAL PROCESSING,Vol.69, Iss. 2,pp.191-198,1998;
4.Wang ZH, He ZY, Zou CR, A Generalized Fast Algorithm for N-d Discrete Cosine Transform and Its Application to Motion Picture Coding, IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS II-ANALOG AND DIGITAL SIGNAL PROCESSING Vol.46, Iss.5, pp.617-627 ,1999;
5. Gao-XQ, Duanmu-CJ, Zou-CR, A Multilevel Successive Elimination Algorithm for Block Matching Motion Estimation, IEEE TRANSACTIONS ON IMAGE PROCESSING,Vol.9, Iss.3, pp.501-504, 2000;
6.Zheng WM, Zhou XY, Zou CR, Facial expression recognition using kernel canonical correlation analysis (KCCA),IEEE TRANSACTIONS ON NEURAL NETWORKS ,Vol.17,pp.233-238,2005;
7.He, Yunhui, Zhao, Li, Zou, Cairong, Face recognition using common faces method,PATTERN RECOGNITION, Vol.39, Iss.11, pp.2218-2222, 2006;
8.Wei Xin, Zhao Li, Zou Cairong,Blind Multiple Access Interference Suppression Algorithm Based on Relaxed Subgradient Projection for DS/CDMA Systems, CIRCUITS SYSTEMS AND SIGNAL PROCESSING Vol.29, Iss.4 pp.769-780,2010;
9.Sun Ning, Ji Zhen-hai, Zou Cai-rong , Two-dimensional Canonical Correlation Analysis and Its Application in Small Sample Size Face Recognition, NEURAL COMPUTING & APPLICATIONS,Vol.19,Iss.3,pp.377-382,2010;
10.Cairong Zou, Chengwei Huang, Dong Han, Li Zhao. Detecting Practical Speech Emotion in a Cognitive Task, Computer Communications and Networks (ICCCN), 2011 Proceedings of 20th International Conference on, Maui, HI, USA, 2011。
二、授權發明專利：
1.一種基於二維偏最小二乘法的面部表情識別方法;
2.一種基於加權主動形狀建模的人臉特徵定位方法;
3.一種人臉身份和表情的同步識別方法;
4.一種雷達脈內調制信號的特徵提取方法;
5.一種基於改進Fukunage-koontz變換的語音情感識別系統;
6.淺海水聲通信系統的間接自適應均衡方法;
7.水聲網路中的節能的媒質訪問控制方法;
8.基於JND和AR模型的感知視頻壓縮方法;
9.基於改進的VLS的立體視頻編碼方法;
10.一種基於支持矢量基的語音情感識別方法;
11.一種適用於中國數字電視地面廣播國家標準的同步方法;
12.基於分數傅里葉變換的二維維納濾波的取證語音增強方法;
13.一種加權次梯度投影的數字助聽器回聲路徑估計方法;
14.基於改進BP演算法的中間視合成方法;
15.一種基於CDMA水聲網路的媒質訪問控制方法。
三、已授權實用新型專利3項：
1.超高精度壓力計量校準儀;
2.新型滴眼裝置;
3.帶有信息檢索的智能電視終端。
四、已授權外觀設計專利1項：
1.活頁式電子樂譜。
五、已登記軟體著作權1項：
1.MusicPro電子樂譜系統軟體V1.0(登記號：2008SR38814)。
六、正在申請並受理發明專利15項：
1.基於樂符知識及雙投影法的樂符基元分割方法;
2.一種基於心電信號與語音信號的雙模態情感識別方法;
3.一種針對煩躁情緒的可據判的自動語音情感識別方法;
4.基於情感對特徵優化的語音情感分類方法;
5.一種分數傅里葉變換上的時頻域掩蔽信息隱藏方法;
6.一種基於分數傅里葉變換域的隱秘信號同步方法;
7.基於分段投影與樂符結構的譜線檢測及刪除方法;
8.基於行遊程鄰接表的樂譜快速連通域分析方法;
9.一種基於多變數統計的助聽器聲源定位方法;
10.一種基於壓縮感測的助聽器聲源定位方法;
11.一種認知無線電功率控制方法;
12.一種基於雲理論與分子動力學模擬的混合蛙跳演算法;
13.基於特徵空間自適應投影的語音情感識別方法;
14.一種跨語言的語音情感識別方法;
15.負面情緒檢測中的基於上下文修正的語音情感識別方法。
七、科技獲獎：
1.「基於面部表情和情感語音的兒童情緒能力分析與分類的研究」獲2009年度江蘇省科學技術進步二等獎.排名第一;
2.「情感特徵分析與識別的理論與應用」獲2008年教育部自然科學二等獎排名第一;
3.「多維數字信號處理的理論與應用研究」獲1998年國家教育部科技進步(基礎類)二等獎排名第三;
4.「盲信號模型參數估計的方法研究」獲2000年中國高校科學技術獎勵委員會二等獎排名第四;
5.「小波與濾波器組的理論及其應用研究」獲2006年教育部自然科學二等獎排名第三;
6.「神經網路理論及其智能信息處理應用基礎」獲1998年國家教育部科技進步(基礎類)一等獎排名第二十二。
八、參編著作：
1.《多維數字信號處理》，何振亞主編，國防工業出版社 1995。獲江蘇省優秀教材一等獎、教育部2001年優秀教材一等獎。

H. 深度機器學習中的batch的大小對學習效果有何影響

摘抄以下一段我覺得比較好的解釋。總的來說個人覺得對於效果的影響主要還是收斂性的好壞。而對於訓練過程來說的話應該還是跟訓練的代價，也就是速度相關。
深度學習的優化演算法，說白了就是梯度下降。每次的參數更新有兩種方式。
第一種，遍歷全部數據集算一次損失函數，然後算函數對各個參數的梯度，更新梯度。這種方法每更新一次參數都要把數據集里的所有樣本都看一遍，計算量開銷大，計算速度慢，不支持在線學習，這稱為Batch gradient descent，批梯度下降。
另一種，每看一個數據就算一下損失函數，然後求梯度更新參數，這個稱為隨機梯度下降，stochastic gradient descent。這個方法速度比較快，但是收斂性能不太好，可能在最優點附近晃來晃去，hit不到最優點。兩次參數的更新也有可能互相抵消掉，造成目標函數震盪的比較劇烈。
為了克服兩種方法的缺點，現在一般採用的是一種折中手段，mini-batch gradient decent，小批的梯度下降，這種方法把數據分為若干個批，按批來更新參數，這樣，一個批中的一組數據共同決定了本次梯度的方向，下降起來就不容易跑偏，減少了隨機性。另一方面因為批的樣本數與整個數據集相比小了很多，計算量也不是很大。

I. 次梯度演算法怎樣通過迭代方式求出最優值

次梯度演算法怎樣通過迭代方式求出最優值
在網路分層結構中，各層之間是嚴格單向依賴的。「服務」是描述各層之間關系的抽象概念，即網路中各層向緊鄰上層提供的一組操作。下層是服務提供者，
上層是請求服務的用戶。服務的表現形式是原語（primitive），如系統調用或庫函數。系統調用是操作系統內核向網路應用程序或高層協議提供的服務原
語。網路中的n層總要向n+1層提供比n-1層更完備的服務，否則n層就沒有存在的價值。

J. 張凱的發表研究與教學論文

1 Optimal well placement using an adjoint gradient. Journal of Petroleum Science and Engineering[J], 73(3-4). SCI. EI；1 油藏生產優化理論研究[J].石油學報.2010,Vol.31(1).EI；1 Optimal Control for Reservoir Proction Working System Using Gradient-based methods[C]. ISA2010,2010.EI；1 水驅注采高效開發策略優化[J].系統工程理論與實踐,2010,Vol.30(8).EI；1 Dynamic Real-time Optimization of Reservoir Proction. Journal of Computers. 2011, Vol.6(3). EI；1 Screening and evaluation of preponderant reserves in oil or gas fields. ICCIS 2010. EI；1 埕島油田6A+B區塊油藏動態優化方法研究[J].中國石油大學學報（自然版）,2009,vol.33(6).EI；1 聚合物驅垂直井筒流動和視粘度模型[J].中國石油大學學報（自然版）,2007,vol.31(3). EI；1 稠油油井冪律流體流動視黏度模型[J].石油勘探與開發,2007,Vol.34(5):616-621. EI；1 油田智能生產管理技術[J].油氣田地面工程,2009,Vol.28 (12)；1 油藏動態實時監測與調控[J].石油礦場機械,2010,Vol. 39(4)；1 稠油流變特性實驗研究[J].油氣地質與採收率,2007,Vol.14(5)；1 應用支持向量機方法預測礫石充填防砂井產能[J].石油天然氣學報,2006,Vol.18(6)；1 抽油機井管理系統[J].油氣田地面工程,2005,Vol.24(1)；1 聚合物驅垂直井筒冪律流體流動[C],2006年高含水期油藏提高採收率技術國際研討會會議論文；1 滲流力學雙語教學實踐探討[J], 現代企業教育,2010, Vol.361(7)；2 油藏自動歷史擬合方法研究現狀與展望[J].油氣地質與採收率,2010,Vol.17(4)；2 高壓靜電聚結器設計、實驗及現場應用[J].高電壓技術,2010,Vol.36(8), EI；2 高強電場中液滴靜電運動特性[J], 石油學報, 2011, Vol32(3), EI；3 智能井技術研究現狀與技術展望[J],石油鑽探技術, 2007,Vol.14(6)；2 大時滯非線性網路控制系統的保成本控制.第三十屆中國控制會議. 煙台, 2011,EI；2 不確定非線性時滯系統的非脆弱保成本控制.計算機工程與應用, 2011, Vol.47(24)；3 考慮約束條件的油藏生產優化[J]. 中國石油大學學報,2012,Vol.36(2)；3 三重介質油藏非牛頓液不穩定滲流壓力變化特徵研究[J].中外能源,2006,Vol.11(2)；3 變滲透率模量與雙重孔隙介質的壓力敏感性. 中國石油大學學報,2010,Vol.34(3), EI；3 Effect of alkanolamide on interfacial tension and loss of petroleum sulfonates for enhanced oil recovery[J]. Journal of Dispersion Science and Technology. 2010, Vol.6.SCI,EI；3 Well Test Interpretation Model on Power-law Non-linear Percolation Pattern in Low-permeability Reservoirs. SPE, 2010, 132271, EI；4 利用雙種群遺傳演算法進行數值試井自動擬合[J]. 油氣地質與採收率,2007, Vol.14(2)；4 考慮滲透率張量的非均質油藏有限元數值模擬方法.計算物理,2010,Vol.27(5):692-698, EI；4 水平井流線數值試井解釋模型及應用. 新疆石油地質,2010,Vol.31(4)；4 裂縫性油藏等效滲透率張量計算及表徵單元體積研究.水動力學研究與進展,2010,Vol.25(1)；4 基於流線EnKF油藏自動歷史擬合研究[J].石油學報,2011, Vol.32(3),EI；4 流線EnKF與常規EnKF油藏參數估計的對比分析[C], 第十一屆全國滲流力學學術會議暨國際滲流力學研討會,2011.；4 Theoretical research on Reservoir Closed-loop Proction Management[J]. SCIENCE CHINA Technological Sciences, 2011, Vol54(10). SCI,EI；4 考慮二次梯度項低滲透油藏水平井壓力動態分析[J]. 石油學報,2011, Vol.32(3)。

閱讀全文

熱點內容

phpfile亂碼發布：2025-07-16 03:57:54 瀏覽：93

手機存儲空間擴容發布：2025-07-16 03:52:07 瀏覽：861

小米4清除緩存發布：2025-07-16 03:03:17 瀏覽：563

如何緩解壓力英語作文發布：2025-07-16 03:03:15 瀏覽：15

手機視頻怎麼緩存發布：2025-07-16 02:59:05 瀏覽：933

安卓手機設備在哪裡找發布：2025-07-16 02:49:28 瀏覽：357

php建立數組發布：2025-07-16 02:34:30 瀏覽：284

oracle存儲過程同步發布：2025-07-16 02:29:18 瀏覽：941

歐諾s買哪個配置的好發布：2025-07-16 02:26:22 瀏覽：559

熱點可以建立ftp嗎發布：2025-07-16 02:26:21 瀏覽：304

次梯度演算法

與次梯度演算法相關的資訊