次梯度算法
A. 梯度的计算公式是什么
梯度的计算公式:gra=aₓ(∂u/∂x)+aᵧ(∂u/∂y)+az(∂u/∂z)
梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。
(1)次梯度算法扩展阅读:
在向量微积分中,标量场的梯度是一个向量场。标量场中某一点上的梯度指向标量场增长最快的方向,梯度的长度是这个最大的变化率。更严格的说,从欧几里得空间Rn到R的函数的梯度是在Rn某一点最佳的线性近似。在这个意义上,梯度是雅可比矩阵的特殊情况。
在单变量的实值函数的情况,梯度只是导数,或者,对于一个线性函数,也就是线的斜率。
B. matlab怎么写bregman算法
它是对泛函J在u点的subgradient的定义,p点是其对偶空间的中的某一点。subgradient可以翻译为次梯度,子梯度,弱梯度等。等式左边最右边一项是内积运算。
如果泛函J是简单的一元函数,则就是两个实数相乘。次梯度有什么好处呢?对于一般的导数定义,例如y=|x|在0点是不可导的,但是对于次梯度,它是存在的。
C. 深度机器学习中的batch的大小对学习效果有何影响
来源:知乎
程引
爱折腾
谈谈深度学习中的 Batch_Size
Batch_Size(批尺寸)是机器学习中一个重要参数,涉及诸多矛盾,下面逐一展开。
首先,为什么需要有 Batch_Size 这个参数?
Batch 的选择,首先决定的是下降的方向。如果数据集比较小,完全可以采用全数据集 ( Full Batch Learning )的形式,这样做至少有 2 个好处:其一,由全数据集确定的方向能够更好地代表样本总体,从而更准确地朝向极值所在的方向。其二,由于不同权重的梯度值差别巨大,因此选取一个全局的学习率很困难。 Full Batch Learning 可以使用Rprop 只基于梯度符号并且针对性单独更新各权值。
对于更大的数据集,以上 2 个好处又变成了 2 个坏处:其一,随着数据集的海量增长和内存限制,一次性载入所有的数据进来变得越来越不可行。其二,以 Rprop 的方式迭代,会由于各个 Batch 之间的采样差异性,各次梯度修正值相互抵消,无法修正。这才有了后来 RMSProp 的妥协方案。
既然 Full Batch Learning 并不适用大数据集,那么走向另一个极端怎么样?
所谓另一个极端,就是每次只训练一个样本,即 Batch_Size = 1。这就是在线学习(Online Learning)。线性神经元在均方误差代价函数的错误面是一个抛物面,横截面是椭圆。对于多层神经元、非线性网络,在局部依然近似是抛物面。使用在线学习,每次修正方向以各自样本的梯度方向修正,横冲直撞各自为政,难以达到收敛。
可不可以选择一个适中的 Batch_Size 值呢?
当然可以,这就是批梯度下降法(Mini-batches Learning)。因为如果数据集足够充分,那么用一半(甚至少得多)的数据训练算出来的梯度与用全部数据训练出来的梯度是几乎一样的。
在合理范围内,增大 Batch_Size 有何好处?
内存利用率提高了,大矩阵乘法的并行化效率提高。
跑完一次 epoch(全数据集)所需的迭代次数减少,对于相同数据量的处理速度进一步加快。
在一定范围内,一般来说 Batch_Size 越大,其确定的下降方向越准,引起训练震荡越小。
盲目增大 Batch_Size 有何坏处?
内存利用率提高了,但是内存容量可能撑不住了。
跑完一次 epoch(全数据集)所需的迭代次数减少,要想达到相同的精度,其所花费的时间大大增加了,从而对参数的修正也就显得更加缓慢。
Batch_Size 增大到一定程度,其确定的下降方向已经基本不再变化。
调节 Batch_Size 对训练效果影响到底如何?
这里跑一个 LeNet 在 MNIST 数据集上的效果。MNIST 是一个手写体标准库,我使用的是 Theano 框架。这是一个 Python 的深度学习库。安装方便(几行命令而已),调试简单(自带 Profile),GPU / CPU 通吃,官方教程相当完备,支持模块十分丰富(除了 CNNs,更是支持 RBM / DBN / LSTM / RBM-RNN / SdA / MLPs)。在其上层有 Keras 封装,支持 GRU / JZS1, JZS2, JZS3 等较新结构,支持 Adagrad / Adadelta / RMSprop / Adam 等优化算法。
运行结果如上图所示,其中绝对时间做了标幺化处理。运行结果与上文分析相印证:
Batch_Size 太小,算法在 200 epoches 内不收敛。
随着 Batch_Size 增大,处理相同数据量的速度越快。
随着 Batch_Size 增大,达到相同精度所需要的 epoch 数量越来越多。
由于上述两种因素的矛盾, Batch_Size 增大到某个时候,达到时间上的最优。
由于最终收敛精度会陷入不同的局部极值,因此 Batch_Size 增大到某些时候,达到最终收敛精度上的最优。
欢迎一起讨论。
D. 什么是 分布式梯度跟踪优化
一种基于随机梯度追踪技术的大数据二分类分布式优化方法,具体步骤为:设定二分类问题,获取训练样本数据、测试样本数据、样本特征;采用one‑hot编码将训练样本数据和测试样本数据扩展成向量数据,得到训练样本向量数据和测试样本向量数据;将训练样本向量数据进行智能体分配,结合梯度跟踪策略与随机平均梯度策略,建立带未知参数的分布式随机梯度跟踪策略S‑DIGing的问题模型;求解未知参数;将测试样本向量数据代入分布式随机梯度跟踪策略S‑DIGing的问题模型中进行二分类验证,并输出所述二分类问题对应的分布式随机梯度跟踪策略S‑DIGing的问题模型。极大降低了策略的复杂度和计算量,从而使S‑DIGing策略能够很好地处理大规模问题。响优化算法的收敛速度的问题,提出一种时延情形下的分布式Push-sum次梯度优化算法,该方法在权矩阵不具有正对角线元素时仍适用,并应用系统扩维的方法将有时延优化问题转化为无时延优化问题。在时延和次梯度有界且有向切换网络周期强连通的条件下,证明了所提出的分布式Push-sum次梯度优化算法的收敛性。研究表明:存在通信时延时的算法收敛速度比无时延时的收敛速度要慢,并具有较大的收敛误差。最后,通过数值仿真验证了研究的结论。
E. 一个多元函数的次梯度怎样求
次梯度法是求解凸函数最优化(凸优化)问题的一种迭代法。 次梯度法能够用于不可微的目标函数。当目标函数可微时,对于无约束问题次梯度法与梯度下降法具有同样的搜索方向。虽然在实际的应用中,次梯度法比内点法和牛顿法慢得多,但是次梯度法可以直接应用于更广泛的问题,次梯度法只需要很少的存储需求。然而,通过将次梯度法与分解技术结合,有时能够开发出问题的简单分配算法
次梯度方法有许多可采用的步长。以下为5种能够保证收敛性的步长规则:
1、恒定步长,
F. 深度机器学习中的batch的大小对学习效果有何影响
深度机器学习中的batch的大小对学习效果有何影响?
如题,在深度学习中,刚入门的小弟一直听闻一个batch中同时训练多个数据可以得到较好的效果,于是小弟在caffe上跑deepID的网络时对如何选取batchsize颇具困惑。恳求万能的知友给予指点~~
14 个回答
谈谈深度学习中的 Batch_Size Batch_Size(批尺寸)是机器学习中一个重要参数,涉及诸多矛盾,下面逐一展开。 首先,为什么需要有 Batch_Size 这个参数? Batch 的选择,首先决定的是下降的方向。如果数据集比较小,完全可以采用全数据集 ( Full Batch Lea… 显示全部
谈谈深度学习中的 Batch_Size
Batch_Size(批尺寸)是机器学习中一个重要参数,涉及诸多矛盾,下面逐一展开。
首先,为什么需要有 Batch_Size 这个参数?
Batch 的选择,首先决定的是下降的方向。如果数据集比较小,完全可以采用全数据集 ( Full Batch Learning)的形式,这样做至少有 2 个好处:其一,由全数据集确定的方向能够更好地代表样本总体,从而更准确地朝向极值所在的方向。其二,由于不同权重的梯度值差别巨大,因此选取一个全局的学习率很困难。 Full Batch Learning 可以使用Rprop 只基于梯度符号并且针对性单独更新各权值。
对于更大的数据集,以上 2 个好处又变成了 2 个坏处:其一,随着数据集的海量增长和内存限制,一次性载入所有的数据进来变得越来越不可行。其二,以 Rprop 的方式迭代,会由于各个 Batch 之间的采样差异性,各次梯度修正值相互抵消,无法修正。这才有了后来 RMSProp 的妥协方案。
既然 Full Batch Learning 并不适用大数据集,那么走向另一个极端怎么样?
所谓另一个极端,就是每次只训练一个样本,即 Batch_Size = 1。这就是在线学习(Online Learning)。线性神经元在均方误差代价函数的错误面是一个抛物面,横截面是椭圆。对于多层神经元、非线性网络,在局部依然近似是抛物面。使用在线学习,每次修正方向以各自样本的梯度方向修正,横冲直撞各自为政,难以达到收敛。
可不可以选择一个适中的 Batch_Size 值呢?
当然可以,这就是批梯度下降法(Mini-batches Learning)。因为如果数据集足够充分,那么用一半(甚至少得多)的数据训练算出来的梯度与用全部数据训练出来的梯度是几乎一样的。
在合理范围内,增大 Batch_Size 有何好处?
内存利用率提高了,大矩阵乘法的并行化效率提高。
跑完一次 epoch(全数据集)所需的迭代次数减少,对于相同数据量的处理速度进一步加快。
在一定范围内,一般来说 Batch_Size 越大,其确定的下降方向越准,引起训练震荡越小。
盲目增大 Batch_Size 有何坏处?
内存利用率提高了,但是内存容量可能撑不住了。
跑完一次 epoch(全数据集)所需的迭代次数减少,要想达到相同的精度,其所花费的时间大大增加了,从而对参数的修正也就显得更加缓慢。
Batch_Size 增大到一定程度,其确定的下降方向已经基本不再变化。
调节 Batch_Size 对训练效果影响到底如何?
这里跑一个 LeNet 在 MNIST 数据集上的效果。MNIST 是一个手写体标准库,我使用的是 Theano 框架。这是一个 Python 的深度学习库。安装方便(几行命令而已),调试简单(自带 Profile),GPU / CPU 通吃,官方教程相当完备,支持模块十分丰富(除了 CNNs,更是支持 RBM / DBN / LSTM / RBM-RNN / SdA / MLPs)。在其上层有Keras 封装,支持 GRU / JZS1, JZS2, JZS3 等较新结构,支持 Adagrad / Adadelta / RMSprop / Adam 等优化算法。
运行结果如上图所示,其中绝对时间做了标幺化处理。运行结果与上文分析相印证:
Batch_Size 太小,算法在 200 epoches 内不收敛。
随着 Batch_Size 增大,处理相同数据量的速度越快。
随着 Batch_Size 增大,达到相同精度所需要的 epoch 数量越来越多。
由于上述两种因素的矛盾, Batch_Size 增大到某个时候,达到时间上的最优。
由于最终收敛精度会陷入不同的局部极值,因此 Batch_Size 增大到某些时候,达到最终收敛精度上的最优。
欢迎一起讨论。
知乎用户 理论物理跳深度学习...60%概率失业
20 人赞同
批训练的引入最大好处是针对非凸损失函数来做的, 毕竟非凸的情况下, 全样本就算工程上算的动, 也会卡在局部优上, 批表示了全样本的部分抽样实现, 相当于人为引入修正梯度上的采样噪声,使“一路不通找别路”更有可能搜索最优值。 楼上很多说到随机梯度… 显示全部
批训练的引入最大好处是针对非凸损失函数来做的, 毕竟非凸的情况下, 全样本就算工程上算的动, 也会卡在局部优上, 批表示了全样本的部分抽样实现, 相当于人为引入修正梯度上的采样噪声,使“一路不通找别路”更有可能搜索最优值。
楼上很多说到随机梯度收敛问题,物理上是这样的理解,
增加噪音扩大了你的行动范围,不会受限于局部。
然而过大的行动范围使得你的选择过多而”迷茫“。
这是一个损失函数局部优有“多坑人”和局部优“数目太多好难选”之间的竞争,竞争平衡点才是你最终的训练值。故此,最终的训练值是一个分布,大伙们一般取平均来证明自己的模型多牛逼。
物理上,就是能量(坑好深)和熵(选择多)的竞争结果,而且复杂系统中,能量和熵一辈子都在竞争,讨论自由能最小值在非凸问题上的意义,比直接讨论损失函数的最小值更有意义。
然而,这种牛逼,不仅依赖模型,而且依赖数据本身。调参需要预先建立竞争平衡的理论模型,单纯用软件刷指标只能用在某个数据集上,不具有转移性。纯浪费电!
这些观点在大部分复杂物理系统的采样,自旋玻璃的研究,蛋白质折叠构象搜索上,都有广泛的认识。但是工业界被凸优化影响过多了,除了特征选择和防止过拟合外可以通过直觉建立,遇到非凸优化问题,基本不可能拍脑袋调出一个通用的(如果数学上可以,物理上应该最先发现,然而并没有)。于是,即便在物理上遇到这种问题,目前很low,而且节省成本的方法就是烧钱增加计算蛮力点。矛盾到我笑尿了。
关于深度学习中的非凸优化,可以参考LeCun今年来对深度学习和自旋玻璃之间的联系,以及随机微分方程同增强采样之间的研究。
Yinghong li 重新出发干实事
caffe小菜鸟也来答一下,感觉就是大batch size在显存能允许的情况下收敛速度是比较快的但有时的确会有陷入局部最小的情况,小batch size引入的随机性会更大些,有时候能有更好的效果,但是就是收敛速度慢一些…… 还有就是除了batch size这个参数外,如果在… 显示全部
caffe小菜鸟也来答一下,感觉就是大batch size在显存能允许的情况下收敛速度是比较快的但有时的确会有陷入局部最小的情况,小batch size引入的随机性会更大些,有时候能有更好的效果,但是就是收敛速度慢一些……
还有就是除了batch size这个参数外,如果在solver setting中有momentum这个参数的话也要注意batch size的选取,具体参考一下caffe的tutorial
关于训练参数怎么选取可以参考以下一些文章:
Bengio的 Practical recommendations for gradient-based learning
Lecun 和 Bottou的 Efficient Backprop
还有一个代码上的细节,就是caffe的代码实现上选取一个batch的时候似乎是按着数据库的图片顺序选取输入图片的,所以在生成数据库的时候切记要shuffle一下图片顺序~
供题主参考,求大神指正~
匿名用户
4 人赞同
搞机器学习大忌就是不做实验想当然,话说这种问题题主跑几组不同的batch不就知道了...调参调参不调哪来的参~ 另外,运用在不同的领域,不同的网络结构,不同的训练方法,batch的取法,用法和影响也不一样。不知道题主问的是哪种batch? 显示全部
搞机器学习大忌就是不做实验想当然,话说这种问题题主跑几组不同的batch不就知道了...调参调参不调哪来的参~
另外,运用在不同的领域,不同的网络结构,不同的训练方法,batch的取法,用法和影响也不一样。不知道题主问的是哪种batch?
知乎用户 我是认真的
我也看到过说理论上batchsize=1是最好的,不过实际上调的时候,可能因为我调参的能力比较有限,确实batchsize太小会出现网络收敛不稳定,最后结果比较差的情况,这个在ImageNet和其他数据库上都遇到过,而batchsize太大确实也会影响随机性的引入。目前一般… 显示全部
我也看到过说理论上batchsize=1是最好的,不过实际上调的时候,可能因为我调参的能力比较有限,确实batchsize太小会出现网络收敛不稳定,最后结果比较差的情况,这个在ImageNet和其他数据库上都遇到过,而batchsize太大确实也会影响随机性的引入。目前一般调ImageNet的时候,大家都喜欢把显存占满,不过小一些的库,个人感觉还是应该大大小小都尝试一下。不知道各路大神有没有什么好办法指点一下。。
匿名用户
23 人赞同
看你GPU显存,显存大就把batch size设大点,反之亦然。一般情况下对学习效果没影响。 补充点细节: 事实上从优化的角度来说最快的是纯stochastic,即batch size为1。 关于这一点参见Leon Bottou的分析:http://leon.bottou.org/publications/pdf/compstat-2010.pdf。当然,文中的分析适用于large … 显示全部
看你GPU显存,显存大就把batch size设大点,反之亦然。一般情况下对学习效果没影响。
补充点细节:
事实上从优化的角度来说最快的是纯stochastic,即batch size为1。
关于这一点参见Leon Bottou的分析:http://leon.bottou.org/publications/pdf/compstat-2010.pdf。当然,文中的分析适用于large scale的情况下,但deep neural net适用的条件之一就是有大量数据。另外http://cilvr.nyu.e/lib/exe/fetch.php?media=deeplearning:dl-optimization.pdf 的第11页也有比较stochastic和batch的优劣。
拿Yann Lecun在上述第二个链接第10页中举的toy example来说,如果事实上只有100个数据点,但有人各复制了10遍拿给你,你不知道。这时候你如果做batch gradient descent,更只用了100个点效果一样;而做stochastic gradient descent则相当于做了10个epoch。相近的计算量后者效果显然更好。至于mini batch,要你取的每个mini batch都很diverse的情况才会效果好。
当然你会说,现实中哪会有100个数据各重复10遍就直接拿来用的?没错,是不会,但现实中的数据,尤其是large scale的数据中,必然有大量的rendancy,不然你也很难学出有较好泛化性的model。因此stochastic在large scale总是优于batch。
那为什么还要用mini batch呢?这是由于GPU并行运算的性质,同时把多组数据传过去一起运算比一条一条运算来的快,因而mini batch只是为了充分利用GPU memory而做出的妥协。既然如此,batch size也调到刚好能塞进显存就差不多了。
司徒功源 非典型程序猿
2 人赞同
简而言之,步子太大容易扯着蛋... 显示全部
简而言之,步子太大容易扯着蛋...
发布于 2016-01-14 1 条评论 感谢
匿名用户
9 人赞同
其实是有影响的。batch数太小,而类别又比较多的时候,真的可能会导致loss函数震荡而不收敛,尤其是在你的网络比较复杂的时候。这个做过几个实验,但是没有详细的做,主要是针对googlenet,alexnet以及vgg几个模型(实验结果就是batch为32的时候,alex开始… 显示全部
其实是有影响的。batch数太小,而类别又比较多的时候,真的可能会导致loss函数震荡而不收敛,尤其是在你的网络比较复杂的时候。这个做过几个实验,但是没有详细的做,主要是针对googlenet,alexnet以及vgg几个模型(实验结果就是batch为32的时候,alex开始收敛,但是googlenet不收敛;提高batch size,googlenet开始收敛)。
就像lecun[note]里说的一样,随机梯度下降不能像full batch那样明显的保证收敛。一般而言,根据你的GPU显存,设置为最大,而且一般要求是8的倍数(比如32,128),这样,GPU内部的并行运算效率最高。
那么怎么选择batch number呢?就像刚才说的,8的倍数,然后是稍微大一点(一般而言)。另外一个方法,就是选择一部分数据,跑几个batch看看你的loss是不是在变小,选择一个合适的就可以了。
G. 邹采荣的学术成果
一、发表论文(代表作10篇,部分检索结果:1997开始至今被收录SCI 33篇、EI 96篇、CPCI 29篇):
1.Zou-CR, Plotkin-EI, Swamy-MNS, 2-D Fast Kalman Algorithms for Adaptive Parameter-Estimation of Nonhomogeneous Gaussian Markov Random-Field Model,IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS II-ANALOG AND DIGITAL SIGNAL PROCESSING , Vol.41, Iss. 10,pp 678-692,1994;
2. Zou-CR, Plotkin-EI, Swamy-MNS, He-ZY. Recursive-in- Order Least-Squares Parameter-Estimation Algorithm for 2-D Noncausal Gaussian Markov Random-Field Model, CIRCUITS SYSTEMS AND SIGNAL PROCESSING Vol.14 Iss.1,pp 87-110,1995;
3.Luo LJ,Lu Y,Zou CR, Image Sequence Macroblock Classification Using Neural Networks, SIGNAL PROCESSING,Vol.69, Iss. 2,pp.191-198,1998;
4.Wang ZH, He ZY, Zou CR, A Generalized Fast Algorithm for N-d Discrete Cosine Transform and Its Application to Motion Picture Coding, IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS II-ANALOG AND DIGITAL SIGNAL PROCESSING Vol.46, Iss.5, pp.617-627 ,1999;
5. Gao-XQ, Duanmu-CJ, Zou-CR, A Multilevel Successive Elimination Algorithm for Block Matching Motion Estimation, IEEE TRANSACTIONS ON IMAGE PROCESSING,Vol.9, Iss.3, pp.501-504, 2000;
6.Zheng WM, Zhou XY, Zou CR, Facial expression recognition using kernel canonical correlation analysis (KCCA),IEEE TRANSACTIONS ON NEURAL NETWORKS ,Vol.17,pp.233-238,2005;
7.He, Yunhui, Zhao, Li, Zou, Cairong, Face recognition using common faces method,PATTERN RECOGNITION, Vol.39, Iss.11, pp.2218-2222, 2006;
8.Wei Xin, Zhao Li, Zou Cairong,Blind Multiple Access Interference Suppression Algorithm Based on Relaxed Subgradient Projection for DS/CDMA Systems, CIRCUITS SYSTEMS AND SIGNAL PROCESSING Vol.29, Iss.4 pp.769-780,2010;
9.Sun Ning, Ji Zhen-hai, Zou Cai-rong , Two-dimensional Canonical Correlation Analysis and Its Application in Small Sample Size Face Recognition, NEURAL COMPUTING & APPLICATIONS,Vol.19,Iss.3,pp.377-382,2010;
10.Cairong Zou, Chengwei Huang, Dong Han, Li Zhao. Detecting Practical Speech Emotion in a Cognitive Task, Computer Communications and Networks (ICCCN), 2011 Proceedings of 20th International Conference on, Maui, HI, USA, 2011。
二、授权发明专利:
1.一种基于二维偏最小二乘法的面部表情识别方法;
2.一种基于加权主动形状建模的人脸特征定位方法;
3.一种人脸身份和表情的同步识别方法;
4.一种雷达脉内调制信号的特征提取方法;
5.一种基于改进Fukunage-koontz变换的语音情感识别系统;
6.浅海水声通信系统的间接自适应均衡方法;
7.水声网络中的节能的媒质访问控制方法;
8.基于JND和AR模型的感知视频压缩方法;
9.基于改进的VLS的立体视频编码方法;
10.一种基于支持矢量基的语音情感识别方法;
11.一种适用于中国数字电视地面广播国家标准的同步方法;
12.基于分数傅里叶变换的二维维纳滤波的取证语音增强方法;
13.一种加权次梯度投影的数字助听器回声路径估计方法;
14.基于改进BP算法的中间视合成方法;
15.一种基于CDMA水声网络的媒质访问控制方法。
三、已授权实用新型专利3项:
1.超高精度压力计量校准仪;
2.新型滴眼装置;
3.带有信息检索的智能电视终端。
四、已授权外观设计专利1项:
1.活页式电子乐谱。
五、已登记软件着作权1项:
1.MusicPro电子乐谱系统软件V1.0(登记号:2008SR38814)。
六、正在申请并受理发明专利15项:
1.基于乐符知识及双投影法的乐符基元分割方法;
2.一种基于心电信号与语音信号的双模态情感识别方法;
3.一种针对烦躁情绪的可据判的自动语音情感识别方法;
4.基于情感对特征优化的语音情感分类方法;
5.一种分数傅里叶变换上的时频域掩蔽信息隐藏方法;
6.一种基于分数傅里叶变换域的隐秘信号同步方法;
7.基于分段投影与乐符结构的谱线检测及删除方法;
8.基于行游程邻接表的乐谱快速连通域分析方法;
9.一种基于多变量统计的助听器声源定位方法;
10.一种基于压缩传感的助听器声源定位方法;
11.一种认知无线电功率控制方法;
12.一种基于云理论与分子动力学模拟的混合蛙跳算法;
13.基于特征空间自适应投影的语音情感识别方法;
14.一种跨语言的语音情感识别方法;
15.负面情绪检测中的基于上下文修正的语音情感识别方法。
七、科技获奖:
1.“基于面部表情和情感语音的儿童情绪能力分析与分类的研究”获2009年度江苏省科学技术进步二等奖.排名 第一;
2.“情感特征分析与识别的理论与应用”获2008年教育部自然科学二等奖 排名 第一;
3.“多维数字信号处理的理论与应用研究” 获1998年国家教育部科技进步(基础类)二等奖 排名第三;
4.“盲信号模型参数估计的方法研究”获2000年中国高校科学技术奖励委员会二等奖 排名第四;
5.“小波与滤波器组的理论及其应用研究”获2006年教育部自然科学二等奖 排名 第三;
6.“神经网络理论及其智能信息处理应用基础”获1998年国家教育部科技进步(基础类)一等奖 排名第二十二。
八、参编着作:
1.《多维数字信号处理》,何振亚主编,国防工业出版社 1995。获江苏省优秀教材一等奖、教育部2001年优秀教材一等奖。
H. 深度机器学习中的batch的大小对学习效果有何影响
摘抄以下一段我觉得比较好的解释。总的来说个人觉得对于效果的影响主要还是收敛性的好坏。而对于训练过程来说的话应该还是跟训练的代价,也就是速度相关。
深度学习的优化算法,说白了就是梯度下降。每次的参数更新有两种方式。
第一种,遍历全部数据集算一次损失函数,然后算函数对各个参数的梯度,更新梯度。这种方法每更新一次参数都要把数据集里的所有样本都看一遍,计算量开销大,计算速度慢,不支持在线学习,这称为Batch gradient descent,批梯度下降。
另一种,每看一个数据就算一下损失函数,然后求梯度更新参数,这个称为随机梯度下降,stochastic gradient descent。这个方法速度比较快,但是收敛性能不太好,可能在最优点附近晃来晃去,hit不到最优点。两次参数的更新也有可能互相抵消掉,造成目标函数震荡的比较剧烈。
为了克服两种方法的缺点,现在一般采用的是一种折中手段,mini-batch gradient decent,小批的梯度下降,这种方法把数据分为若干个批,按批来更新参数,这样,一个批中的一组数据共同决定了本次梯度的方向,下降起来就不容易跑偏,减少了随机性。另一方面因为批的样本数与整个数据集相比小了很多,计算量也不是很大。
I. 次梯度算法怎样通过迭代方式求出最优值
次梯度算法怎样通过迭代方式求出最优值
在网络分层结构中,各层之间是严格单向依赖的。“服务”是描述各层之间关系的抽象概念,即网络中各层向紧邻上层提供的一组操作。下层是服务提供者,
上层是请求服务的用户。服务的表现形式是原语(primitive),如系统调用或库函数。系统调用是操作系统内核向网络应用程序或高层协议提供的服务原
语。网络中的n层总要向n+1层提供比n-1层更完备的服务,否则n层就没有存在的价值。
J. 张凯的发表研究与教学论文
1 Optimal well placement using an adjoint gradient. Journal of Petroleum Science and Engineering[J], 73(3-4). SCI. EI;1 油藏生产优化理论研究[J].石油学报.2010,Vol.31(1).EI;1 Optimal Control for Reservoir Proction Working System Using Gradient-based methods[C]. ISA2010,2010.EI;1 水驱注采高效开发策略优化[J].系统工程理论与实践,2010,Vol.30(8).EI;1 Dynamic Real-time Optimization of Reservoir Proction. Journal of Computers. 2011, Vol.6(3). EI;1 Screening and evaluation of preponderant reserves in oil or gas fields. ICCIS 2010. EI;1 埕岛油田6A+B区块油藏动态优化方法研究[J].中国石油大学学报(自然版),2009,vol.33(6).EI;1 聚合物驱垂直井筒流动和视粘度模型[J].中国石油大学学报(自然版),2007,vol.31(3). EI;1 稠油油井幂律流体流动视黏度模型[J].石油勘探与开发,2007,Vol.34(5):616-621. EI;1 油田智能生产管理技术[J].油气田地面工程,2009,Vol.28 (12);1 油藏动态实时监测与调控[J].石油矿场机械,2010,Vol. 39(4);1 稠油流变特性实验研究[J].油气地质与采收率,2007,Vol.14(5);1 应用支持向量机方法预测砾石充填防砂井产能[J].石油天然气学报,2006,Vol.18(6);1 抽油机井管理系统[J].油气田地面工程,2005,Vol.24(1);1 聚合物驱垂直井筒幂律流体流动[C],2006年高含水期油藏提高采收率技术国际研讨会会议论文;1 渗流力学双语教学实践探讨[J], 现代企业教育,2010, Vol.361(7);2 油藏自动历史拟合方法研究现状与展望[J].油气地质与采收率,2010,Vol.17(4);2 高压静电聚结器设计、实验及现场应用[J].高电压技术,2010,Vol.36(8), EI;2 高强电场中液滴静电运动特性[J], 石油学报, 2011, Vol32(3), EI;3 智能井技术研究现状与技术展望[J],石油钻探技术, 2007,Vol.14(6);2 大时滞非线性网络控制系统的保成本控制.第三十届中国控制会议. 烟台, 2011,EI;2 不确定非线性时滞系统的非脆弱保成本控制.计算机工程与应用, 2011, Vol.47(24);3 考虑约束条件的油藏生产优化[J]. 中国石油大学学报,2012,Vol.36(2);3 三重介质油藏非牛顿液不稳定渗流压力变化特征研究[J].中外能源,2006,Vol.11(2);3 变渗透率模量与双重孔隙介质的压力敏感性. 中国石油大学学报,2010,Vol.34(3), EI;3 Effect of alkanolamide on interfacial tension and loss of petroleum sulfonates for enhanced oil recovery[J]. Journal of Dispersion Science and Technology. 2010, Vol.6.SCI,EI;3 Well Test Interpretation Model on Power-law Non-linear Percolation Pattern in Low-permeability Reservoirs. SPE, 2010, 132271, EI;4 利用双种群遗传算法进行数值试井自动拟合[J]. 油气地质与采收率,2007, Vol.14(2);4 考虑渗透率张量的非均质油藏有限元数值模拟方法.计算物理,2010,Vol.27(5):692-698, EI;4 水平井流线数值试井解释模型及应用. 新疆石油地质,2010,Vol.31(4);4 裂缝性油藏等效渗透率张量计算及表征单元体积研究.水动力学研究与进展,2010,Vol.25(1);4 基于流线EnKF油藏自动历史拟合研究[J].石油学报,2011, Vol.32(3),EI;4 流线EnKF与常规EnKF油藏参数估计的对比分析[C], 第十一届全国渗流力学学术会议暨国际渗流力学研讨会,2011.;4 Theoretical research on Reservoir Closed-loop Proction Management[J]. SCIENCE CHINA Technological Sciences, 2011, Vol54(10). SCI,EI;4 考虑二次梯度项低渗透油藏水平井压力动态分析[J]. 石油学报,2011, Vol.32(3)。