高级检索

  • ISSN 1006-3080
  • CN 31-1691/TQ
引用本文:
Citation:

带动量项的梯度下降算法的收敛性

    作者简介: 彭先伦(1995-),男,江西人,硕士生,主要研究计算数学。E-mail:13122330812@163.com;
    通讯作者: 谢纲, rpi1004@ecust.edu.cn
  • 中图分类号: O29

Convergence of Gradient Method with Momentum

    Corresponding author: XIE Gang, rpi1004@ecust.edu.cn
  • CLC number: O29

  • 摘要: 基于三层前馈神经网络的带动量项的反向传播算法进行了理论分析,学习率设置为常数,动量系数设置为一个适应性的变量来加速和稳定网络参数的训练过程。该模型在经过研究分析后得到了相应的收敛性结果并给出了详细的证明。相比于目前已有的结果,文中的结论更具有一般性。
  • [1] 赵澜涛, 林家俊. 基于双路CNN的多姿态人脸识别方法[J]. 华东理工大学学报(自然科学版), 2019, 45(3): 466-470.
    [2] 魏琛, 陈兰岚, 张傲. 基于集成神经网络的脑电情感识别[J]. 华东理工大学学报(自然科学版), 2019, 45(4): 612-644.
    [3] FINE T L, MUKHERJEE S. Parameter convergence and learning curves for neural networks[J]. Neural Computation, 1999, 11: 747-769. doi: 10.1162/089976699300016647
    [4] FINNOFF W. Diffusion approximations for the constant learning rate backpropagation algorithm and resistance to local minima[J]. Neural Computation, 1994, 6: 285-295. doi: 10.1162/neco.1994.6.2.285
    [5] RUMELHART D E, HINTON G E, WILLIAMS R J. Learning representations by back-propagating errors[J]. Nature, 1986, 323: 533-536. doi: 10.1038/323533a0
    [6] CREMA A, LORETO M, RAYDAN M. Spectral projected subgradient with a momentum term for the Lagrangean dual approach[J]. Computers and Operations Research, 2007, 34(10): 3174-3186. doi: 10.1016/j.cor.2005.11.024
    [7] ISTOOK E, MARTINEZ T. Improved back-propagation learning in neural networks with windowed momentum[J]. International Journal of Neural System, 2002, 12: 303-318. doi: 10.1142/S0129065702001114
    [8] ZWEIRI H, SENEVIRATNE L D, ALTHOEFER K. Stability analysis of a three-term backpropagation algorithm[J]. Neural Networks, 2005, 18: 1341-1347. doi: 10.1016/j.neunet.2005.04.007
    [9] PHANSALKAR V V, SASTRY P S. Analysis of the back- propagation algorithm with back-propagation algorithm with momentum[J]. IEEE T Neural Networks, 1994, 5(3): 505-506. doi: 10.1109/72.286925
    [10] QIAN N. On the momentum term in gradient descent learning algorithms[J]. Neural Networks, 1999, 12: 145-151. doi: 10.1016/S0893-6080(98)00116-6
    [11] BHAYA A, KASZKUREWICZ E. Steepest descent with momentum for quadratic functions is aversion of the conjugate gradient method[J]. Neural Networks, 2004, 17: 65-71. doi: 10.1016/S0893-6080(03)00170-9
    [12] TORII M, HAGAN M T. Stability of steepest descent with momentum for quadratic functions[J]. IEEE T Neural Networks, 2002, 13(3): 752-756. doi: 10.1109/TNN.2002.1000143
    [13] ZHANG N M, Wu W, ZHENG G F. Convergence of gradient method with momentum for two-layer feed-forward neural networks[J]. IEEE T Neural Networks, 2006, 17(2): 522-525. doi: 10.1109/TNN.2005.863460
    [14] Wu W, ZHANG N M, ZHENG L, et al. Convergence of gradient method with momentum for backpropagation neural networks[J]. Journal of Computational Mathematics, 2008, 26(4): 613-623.
    [15] GORI M, MAGGINI M. Optimal convergence of online back-propagation[J]. IEEE T Neural Networks, 1996: 251-254.
    [16] YUAN Y X, SUN W Y, Optimization Theory and Methods[M]. Beijing: Science Press, 2001.
  • 加载中
计量
  • 文章访问数:  423
  • HTML全文浏览量:  230
  • PDF下载量:  7
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-03-26
  • 网络出版日期:  2020-12-16

带动量项的梯度下降算法的收敛性

    作者简介:彭先伦(1995-),男,江西人,硕士生,主要研究计算数学。E-mail:13122330812@163.com
    通讯作者: 谢纲, rpi1004@ecust.edu.cn
  • 华东理工大学理学院,上海 200237

摘要: 基于三层前馈神经网络的带动量项的反向传播算法进行了理论分析,学习率设置为常数,动量系数设置为一个适应性的变量来加速和稳定网络参数的训练过程。该模型在经过研究分析后得到了相应的收敛性结果并给出了详细的证明。相比于目前已有的结果,文中的结论更具有一般性。

English Abstract

  • 前馈神经网络目前已经得到了广泛的应用[1-2],而反向传播算法则被广泛运用于神经网络训练中,并且它的收敛性也在[3-4]中得到过讨论。在反向传播算法中,经常会加入动量项来加速训练和让训练过程更稳定[5]。在有动量项的反向传播中,当前权重的更新量是损失函数对该权重参数的当前梯度与之前权重更新量的线性组合。

    许多学者对有动量项的反向传播算法(本文用BPM表示有动量项的反向传播算法)进行过研究[6-8],比如文献[9]中给出了动量反向传播算法的稳定性分析,结果表明BPM的稳定点就是平方误差损失的局部极小值,其他平衡点不稳定。Qian在[10]中也讨论过BPM,表明系统在局部极小点附近的行为等价于一组阻尼谐波振荡器,动量项是通过使系统的某些本征分量更接近临界阻尼来提高收敛速度。以上这些研究只是描述训练迭代过程在损失函数的局部极小值附近的行为,不能用于更一般的情况,比如随机选择初始权重。文献[11-12]中探讨了BPM的收敛性,研究中限制损失函数的梯度是关于权重的线性函数,并且文献[12]中学习率和动量系数甚至被限制为常数,在这些限制下,BPM的迭代过程稳定,其收敛性由迭代矩阵的特征值决定。但是,对于一般的激活函数比如Sigmoid函数,损失函数对权重的梯度不是线性函数。

    文献[13]中针对没有隐藏层的简单网络证明了BPM的全局收敛性。虽然这些结果对于任意给定的初始权重有效。但没限制损失函数的梯度是线性。文献[14]中证明了具有一个隐藏层的神经网络的BPM的全局收敛性,以上研究中网络结构没有考虑偏置项且输出层只有一个输出神经元。

    本文是对文献[14]中的结果的一个推广。本文所针对的神经网络具有一个隐藏层,但在网络结构中加入了偏置项,而且输出层可以具有任意个数的神经元,在不需要添加额外的假设的情况下,证明了BPM的全局收敛性。

    • 本文的动量反向传播算法模型,是一个具有三层神经元的BP神经网络,分别用$L$$M$$N$来表示该神经网络的输入、隐藏层以及输出层的神经元个数,设训练用的数据集为$\{ {\xi ^j},{O^j}\} _{j = 1}^J$,其中${\xi ^j} = (\xi _1^j,\xi _2^j, \cdots ,\xi _L^j) \in {R^L}$${O^j} = (O_1^j, O_2^j, \cdots ,O_N^j) \in {R^N}$;用${{V}} = {({v_{ij}})_{M \times L}}$来表示连接输入层与隐藏层的权重矩阵,用${{B}} = ({B_1},{B_2}, \cdots ,{B_M}) \in {R^M}$表示输入层与隐藏层之间的偏置向量,同样地,用${{W}} = {({w_{ij}})_{N \times M}}$$b = ({b_1},{b_2}, \cdots , {b_N}) \in {R^N}$来分别表示隐藏层与输出层之间的权重矩阵及偏置向量,此外,用${{{v}}_i} = ({v_{i1}},v{}_{i2}, \cdots ,{v_{iL}}) \in {R^L}(i = 1, \cdots ,M)$,${{{w}_i} = ({w}_{i1}},$$w{}_{i2}, \cdots ,{w_{iM}})\in {R^M}(i = 1, \cdots , N)$来表示权重矩阵${{V}}$${{W}}$的行向量;设$g:R \to R$为隐藏层及输出层所使用的激活函数,为了简便运算,我们引入一个关于$x = ({x_1},{x_2}, \cdots ,x{}_M) \in {R^M}$的向量函数:

      则隐藏层神经元的输出为$G(V\xi + B)$,而输出层的输出为:

      有了输出后就可以得到通常的平方损失为:

      考虑到只需在每个输入$\xi $末尾都添加一项1,则输入层与隐藏层间的偏置向量可以合并到输入层与隐藏层之间的权重矩阵而不影响结果,这里我们设:

      并重新令${{V}} = {({v_{ij}})_{M \times (L + 1)}}$为输入层与隐藏层之间的权重矩阵,其中

      则输出层的输出可以重新表示为:

      而网络的平方损失也可以重新表示为:

      $g_n^j(t) = \dfrac{1}{2}{(O_n^j - g(t))^2},j = 1, \cdots ,J,n = 1, \cdots ,N$

      对网络进行训练的目的就是要找出最优的解$({V^ * },{W^ * },{b^ * })$,使得:

      由式(7)可以得到损失函数关于$V,W,b$的导数分别为:

      当任意给定了初始权重及偏置${V^0}$${V^1}$${W^0}$${W^1}$${b^0}$${b^1}$时,BPM通过下面的式子对权重及偏置进行更新:

      其中$\eta \in (0,1)$是学习率,而${\gamma _{k,i}}$${\tau _{k,i}}$${\kappa _{k,i}}$则是动量系数,为了简化运算,引进下列符号:

      则式子(13)可以重新表示为:

      类似于文献[12],动量系数${\gamma _{k,i}}$${\tau _{k,i}}$${\kappa _{k,i}}$分别设置为:

      其中$\tau \in (0,1)$为动量因子,$ \Vert \cdot \Vert $为欧几里得范数。

    • 在第一节中我们介绍了本文研究的动量反向传播算法模型,在该模型中参数是通过动量梯度下降算法不断地进行迭代更新,而对于整个迭代过程的收敛性是需要进一步地研究,接下来会给出本文对于该模型的收敛性定理结论,在给出BPM的收敛性相关结论之前,我们先提出几个需要用到的假设,这些假设与文献[13]中一样:

      $(1)$ $\left| {g(t)} \right|$$\left| {g'(t)} \right|$$\left| {g''(t)} \right|$对任意$t \in R$都是一致有界的。

      $(2)$ $\left\| {w_i^k} \right\|(i = 1, \cdots ,N,k = 1,2, \cdots )$是一致有界的。

      $(3)$ 集合$\Omega $只有有限个元素:

      最为常用的激活函数Sigmoid函数是满足假设$(1)$的;假设$(2)$是为了保证式(25~28)的弱收敛性,而在文献[15]中也作出了一个类似假设$(2)$来解决非线性问题;假设$(3)$要求损失函数只有有限个局部极小值点,这是为了保证式(29~32)的强收敛性。有了假设$(1)$和假设$(2)$,我们很容易验证以下几条性质:

      (1)$\left\| {G(x)} \right\|$对于任意$x \in {R^M}$是有界的。

      (2)$\left\| {q_j^k} \right\|$$\left\| {p_i^k} \right\|$$\left\| {h{}_i^k} \right\|$都是一致有界的,其中$(j = 1, \cdots ,M,i = 1, \cdots ,N,k = 1,2, \cdots )$

      (3)$\left| {g_n^j(t)} \right|$$\left| {g{{_n^j}^\prime }(t)} \right|$$\left| {g{{_n^j}^{\prime \prime }}(t)} \right|$对于任意$t \in R$也都是一致有界的,其中$(n = 1, \cdots ,N,j = 1, \cdots ,J)$

      定理2.1是主要结论。

      定理1 如果假设$(1)$$(2)$是成立的,则存在常数${C^ * } > 0$${E^ * } \geqslant 0$使得当$\tau = s\eta $以及$\eta < \min \left\{ { 1,\dfrac{{1 - s}}{{{C^ * }[(1 + s)(3 + 2s + {s^2}) + {{(2 + s + {s^2})}^2}]}}} \right\}$$( 0 < s < 1)$时,下面的结果对于迭代过程即式子(13)都是成立的:

      此外,如果假设$(3)$也是成立的,则迭代过程式(13)会收敛到临界点$({V^ * },{W^ * },{b^ * })$

    • 接下来我们给出对于定理1的详细证明过程,为了简化证明,引进下列符号:

      接下来我们提出几个有用的引理:

      引理1:

      证明:由式(13)和(35)可知:

      引理2

      其中,${\widehat t_{k,m,j}}$$ {v}_{m}^{k} \cdot {\zeta }^{j}$$ {v}_{m}^{k+1} \cdot {\zeta }^{j}$之间。

      证明:利用泰勒公式,可知:

      其中,${\widehat t_{k,m,j}}$$ {v}_{m}^{k} \cdot {\zeta }^{j}$$ {v}_{m}^{k+1} \cdot {\zeta }^{j}$之间,则利用式(37)及式(13)可得:

      引理3

      其中${\widehat t_{k,m,j}}$$ {v}_{m}^{k} \cdot {\zeta }^{j}$$ {v}_{m}^{k+1} \cdot {\zeta }^{j}$之间,${t_{k,j,n}}$$\psi _n^{k + 1,j} + b_n^{k + 1}$$\psi _n^{k,j} + b_n^k$之间。

      证明:利用泰勒展开可得:

      其中${t_{k,j,n}}$$\psi _n^{k + 1,j} + b_n^{k + 1}$$\psi _n^{k,j} + b_n^k$之间;

      再结合引理1及2可知:

      引理4:如果假设$(1)$$(2)$成立,则存在常数${C_0} > 0$使得:

      证明:令$ {\phi }_{k,m,j}=g({v}_{m}^{k+1} \cdot {\zeta }^{j})-g({v}_{m}^{k} \cdot {\zeta }^{j})$,则$\left\| {{G^{k + 1,j}} - }{G^{k,j}} \right\| = {\left( {\displaystyle\sum\limits_{m = 1}^M {\varphi _{k,m,j}^2} } \right)^{ {{\frac{1}{2}}}}}$,再由式(37)可知:

      结合所给假设易知存在常数${C_1} > 0$使得:

      由式(14)及式(22)可知:

      又由于$\left\| {q_m^k} \right\|$是一致有界的,故存在${C_2} > 0$使得故存在${C_2} > 0$使得$\left\| {q_m^k} \right\| \leqslant {C_2},m = 1, \cdots ,M,k = 1,2, \cdots $,因此:

      结合式(41)及式(42)并令${C_0} = \max \{ {C_1},2{C_1}{C_2}\} $可得:

      由此即得:

      引理5:如果假设$(1)$$(2)$成立,则存在常数${C^ * } > 0$使得:

      证明:由式(17)及式(21)可得:

      要证明式(46),令:${C_3} = \max \left\{ {\left\| {{\zeta ^1}} \right\|,\left\| {{\zeta ^2}} \right\|, \cdots ,\left\| {{\zeta ^J}} \right\|} \right\}$,则:

      再由于假设$(1)$$(2)$成立,故存在${C_4} > 0$使得:

      其中,${C_5} = JN{C_4}C_3^2$

      再证式(47),由前面根据假设分析得到的第三条性质可知,存在${C_6} > 0$

      再根据式(20)可知:

      再由引理3可得:

      其中${C_7} = \dfrac{1}{2}J{C_0}{C_6}N$

      接下来证明式(48),由于:

      由前面根据假设分析得到的第一条性质可知,存在${C_8} > 0$使得:

      此外,由假设$(2)$及引理3可知,存在${C_9} > 0$使得:

      因此:

      再根据前面假设分析得到的第三条性质可知存在${C_{10}} > 0$使得:

      其中${C_{11}} = \max \{ 2{C_{10}}JC_8^2,2{C_{10}}JNC_9^2C_0^2\} $

      最后证明式(49),根据前面假设分析得到的第三条性质可知存在${C_{12}} > 0$使得:

      而:

      因此:

      其中${C_{13}} = 2J{C_{12}}$

      最后令${C^ * } = \max \{ {C_5},{C_7},{C_{11}},{C_{13}}\} $即得到引理5。

      引理6:如果假设$(1)$$(2)$成立,则对于迭代过程式(13),下面不等式成立:

      其中:

      ${C^ * }$为引理5中所定义的常数;

      证明:由于$\left|{\tau }_{k,n}{p}_{n}^{k} \cdot \Delta {w}_{n}^{k}\right|\leqslant \tau {\Vert {p}_{n}^{k}\Vert }^{2}$,并且:

      因此,由引理3及引理5可知:

      引理7[16])令$f:{R^n} \to R$是连续可微的,并假设集合$\Omega = \{ x\left| {{f_x}} \right.(x) = 0\} $中的元素个数是有限的,则如果序列$\{ {x^k}\} $满足:

      那么:

      在有了这些引理之后,接下来就可以完成对定理1的全部证明:

      $\tau = s\eta $$\eta < \min \left\{ { 1,\dfrac{{1 - s}}{{{C^ * }[(1 + s)(3 + 2s + {s^2}) + {{(2 + s + {s^2})}^2}]}} } \right\}$时,

      由于$\eta < 1,0 < s < 1,$$\alpha $$\;\beta$$\;\chi$均大于0;因此由引理5可知序列$E({V^k},{W^k},{b^k})$是单调递减的,又因$E({V^k},{W^k},{b^k})$是非负的,因此存在${E^ * } \geqslant 0$使得:$\mathop {\lim }\limits_{k \to \infty } E({V^k},{W^k},{b^k}) = {E^ * }$,则由引理6及式(17~19)可知:

      因此:

      最后,由式子(14—16),(42),(50),(51)及(52—54)可得:

      再结合引理7以及式(55)即可得到式(29~32);综上本文就完成了对定理2.1的全部证明。

    • 本文通过对动量反向传播算法模型进行理论分析,得出了相比目前已有的结果更具一般性的结论,即对于一个拥有偏置项的三层的神经网络,而即使对其输出层神经元的个数不加限制,那么在几个简单而必要的假设下,该动量反向传播算法模型的训练迭代过程是可以收敛的,并且模型参数值也可以收敛到临界点。

参考文献 (16)

目录

    /

    返回文章