梯度下降法
梯度下降法(英語:Gradient descent)是一种求解无约束最优化问题的一阶迭代最优化算法,它被用来求得可微函数的局部极小值,通常也称为最陡下降法,但是不該與近似積分的最陡下降法(英語:Method of steepest descent)混淆。 要使用梯度下降法找到一个函数的局部极小值,必须向函数上当前点对应梯度(或者是近似梯度)的反方向的规定步长距离点进行迭代搜索,因为这是最陡下降的方向。如果相反地向梯度正方向迭代进行搜索,则会接近函数的局部极大值点,这个过程则被称为梯度上升法。梯度下降法在机器学习中对于成本的最小化或损失函数的最小化都特别有用。[1]梯度下降法不应与局部搜索算法(英語:local search algorithms)相混淆,尽管两者都是迭代最优化算法。
梯度下降法通常被认为是奧古斯丁-路易·柯西(法語:Augustin-Louis Cauchy)在1847年首次提出的。[2]雅克·所罗门·阿达马(法語:Jacques Solomon Hadamard)在1907年独立提出了一个类似的方法。[3][4]哈斯凯尔·柯里(英語:Haskell Brooks Curry)在1944年首先研究了该方法对非线性优化问题的收敛性[5];在随后的几十年里,该方法得到了越来越多的研究和使用。[6] [7]
随机梯度下降法(英語:stochastic gradient descent)作为梯度下降法的一个简单延展,是目前用于训练大多数深度学习结构(英語:deep networks)的最基本的算法。
描述
[编辑]
梯度下降方法基于以下的观察:如果实值函数在点处可微且有定义,那么函数在点沿着梯度相反的方向 下降最多。
因而,如果
对于一個足够小数值時成立,那么。
考虑到这一点,我们可以从函数的局部极小值的初始估计出发,并考虑如下序列 使得
- 。
因此可得到
如果顺利的话序列收敛到期望的局部极小值。注意每次迭代步长可以改变。
右侧的图片示例了这一过程,这里假设定义在平面上,并且函数图像是一个碗形。蓝色的曲线是等高线(水平集),即函数为常数的集合构成的曲线。红色的箭头指向该点梯度的反方向。(一点处的梯度方向与通过该点的等高线垂直)。沿着梯度下降方向,将最终到达碗底,即函数局部極小值的点。
例子
[编辑]梯度下降法处理一些复杂的非线性函数会出现问题,例如Rosenbrock函數
其最小值在处,数值为。但是此函数具有狭窄弯曲的山谷,最小值就在这些山谷之中,并且谷底很平。优化过程是之字形的向极小值点靠近,速度非常缓慢。
下面这个例子也鲜明的示例了"之字"的上升(非下降),这个例子用梯度上升(非梯度下降)法求的局部极大值(非局部极小值)。
缺点
[编辑]梯度下降法的缺點包括:[8]
- 靠近局部極小值时速度减慢。
- 直線搜索可能會產生一些問題。
- 可能會“之字型”地下降。
上述例子也已体现出了这些缺点。
参阅
[编辑]参考文献
[编辑]- ^ Boyd, Stephen; Vandenberghe, Lieven. Convex Optimization. Cambridge University Press. 2004-03-08. ISBN 978-0-521-83378-3. doi:10.1017/cbo9780511804441.
- ^ ((Lemaréchal, C.)). Cauchy and the gradient method (PDF). ((Grötschel, M.)) (编). Optimization Stories. Documenta Mathematica Series 6 1st. EMS Press. 1 January 2012: 251–254 [2020-01-26]. ISBN 978-3-936609-58-5. doi:10.4171/dms/6/27
. (原始内容 (PDF)存档于2018-12-29).
- ^ Hadamard, Jacques. Mémoire sur le problème d'analyse relatif à l'équilibre des plaques élastiques encastrées. Mémoires présentés par divers savants éstrangers à l'Académie des Sciences de l'Institut de France. 1908, 33.
- ^ Courant, R. Variational methods for the solution of problems of equilibrium and vibrations. Bulletin of the American Mathematical Society. 1943, 49 (1): 1–23. doi:10.1090/S0002-9904-1943-07818-4
.
- ^ Curry, Haskell B. The Method of Steepest Descent for Non-linear Minimization Problems. Quart. Appl. Math. 1944, 2 (3): 258–261. doi:10.1090/qam/10667
.
- ^ Polyak, Boris. Introduction to Optimization. 1987 (英语).
- ^ Akilov, G. P.; Kantorovich, L. V. Functional Analysis 2nd. Pergamon Press. 1982. ISBN 0-08-023036-9.
- ^ David W. A. Bourne. Steepest Descent Method. (原始内容存档于2009年2月10日) (英语).
- Mordecai Avriel (2003). Nonlinear Programming: Analysis and Methods. Dover Publishing. ISBN 0-486-43227-0.
- Jan A. Snyman (2005). Practical Mathematical Optimization: An Introduction to Basic Optimization Theory and Classical and New Gradient-Based Algorithms. Springer Publishing. ISBN 0-387-24348-8