We study the asymptotic behavior of second-order algorithms mixing Newton's method and inertial gradient descent in non-convex landscapes. We show that, despite the Newtonian behavior of these methods, they almost always escape strict saddle points. We also evidence the role played by the hyper-parameters of these methods in their qualitative behavior near critical points. The theoretical results are supported by numerical illustrations.


翻译:我们研究了将牛顿的方法和惯性梯度下降混合到非康韦克斯地貌中的二等算法的无症状行为。我们发现,尽管牛顿人有这些方法,但它们几乎总能逃脱严格的马鞍点。我们还证明了这些方法的超参数在接近临界点的定性行为中的作用。理论结果有数字插图支持。

0
下载
关闭预览

相关内容

在数学中,鞍点或极大极小点是函数图形表面上的一点,其正交方向上的斜率(导数)都为零,但它不是函数的局部极值。鞍点是在某一轴向(峰值之间)有一个相对最小的临界点,在交叉轴上有一个相对最大的临界点。
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Optimization for deep learning: theory and algorithms
Arxiv
106+阅读 · 2019年12月19日
Arxiv
3+阅读 · 2017年12月1日
VIP会员
相关资讯
Top
微信扫码咨询专知VIP会员