梯度下降法的神经网络容易收敛到局部最优，为什么应用广泛？

KizW · 2018-10-7 00:25:17

先不管他是能不能局部最优，至少当初gd从凸优化过来，人家确实想找个最优解。而且mit那个deep learning那个书前面讲了好多怎么跳出saddle points，怎么跳出局部最优的吗。
就算你找到了个算法，能达到全局最优，但是你实际问题上不好用，因为问题本身有随机性，模型本身存在误差，另外你那个数据集不能包含整个问题空间的所有情况。就像比如一个人男生找女朋友，结果次次被骗，那么他就学习到了女生都是骗子，所以实际训练出来的网络可能是个喷子。好多算法模型确实是凸的，所以能找到全局最优解，但实际上工程师们不喜欢全局最优解，所以会搞个正则化项在模型里。
从数学的角度来讲，数值优化确实想找到最优解，但是大家发现挺难找的。但从机器学习的角度来讲，我们一开始就不想要最优解，当然要是我们有无限的数据量，无限的计算能力，那么我们肯定也想要最优解啊。类似的情况是机器人定位，现在传感器和控制器都有误差，最早用determinate的模型效果很差，现在在模型里人为引入误差，反而定位定的很准。反正做计算机别和做数学的混到一起了，管你数学上的性质有多好，解决不了问题都白扯。

匿名用户 · 2018-10-7 00:25:18

提示: 作者被禁止或删除内容自动屏蔽

第七质子 · 2018-10-7 00:25:20

实际上我们连local minima 都没有达到过，更别说global了。。。

风生水起大水比 · 2018-10-7 00:25:21

额。。个人觉得因为简单，好实现。。所谓的全局最优很难得，太理想化了。

Galois · 2018-10-7 00:25:22

先别管是不是局部最优了，至少他是全局收敛的，仅凭这一点就已经胜过很多优化算法了。你再去找一个收敛性不依赖初值的算法过来，估计他也能流形起来。

FortyTwo · 2018-10-7 00:25:23

加个蒙特卡洛不行么

肖乾江 · 2018-10-7 00:25:24

因为局部最优就能用了。如果有能够必然得到全局最优的优化算法，以现在的数据量和运算力，我认为大部分的表示学习的问题基本都解决了，剩下的就是逻辑推理算法怎么走向通用智能的问题了。可惜的是现在还没有

匿名用户 · 2018-10-7 00:25:25

提示: 作者被禁止或删除内容自动屏蔽

Owl7firefly · 2018-10-7 00:25:26

其实是分情况的，对于人类自己定义的知识集图谱内，存在比SGD更好的办法，AlphaZero就是一个例子，因为围棋的规则还有信息对于机器是完全透明公开的，所以它可以在短短时间内就超越前代经过人工训练的版本，甚至发现许多新的套路和招式(避开了陷入Local minimum的坑)。
然而在现实世界中，人们对于许多问题的信息并不是百分百清楚了解的，因为这些隐藏的未知信息，影响了我们的判断，也成为了让机器找到全局最优解的障碍，这种情况下，我们只能接受不完美，努力获取更多的信息.

个人认为，机器学习其实就是在大海捞针，以前我们人力有限，现在因为我们拥有近乎无限的计算力，所以可以，不同的区别在于，我们所处的海（问题领域）不尽相同，对于那些我们已知边界的海洋，我们是可以找到那一根针（最优解）的，而对于有的海洋，如同浩瀚宇宙一般无边无际的时候（受限于时间空间），我们所能做的就是找到一根最像针的物件作为我们的解。

SGD应用的广泛归根究底其实是我们还需要更努力的去探索这个世界

梯度下降法的神经网络容易收敛到局部最优，为什么应用广泛？

9 个回复

浏览过的版块