梯度下降法的神经网络容易收敛到局部最优,为什么应用广泛?

论坛 期权论坛 期权     
杨文超   2018-10-7 00:25   8882   9
分享到 :
0 人收藏

9 个回复

正序浏览
9#
Owl7firefly  1级新秀 | 2018-10-7 00:25:26 发帖IP地址来自
其实是分情况的,对于人类自己定义的知识集图谱内,存在比SGD更好的办法,AlphaZero就是一个例子,因为围棋的规则还有信息对于机器是完全透明公开的,所以它可以在短短时间内就超越前代经过人工训练的版本,甚至发现许多新的套路和招式(避开了陷入Local minimum的坑)。
然而在现实世界中,人们对于许多问题的信息并不是百分百清楚了解的,因为这些隐藏的未知信息,影响了我们的判断,也成为了让机器找到全局最优解的障碍,这种情况下,我们只能接受不完美,努力获取更多的信息.


个人认为,机器学习其实就是在大海捞针,以前我们人力有限,现在因为我们拥有近乎无限的计算力,所以可以,不同的区别在于,我们所处的海(问题领域)不尽相同,对于那些我们已知边界的海洋,我们是可以找到那一根针(最优解)的,而对于有的海洋,如同浩瀚宇宙一般无边无际的时候(受限于时间空间),我们所能做的就是找到一根最像针的物件作为我们的解。


SGD应用的广泛归根究底其实是我们还需要更努力的去探索这个世界
8#
匿名用户   | 2018-10-7 00:25:25 发帖IP地址来自
提示: 作者被禁止或删除 内容自动屏蔽
7#
肖乾江  1级新秀 | 2018-10-7 00:25:24 发帖IP地址来自
因为局部最优就能用了。如果有能够必然得到全局最优的优化算法,以现在的数据量和运算力,我认为大部分的表示学习的问题基本都解决了,剩下的就是逻辑推理算法怎么走向通用智能的问题了。可惜的是现在还没有
6#
FortyTwo  4级常客 | 2018-10-7 00:25:23 发帖IP地址来自
加个蒙特卡洛不行么
5#
Galois  2级吧友 | 2018-10-7 00:25:22 发帖IP地址来自
先别管是不是局部最优了,至少他是全局收敛的,仅凭这一点就已经胜过很多优化算法了。你再去找一个收敛性不依赖初值的算法过来,估计他也能流形起来。
4#
风生水起大水比  2级吧友 | 2018-10-7 00:25:21 发帖IP地址来自
额。。个人觉得因为简单,好实现。。所谓的全局最优很难得,太理想化了。
3#
第七质子  2级吧友 | 2018-10-7 00:25:20 发帖IP地址来自
实际上我们连local minima 都没有达到过,更别说global了。。。
2#
匿名用户   | 2018-10-7 00:25:18 发帖IP地址来自
提示: 作者被禁止或删除 内容自动屏蔽
1#
KizW  2级吧友 | 2018-10-7 00:25:17 发帖IP地址来自
先不管他是能不能局部最优,至少当初gd从凸优化过来,人家确实想找个最优解。而且mit那个deep learning那个书前面讲了好多怎么跳出saddle points,怎么跳出局部最优的吗。
就算你找到了个算法,能达到全局最优,但是你实际问题上不好用,因为问题本身有随机性,模型本身存在误差,另外你那个数据集不能包含整个问题空间的所有情况。就像比如一个人男生找女朋友,结果次次被骗,那么他就学习到了女生都是骗子,所以实际训练出来的网络可能是个喷子。好多算法模型确实是凸的,所以能找到全局最优解,但实际上工程师们不喜欢全局最优解,所以会搞个正则化项在模型里。
从数学的角度来讲,数值优化确实想找到最优解,但是大家发现挺难找的。但从机器学习的角度来讲,我们一开始就不想要最优解,当然要是我们有无限的数据量,无限的计算能力,那么我们肯定也想要最优解啊。类似的情况是机器人定位,现在传感器和控制器都有误差,最早用determinate的模型效果很差,现在在模型里人为引入误差,反而定位定的很准。反正做计算机别和做数学的混到一起了,管你数学上的性质有多好,解决不了问题都白扯。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:
帖子:
精华:
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP