0sc8_ 1级新秀
私信
勾搭
0sc8_
0sc8_

2022-05-24

为什么Transformer要用LayerNorm?

其实已经有一个相似的问题在很早之前提出过了。transformer 为什么使用 layer normalization,而不是其他的归一化方法? 这里我狗尾续貂,总结下看到的论文和一些知友的观点。如果有错请一定指出。 PS:我还在努力找

[查看全部]

个人资料

未知领域 来自火星

https://www.optbbs.com/?6048

这家伙很懒,什么都没有留

...

给TA的留言

返回顶部