听众
收听
2022-05-24
其实已经有一个相似的问题在很早之前提出过了。transformer 为什么使用 layer normalization,而不是其他的归一化方法? 这里我狗尾续貂,总结下看到的论文和一些知友的观点。如果有错请一定指出。 PS:我还在努力找
未知领域 来自火星
https://www.optbbs.com/?6048
这家伙很懒,什么都没有留
...
更多>
留言