The Shaped Transformer:无限深度和宽度限制下的注意力模型(transformer注意力机制代码怎么修改)

The Shaped Transformer: Attention Models in the Infinite Depth-and-Width Limit

L Noci, C Li, M B Li, B He, T Hofmann, C Maddison, D M. Roy

[ETH Zurich & University of Toronto & University of Oxford]

The Shaped Transformer:无限深度和宽度限制下的注意力模型

动机:随着Transformer模型的成功,本文研究了一个修改过的基于Softmax的注意力模型在无限深度和宽度比例限制下的协方差矩阵。目标是通过对应的随机微分方程(SDE)来检查网络的稳定性。 方法:修改了Transformer的注意力机制,使得Softmax输出在identity里居中,并通过一个与宽度相关的温度参数来缩放Softmax logits。通过模拟证明了SDE对应的有限大小模型的描述非常准确。 优势:这种修改的注意力机制成功地防止了协方差结构的退化,这是深度注意力模型中的一个著名问题。此外,这种方法还提供了对网络超参数如何影响协方差矩阵的理解。

通过修改Transformer的注意力机制,并通过随机微分方程(SDE)来检查网络的稳定性,成功防止了协方差结构的退化,这是深度注意力模型中的一个著名问题。

论文:https://arxiv.org/abs/2306.17759 

The Shaped Transformer:无限深度和宽度限制下的注意力模型

0
分享到:
没有账号? 忘记密码?