attention是什么(attention翻译)

Attention(注意力)是一种在自然语言处理和相关领域中广泛应用的机制,具有以下特点和作用:

在 Transformer 模型中,注意力头是一种“回顾”token 序列(即迄今为止产生的文本)的方式,并将“过去的内容”以有助于找到下一个 token 的形式打包。它允许“关注”甚至更早的单词,从而潜在地“捕获”和利用先前的词,例如动词可以引用在它们之前许多个单词的名词。 注意力机制允许文本模型在决定如何翻译输出句子中的单词时“查看”原始句子中的每一个单词。通过观察成千上万的训练数据,模型学会在每个时间步长中应该“注意”哪些单词,学会遵守词语的语法规则等。 注意力头所做的是重新组合与不同 token 相关的嵌入向量中的块,带有某些权重。经过注意力头处理后,生成的“重新加权嵌入向量”会通过标准的“全连接”神经网络层传递。

0
分享到:
没有账号? 忘记密码?