新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事(架构变化是什么意思)

AIGC动态欢迎阅读

原标题:新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事

关键字:注意力,模型,矩阵,状态,线性

文章来源:量子位

内容字数:0字

内容摘要:

梦晨 发自 凹非寺量子位 | 公众号 QbitAITransformer挑战者、新架构Mamba,刚刚更新了第二代:

Mamba-2,状态空间扩大8倍,训练速度提高50%!

更重要的是,团队研究发现原来Transformer和状态空间模型(SSM)竟然是近亲??‍

两大主流序列建模架构,在此统一了。

没错,这篇论文的提出的重磅发现:Transformer中的注意力机制与SSM存在着非常紧密的数学联系。

团队通过提出一个叫结构化状态空间二元性(Structured State Space Duality,SSD)的理论框架,把这两大模型家族统一了起来。

Mamba一代论文年初被ICLR拒稿,当时还让许多学者集体破防,引起一阵热议。

这次二代论文在理论和实验上都更丰富了,成功入选ICML 2024。

作者依然是Albert Gu和Tri Dao两位。

他们透露,论文题目中“Transformers are SSMs”是致敬了4年前的线性注意力经典论文“Transformers are RNNs”。

那么,SSM和注意力机制究竟是怎么联系起来的,Mamba-2模型层面又做出哪些改进?

统一S

原文链接:新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业新突破

0
分享到:
没有账号? 忘记密码?