Mamba真比Transformer更优吗?Mamba原作者:两个都要!混合架构才是最优解(madame翻译)

AIGC动态欢迎阅读

原标题:Mamba真比Transformer更优吗?Mamba原作者:两个都要!混合架构

才是最优解

关键字:模型,报告,任务,架构,电话簿

文章来源:新智元

内容字数:0字

内容摘要:

新智元报道编辑:乔杨

【新智元导读】Mamba模型由于匹敌Transformer的巨大潜力,在推出半年多的时间内引起了巨大关注。但在大规模预训练的场景下,这两个架构还未有「一较高低」的机会。最近,英伟达、CMU、普林斯顿等机构联合发表的实证研究论文填补了这个空白。去年12月,CMU、普林斯顿的两位华人学者Albert Gu和Tri Dao一举推出了Mamba架构,向Transformer多年的霸主地位发起挑战。

论文地址:https://arxiv.org/abs/2312.00752

完全抛弃注意力机制和MLP模块、上下文长度线性缩放、推理速度比Transformer快5倍…这些特点让所有人都为之一振,Jim Fan大佬也发推赞叹「为推翻Transformer的研究感到兴奋」。

论文发表后的6个月中,两位作者发现,虽然Mamba很强大,但是大家依旧更关注各种Transformer的变体。

毕竟整个学术社区在注意力机制上深耕多年,从模型、标准库到算子、GPU,此时完全抛弃之前的研究、转向Mamba的SSM不太现实,也让Mamba架构显得非常格格不入。

于是,我们看到Mamba-2的论

原文链接:Mamba真比Transformer更优吗?Mamba原作者:两个都要!混合架构才是最优解

联系作者

文章来源:新智元

作者微信:AI_era

作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

0
分享到:
没有账号? 忘记密码?