斯坦福提出大模型最强架构TTT,超越Transformers(斯坦福机器人dh参数)

AIGC动态欢迎阅读

原标题:斯坦福提出大模型

最强架构TTT,超越Transformers

关键字:梯度,模型,上下文,线性,文本

文章来源:夕小瑶科技说

内容字数:0字

内容摘要:

夕小瑶科技说 原创作者 | 谢年年在Transformer被提出以前,以LSTMs为代表的RNNs网络结构由于计算简单、擅长处理序列数据常被用作NLP领域的基础架构。但受其结构限制,RNNs容易出现梯度消失和梯度爆炸问题,也无法像Transformer那样进行缩放或有效地利用长上下文。而自注意力机制则擅长处理长文本,但它计算起来有些复杂,复杂度跟数据长度的平方成正比。

最近,来自Stanford的团队设计了一种新的序列建模层——测试时训练(Learn at Test Time)(TTT)层。这个层既保持了线性复杂度的好处,又让隐藏状态变得更加强大和灵活。TTT受自监督学习启发,把隐藏状态本身变成一个小型的机器学习模型,然后每次处理新数据时,都用自监督学习的方式来更新这个模型。这样,隐藏状态就能不断学习和进步,就像我们人类在学习新知识一样。

论文标题:Learning to (Learn at Test Time): RNNs with Expressive Hidden States

论文链接:https://arxiv.org/pdf/2407.04620

作者测试了从125M到1.

原文链接:斯坦福提出大模型最强架构TTT,超越Transformers

联系作者

文章来源:夕小瑶科技说

作者微信:xixiaoyaoQAQ

作者简介:专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员,覆盖500多家海内外机构投资人,互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备敏锐的行业嗅觉和洞察深度。商务合作:zym5189

0
分享到:
没有账号? 忘记密码?