非Transformer架构新模型爆火,从第一性原理出发,MIT CSAIL衍生团队打造(c#非模态窗口)

AIGC动态欢迎阅读

原标题:非Transformer架构模型爆火,从第一性原理出发,MIT CSAIL衍生团队

打造

关键字:模型,人工智能,架构,团队,神经网络

文章来源:量子位

内容字数:0字

内容摘要:

西风 发自 凹非寺量子位 | 公众号 QbitAI挑战Transformer,MIT初创团队推出LFM(Liquid Foundation Model)新架构模型爆火。

LFM 1.3B、LFM 3B两个不同大小的模型,性能超越同等规模Llama3.2等Transformer模型。

LFM架构还有很好的可扩展性,团队还推出了基于MoE的LFM 40B(激活12B参数),能与更大规模的密集模型或MoE模型相媲美。

LFM用的是一种液态神经网络(LNN),从第一性原理出发而构建,其计算单元植根于动态系统理论、信号处理和数值线性代数。

这种架构还有一个特点:在内存效率方面特别强。

基于Transformer的LLM中的KV缓存在长上下文中会急剧增长,而LFM即使在处理100万个token时也能保持内存最小。

小巧便携,使得它能够直接部署在手机上进行文档和书籍等分析。

LFM模型背后是一支MIT计算科学与人工智能实验室衍生出来的小团队,名叫Liquid AI。

其后训练负责人Maxime Labonne在X上为自家模型疯狂打Call:

这三个具有SOTA性能的模型,是我职业生涯中最值得骄傲的版

原文链接:非Transformer架构新模型爆火,从第一性原理出发,MIT CSAIL衍生团队打造

联系作者

文章来源:量子位

作者微信:

作者简介:

0
分享到:
没有账号? 忘记密码?