华为最新研究挑战Scaling Law（华为的研究）

原标题：华为

最新研究挑战Scaling Law

关键字：函数,模型,华为,能量,记忆

文章来源：量子位

内容字数：4649字

克雷西发自凹非寺量子位 | 公众号 QbitAI“Scaling Law不是万金油”——关于大模型表现，华为又提出了新理论。

他们发现，一些现象无法用Scaling Law来解释，进而开展了更加深入的研究。

根据实验结果，他们认为Transformer模型的成绩，与记忆力高度相关。

具体来说，他们发现Scaling Law的缺陷主要有这两种表现：

一是一些小模型的表现和大一些的模型相当甚至更好，如参数量只有2B的MiniCPM，表现与13B的Llama接近。

二是在训练大模型时，如果过度训练，模型表现不会继续增加，反而呈现出了U型曲线。

经过深入研究和建模，团队结合了Hopfield联想记忆模型，提出了大模型表现的新解释。

有人评价说，联想记忆是人类所使用的一种记忆方法，现在发现大模型也会用，可以说是AI理解力的跃迁。

不过需要指出的是，这项研究虽有挑战之意，但并非对Scaling Law的否定，而是对其局限性的客观思考和重要补充，同时作者对前者的贡献也做出了肯定。

构建全新能量函数作者首先进行了假设，提出了新的能量函数，并根据Transformer模型的分层结构，设计了全局能量函

文章来源：量子位

作者微信：QbitAI

作者简介：追踪人工智能新趋势，关注科技行业新突破