从LLM中完全消除矩阵乘法，效果出奇得好，10亿参数跑在FPGA上接近大脑功耗（矩阵怎么消去无功相关的行）

AIGC动态欢迎阅读

原标题：从LLM中完全消除矩阵乘法，效果出奇得好，10亿参数跑在FPGA上接近大脑功耗

文章来源：机器之心

内容字数：0字

内容摘要：

机器之心报道

机器之心编辑部让语言模型「轻装上阵」。一直以来，矩阵乘法（MatMul）稳居神经网络操作的主导地位，其中很大原因归结为 GPU 专门针对 MatMul 操作进行了优化。这种优化使得 AlexNet 在 ILSVRC2012 挑战赛中一举胜出，成为深度学习崛起的历史性标志。

在这当中，有个值得注意的点是，AlexNet 利用 GPU 来提高训练速度，超越了 CPU 的能力，至此，GPU 的加入使得深度学习仿佛赢得了「硬件彩票」。尽管 MatMul 在深度学习中很流行，但不得不承认的是它占据了计算开销的主要部分，主要表现为 MatMul 在训练和推理阶段消耗大部分执行时间和内存访问。

目前为止，研究者已经开始借助其他更简单的操作替代 MatMul，主要有两种。

第一种策略是使用初等运算代替 MatMul，例如，在卷积神经网络 (CNN) 中，用有符号加法代替乘法；

第二种方法是使用二值或三值化量化，将 MatMul 值在累加之前要么翻转要么清零。比如脉冲神经网络 (SNN) 使用二值激活，而二值化网络 BNN 使用量化权重。

在语言建模方面，BitNet 等技术的出现表明量化

原文链接：从LLM中完全消除矩阵乘法，效果出奇得好，10亿参数跑在FPGA上接近大脑功耗