MoE 高效训练的 A/B 面:与魔鬼做交易,用「显存」换「性能」(mob1a)

AIGC动态欢迎阅读

原标题:MoE 高效

训练的 A/B 面:与魔鬼做交易,用「显存」换「性能」

关键字:模型,架构,参数,报告

,高效

文章来源:AI科技评论

内容字数:13708字

内容摘要:

在高效训练与高显存占用之间横跳的 MoE,更像是一门妥协的艺术。作者|房晓楠

编辑|陈彩娴

MoE 会成为未来大模型训练的新方向吗?

这是人们发现 MoE 架构可以用于大模型训练、推理后,发出的一声疑问。

MoE(Mixture of Experts),又称「混合专家」,本质是一种模块化的稀疏激活。怎么理解?

当前的大模型主要分为稠密(dense)模型与稀疏(sparse)模型,两者的区别主要在于模型进行计算时,被调用的参数数量,参数全部生效使用的是稠密模型,比如OpenAI

从第一代到第三代即 GPT-1、 GPT-2、 GPT-3,以及 Meta 的 Llama 系列都是稠密模型;只使用其中一部分参数的是稀疏模型,比如基于 MoE 架构的模型,而这些被使用的参数称为「激活参数」。

具体从网络结构来看,目前主流的大模型大都是基于 Transformer 架构,由多个 Transformer Block 叠加组成,在每一个 Transformer Block 内部都会包括两层结构,一层是多头自注意力(Multi-Head Self-Attention),另一层是位置前馈神经网络(Po

原文链接:MoE 高效训练的 A/B 面:与魔鬼做交易,用「显存」换「性能」

联系作者

文章来源:AI科技评论

作者微信:aitechtalk

作者简介:雷峰网旗下AI新媒体。聚焦AI前沿研究,关注AI工程落地。

0
分享到:
没有账号? 忘记密码?