英伟达nGPT重塑Transformer,AI训练速度暴增20倍!文本越长,加速越快(英伟达重放)

AIGC动态欢迎阅读

原标题:英伟达nGPT重塑Transformer,AI训练速度暴增20倍!文本越长,加速越快

关键字:向量,矩阵,模型,球面,注意力

文章来源:新智元

内容字数:0字

内容摘要:

新智元报道编辑:桃子 LRS

【新智元导读】LLM训练速度还可以再飙升20倍!英伟达团队祭出全新架构归一化Transformer(nGPT),上下文越长,训练速度越快,还能维持原有精度。AI的未来,或许就此改写……

最近,英伟达团队抛出的一枚重磅炸弹,提出了全新神经网络架构——归一化Transformer(nGPT),基于超球面(hypersphere)进行表示学习。

相较于Transformer架构本身,nGPT直接将LLM训练速度提升至高20倍,而且还保持了原有精度。

也就意味着,原本需要一个月完成的训练,在未来可能只需1-2天的时间就能搞定。

无疑为通向AGI终极目标,注入了一针强心剂!

论文地址:https://arxiv.org/pdf/2410.01131

在nGPT中,所有的向量(嵌入、MLP、注意力矩阵、隐藏状态),都被归一化为单位范数(unit norm)。

输入后的token在超球面表面上移动,每一层都通过「位移」来贡献最终的输出预测,其中位移量是由MLP和注意力模块进行定义的,其向量组件都位于同一个超球面上。

实验表明,nGPT达到相同精度所需的训练步骤

原文链接:英伟达nGPT重塑Transformer,AI训练速度暴增20倍!文本越长,加速越快

联系作者

文章来源:新智元

作者微信:

作者简介:

0
分享到:
没有账号? 忘记密码?