英伟达nGPT重塑Transformer，AI训练速度暴增20倍！文本越长，加速越快（英伟达重放）

原标题：英伟达nGPT重塑Transformer，AI训练速度暴增20倍！文本越长，加速越快

文章来源：新智元

内容字数：0字

新智元报道编辑：桃子 LRS

【新智元导读】LLM训练速度还可以再飙升20倍！英伟达团队祭出全新架构归一化Transformer（nGPT），上下文越长，训练速度越快，还能维持原有精度。AI的未来，或许就此改写……

最近，英伟达团队抛出的一枚重磅炸弹，提出了全新神经网络架构——归一化Transformer（nGPT），基于超球面（hypersphere）进行表示学习。

相较于Transformer架构本身，nGPT直接将LLM训练速度提升至高20倍，而且还保持了原有精度。

也就意味着，原本需要一个月完成的训练，在未来可能只需1-2天的时间就能搞定。

无疑为通向AGI终极目标，注入了一针强心剂！

论文地址：https://arxiv.org/pdf/2410.01131

在nGPT中，所有的向量（嵌入、MLP、注意力矩阵、隐藏状态），都被归一化为单位范数（unit norm）。

输入后的token在超球面表面上移动，每一层都通过「位移」来贡献最终的输出预测，其中位移量是由MLP和注意力模块进行定义的，其向量组件都位于同一个超球面上。

实验表明，nGPT达到相同精度所需的训练步骤

原文链接：英伟达nGPT重塑Transformer，AI训练速度暴增20倍！文本越长，加速越快

文章来源：新智元

作者微信：

作者简介：