单GPU训练一天，Transformer在100位数字加法上就达能到99%准确率（gpu并行处理能力得益于什么）

AIGC动态欢迎阅读

原标题：单GPU训练一天，Transformer在100位数字加法

上就达能到99%准确率

关键字：模型,加法,数字,作者,架构

文章来源：机器之心

内容字数：0字

内容摘要：

机器之心报道

机器之心编辑部乘法和排序也有效。

自 2017 年被提出以来，Transformer 已成为 AI 大模型的主流架构，一直稳站 C 位。

但所有研究者都不得不承认的是，Transformer 在算数任务中表现非常糟糕，尤其是加法，这一缺陷在很大程度上源于 Transformer 无法跟踪大范围数字中每个数字的确切位置。

为了解决这个问题，来自马里兰大学、CMU 等机构的研究者向这一问题发起了挑战，他们通过在每个数字中添加一个嵌入来解决这个问题，该嵌入编码数字相对于开头的位置。该研究发现，只用一天时间在单个 GPU 上训练 20 位数字，就可以达到最新的性能水平，100 位数字加法问题高达 99% 的准确率。论文地址：https://arxiv.org/pdf/2405.17399

项目地址：https://github.com/mcleish7/arithmetic

标题：Transformers Can Do Arithmetic with the Right Embeddings

具体而言，研究者建议对数据表示进行一个简单的修改，就能解决这个缺点。他们提出了 Abac

原文链接：单GPU训练一天，Transformer在100位数字加法上就达能到99%准确率