单GPU训练一天,Transformer在100位数字加法上就达能到99%准确率(gpu并行处理能力得益于什么)

AIGC动态欢迎阅读

原标题:单GPU训练一天,Transformer在100位数字加法

上就达能到99%准确率

关键字:模型,加法,数字,作者,架构

文章来源:机器之心

内容字数:0字

内容摘要:

机器之心报道

机器之心编辑部乘法和排序也有效。

自 2017 年被提出以来,Transformer 已成为 AI 大模型的主流架构,一直稳站 C 位。

但所有研究者都不得不承认的是,Transformer 在算数任务中表现非常糟糕,尤其是加法,这一缺陷在很大程度上源于 Transformer 无法跟踪大范围数字中每个数字的确切位置。

为了解决这个问题,来自马里兰大学、CMU 等机构的研究者向这一问题发起了挑战,他们通过在每个数字中添加一个嵌入来解决这个问题,该嵌入编码数字相对于开头的位置。该研究发现,只用一天时间在单个 GPU 上训练 20 位数字,就可以达到最新的性能水平,100 位数字加法问题高达 99% 的准确率。论文地址:https://arxiv.org/pdf/2405.17399

项目地址:https://github.com/mcleish7/arithmetic

标题:Transformers Can Do Arithmetic with the Right Embeddings

具体而言,研究者建议对数据表示进行一个简单的修改,就能解决这个缺点。他们提出了 Abac

原文链接:单GPU训练一天,Transformer在100位数字加法上就达能到99%准确率

联系作者

文章来源:机器之心

作者微信:almosthuman2014

作者简介:专业的人工智能媒体和产业服务平台

0
分享到:
没有账号? 忘记密码?