学术前沿 | Transformer究竟如何推理?基于样例还是基于规则(transformer模型优缺点)

AIGC动态欢迎阅读

原标题:学术前沿 | Transformer究竟如何推理?基于样例还是基于规则

关键字:模型,加法,解读,报告,测试

文章来源:人工智能学家

内容字数:0字

内容摘要:

来源:北京大学人工智能研究院

导读本文是对发表于ICML 2024的论文Case-based or rule-based: How Do Transformers Do the Math?的解读。文章第一作者为来自北京大学物理学院、即将加入人工智能研究院读博的胡逸。通讯作者为北京大学人工智能研究院助理教授张牧涵。论文地址:(点击下方阅读原文)

https://arxiv.org/abs/2402.17709

项目主页:

https://github.com/GraphPKU/Case_or_Rule01Case-based or rule-based?尽管如ChatGPT

这样的大语言模型(Large Language Models, LLMs)已经在各种复杂任务中展现出令人惊艳的性能,它们在处理一些对人类来说十分简单的数学推理问题时仍会面临困难,例如长整数加法。

人类可以轻松地学习加法的基本规则,例如竖式加法,并将其应用于任意长度的新的加法问题,但 LLMs 却难以做到这一点。相反,它们可能会依赖于训练语料库中见过的相似样例来帮助解决问题。张牧涵团队的 ICML 2024 论文深刻

原文链接:学术前沿 | Transformer究竟如何推理?基于样例还是基于规则

联系作者

文章来源:人工智能学家

作者微信:AItists

作者简介:致力成为权威的人工智能科技媒体和前沿科技研究机构

0
分享到:
没有账号? 忘记密码?