苹果发文质疑:大语言模型根本无法进行逻辑推理(iphone语言支持几种)

AIGC动态欢迎阅读

原标题:苹果发文质疑:大语言模型

根本无法进行逻辑推理

关键字:模型,问题,能力,语言,性能

文章来源:人工智能学家

内容字数:0字

内容摘要:

大语言模型(LLM)是真的会数学推理?还是只是在“套路”解题?

近年来,大语言模型在各种任务中的表现引起广泛关注。一个核心问题逐渐浮现:这些模型是否真正具备逻辑推理能力,还是仅仅通过复杂的模式匹配来应对看似推理的问题?尤其是在数学推理任务中,模型的表现究竟是在模拟人类思维,还是仅仅通过数据模式匹配得出答案?

日前,来自苹果公司的 Iman Mirzadeh 及其研究团队提出了一个名为 GSM-Symbolic 的新基准,针对多个开源模型(如 Llama、Phi、Gemma、Mistral)和闭源模型(如GPT-4

o、o1 系列)进行了大规模评估。

结果显示,当问题中的数值或名字变化时,模型的会表现出显著的波动。此外,随着问题难度的提升(如增加更多子句),模型的表现迅速下降,这表明这些模型在推理复杂问题时非常脆弱。

研究团队认为,这种表现下降并非偶然,而是因为当前的大语言模型缺乏真正的逻辑推理能力,更多是在基于训练数据中的模式进行匹配,而非像人类一样进行符号和逻辑推导。

即使是简单的变化,如调整问题中的数值,也能导致模型准确率下降 10%。而当问题增加一个额外但无关的子句时,性能下降幅

原文链接:苹果发文质疑:大语言模型根本无法进行逻辑推理

联系作者

文章来源:人工智能学家

作者微信:

作者简介:

0
分享到:
没有账号? 忘记密码?