苹果发文质疑：大语言模型根本无法进行逻辑推理（iphone语言支持几种）

原标题：苹果发文质疑：大语言模型

根本无法进行逻辑推理

关键字：模型,问题,能力,语言,性能

文章来源：人工智能学家

内容字数：0字

大语言模型（LLM）是真的会数学推理？还是只是在“套路”解题？

近年来，大语言模型在各种任务中的表现引起广泛关注。一个核心问题逐渐浮现：这些模型是否真正具备逻辑推理能力，还是仅仅通过复杂的模式匹配来应对看似推理的问题？尤其是在数学推理任务中，模型的表现究竟是在模拟人类思维，还是仅仅通过数据模式匹配得出答案？

日前，来自苹果公司的 Iman Mirzadeh 及其研究团队提出了一个名为 GSM-Symbolic 的新基准，针对多个开源模型（如 Llama、Phi、Gemma、Mistral）和闭源模型（如GPT-4

o、o1 系列）进行了大规模评估。

结果显示，当问题中的数值或名字变化时，模型的会表现出显著的波动。此外，随着问题难度的提升（如增加更多子句），模型的表现迅速下降，这表明这些模型在推理复杂问题时非常脆弱。

研究团队认为，这种表现下降并非偶然，而是因为当前的大语言模型缺乏真正的逻辑推理能力，更多是在基于训练数据中的模式进行匹配，而非像人类一样进行符号和逻辑推导。

即使是简单的变化，如调整问题中的数值，也能导致模型准确率下降 10%。而当问题增加一个额外但无关的子句时，性能下降幅

文章来源：人工智能学家

作者微信：

作者简介：