耗资1.3万，ASU团队揭秘o1推理王者！碾压所有LLM成本超高，关键还会PUA（asa project 百科）

原标题：耗资1.3万，ASU团队揭秘o1推理王者！碾压所有LLM成本超高，关键还会PUA

文章来源：新智元

内容字数：0字

新智元报道编辑：桃子好困

【新智元导读】LLM不会规划，大推理模型o1可以吗？ASU团队最新研究发现，o1-preview推理规划能力是所有模型之最，但仍未触及天花板。关键是，推理强，成本超高。LLM依然不会规划，LRM可以吗？

OpenAI

声称，草莓o1已经突破了自回归LLM常规限制，成为一种新型的「大推理模型」（LRM）。

它能够基于强化学习，通过CoT多步推理。并且，这种推理过程的代价，是高昂的。

来自ASU研究人员以此为契机，全面评估了当前LLM和新型LRM，在测试基准PlanBench上表现。

论文地址：https://arxiv.org/pdf/2409.13373

PlanBench是他们在22年提出，评估大模型规划能力的测试基准。

在最新测试中，研究人员发现，o1-preview表现出色，大幅领先其他模型，但也未完全通过PlanBench基准测试。

其他LLM，在Mystery Blocksworld上的性能都不过5%。在基准上的结果曲线，和X轴几乎融合。

足见，这些大模型的规划能力，非常地弱。

不过，作者指出，规划推理越长，o1-preview的准确率便会低于25

原文链接：耗资1.3万，ASU团队揭秘o1推理王者！碾压所有LLM成本超高，关键还会PUA

文章来源：新智元

作者微信：

作者简介：