耗资1.3万,ASU团队揭秘o1推理王者!碾压所有LLM成本超高,关键还会PUA(asa project 百科)

AIGC动态欢迎阅读

原标题:耗资1.3万,ASU团队揭秘o1推理王者!碾压所有LLM成本超高,关键还会PUA

关键字:模型,测试,实例,性能,问题

文章来源:新智元

内容字数:0字

内容摘要:

新智元报道编辑:桃子 好困

【新智元导读】LLM不会规划,大推理模型o1可以吗?ASU团队最新研究发现,o1-preview推理规划能力是所有模型之最,但仍未触及天花板。关键是,推理强,成本超高。LLM依然不会规划,LRM可以吗?

OpenAI

声称,草莓o1已经突破了自回归LLM常规限制,成为一种新型的「大推理模型」(LRM)。

它能够基于强化学习,通过CoT多步推理。并且,这种推理过程的代价,是高昂的。

来自ASU研究人员以此为契机,全面评估了当前LLM和新型LRM,在测试基准PlanBench上表现。

论文地址:https://arxiv.org/pdf/2409.13373

PlanBench是他们在22年提出,评估大模型规划能力的测试基准。

在最新测试中,研究人员发现,o1-preview表现出色,大幅领先其他模型,但也未完全通过PlanBench基准测试。

其他LLM,在Mystery Blocksworld上的性能都不过5%。在基准上的结果曲线,和X轴几乎融合。

足见,这些大模型的规划能力,非常地弱。

不过,作者指出,规划推理越长,o1-preview的准确率便会低于25

原文链接:耗资1.3万,ASU团队揭秘o1推理王者!碾压所有LLM成本超高,关键还会PUA

联系作者

文章来源:新智元

作者微信:

作者简介:

0
分享到:
没有账号? 忘记密码?