AIGC动态欢迎阅读
原标题:单靠推理Scaling Law无法成就o1!无限推理token,GPT-4
o依然完败
关键字:报告,模型,准确率,性能,方法文章来源:新智元
内容字数:0字内容摘要:
新智元报道编辑:编辑部 HXY
【新智元导读】o1的秘诀,和全新的「推理Scaling Law」关系有多大?Epoch AI最近的对比实验表明,算法创新才是关键。CoT铸就了o1推理王者。
它开创了一种推理scaling新范式——随着算力增加、更长响应时间,o1性能也随之增长。
这一点,为AI scaling开辟了新的可能性。
既然如此,若是将o1这一训练过程直接应用到所有LLM中,岂不皆是「推理王者」。
然而,研究机构Epoch AI发现,结果并不是这样的。
单纯的扩展推理计算,根本不能弥合o1-preview和GPT-4o之间的差距。他们称,「虽然o1使用了逐步推理方法训练,但其性能改进,可能还存在其他的因素」。
o1的秘诀是什么?上周,在o1-preview和o1-mini发布之后,Epoch AI研究人员开启了GPT-4o和o1-preview对比实验。
他们选择了一个具有挑战性的基准测试GPQA进行评估,其中包含STEM领域研究生级别的多项选择题,而且考虑到模型的随机性进行了多次运行。
结果发现o1-preview的性能远远好于GPT-4o,比Claude 3.5 Sonn原文链接:单靠推理Scaling Law无法成就o1!无限推理token,GPT-4o依然完败
联系作者
文章来源:新智元
作者微信:
作者简介: