实测 OpenAI 最强模型 o1 :做题王者,实战青铜(2022年华为p70)

AIGC动态欢迎阅读

原标题:实测 OpenAI 最强模型

o1 :做题王者,实战青铜

关键字:能力,模型,问题,官方,答案

文章来源:爱范儿

内容字数:0字

内容摘要:

做题王者

实战青铜本周OpenAI 突然发布了 o1 系列模型,最大的特点是擅长推理。

模型的能力,一代比一代强,我们的测评,一次比一次难做。测评变成一件「毕恭毕敬」的事情,生怕提不出好问题(难不倒它),在让它推理之前,我们自己的脑子就快烧没了。

最重要的原因是:我们想知道,被寄予厚望的新一代模型,有没有应用到实际生活中的推理能力?以及要如何测出这样的能力?

秉承着这个想法,我们设计了一套考验 o1-preview 综合能力的「考卷」。

省流版结论如下:它擅长做题、搞研究,更像一个适合待在实验室的高材生,你现在还不能指望它成为生活里的助手。

热身:数学与逻辑能力强,速度还不慢

发布会的数据大家看了很多,尤其是新一代 o1 在各项任务上的评分,都有超乎以往的表现。比如 OpenAI 的官方文档里,特别提到 AIME 数学竞赛的考试中,o1 都能取得不错的表现。

快速查了一下,这个 AIME 比赛,考题长这样:

原题粘贴过去,看看究竟是怎么个超强表现。o1-preview 反应很迅速,上手就开始解题了。

对比一下官方答案完全正确。反应时间也比预计的快,只是思考过程,并不是默认展开。

所以除

原文链接:实测 OpenAI 最强模型 o1 :做题王者,实战青铜

联系作者

文章来源:爱范儿

作者微信:

作者简介:

0
分享到:
没有账号? 忘记密码?