实测 OpenAI 最强模型 o1 ：做题王者，实战青铜（2022年华为p70）

原标题：实测 OpenAI 最强模型

o1 ：做题王者，实战青铜

关键字：能力,模型,问题,官方,答案

文章来源：爱范儿

内容字数：0字

做题王者

实战青铜本周OpenAI 突然发布了 o1 系列模型，最大的特点是擅长推理。

模型的能力，一代比一代强，我们的测评，一次比一次难做。测评变成一件「毕恭毕敬」的事情，生怕提不出好问题（难不倒它），在让它推理之前，我们自己的脑子就快烧没了。

最重要的原因是：我们想知道，被寄予厚望的新一代模型，有没有应用到实际生活中的推理能力？以及要如何测出这样的能力？

秉承着这个想法，我们设计了一套考验 o1-preview 综合能力的「考卷」。

省流版结论如下：它擅长做题、搞研究，更像一个适合待在实验室的高材生，你现在还不能指望它成为生活里的助手。

热身：数学与逻辑能力强，速度还不慢

发布会的数据大家看了很多，尤其是新一代 o1 在各项任务上的评分，都有超乎以往的表现。比如 OpenAI 的官方文档里，特别提到 AIME 数学竞赛的考试中，o1 都能取得不错的表现。

快速查了一下，这个 AIME 比赛，考题长这样：

原题粘贴过去，看看究竟是怎么个超强表现。o1-preview 反应很迅速，上手就开始解题了。

对比一下官方答案完全正确。反应时间也比预计的快，只是思考过程，并不是默认展开。

所以除

文章来源：爱范儿

作者微信：

作者简介：