悬赏800万的超难测试集，被GPT-4o实现新SOTA，准确率已达50%（悬赏提问用什么平台）

原标题：悬赏800万的超难测试集，被GPT-4o实现新SOTA，准确率

已达50%

关键字：程序,模型,准确率,网格

,测试

文章来源：量子位

内容字数：0字

克雷西发自凹非寺量子位 | 公众号 QbitAIGTP-4o挑战悬赏八百万的超难数据集，实现SOTA！

数据集当中包含了各种类型的图形推理题目，被挑战发起者预言“大模型很难完成”。

结果短短一周之内，这一挑战就被一位博主Ryan Greenblatt完成了一半，准确率达50%；而此前的SOTA仅为34%。

针对自己的成果，Ryan发了一个表情包表示：

只要有更多的样本，大模型的能力就能获得提升。

成果发布后，Ryan所在机构CEO Bucket Shlegeris称赞他是世界级的语言模型推理专家，用了很多精致技巧让模型的表现提高到了这样的程度。

要知道，挑战的发起方此前开出了最高50万美元（约360万人民币）、总计110万美元（约798万人民币）的巨额赏金。

但有人预计，有60%的概率在未来一年内就会有人获得奖项，甚至现有的模型加上一些提示技巧就能实现。

这也与Ryan的想法不谋而合，不过Ryan估计的概率更高些，是70%。

然而按照规则，想得奖的话，方法必须是开源的，而Ryan用的是GPT，所以可能与奖金无缘了。

不过，Ryan用到的的方法，还是值得我们了解一下的。

让GPT编写

原文链接：悬赏800万的超难测试集，被GPT-4o实现新SOTA，准确率已达50%

文章来源：量子位

作者微信：QbitAI

作者简介：追踪人工智能新趋势，关注科技行业新突破