悬赏800万的超难测试集,被GPT-4o实现新SOTA,准确率已达50%(悬赏提问用什么平台)

AIGC动态欢迎阅读

原标题:悬赏800万的超难测试集,被GPT-4o实现新SOTA,准确率

已达50%

关键字:程序,模型,准确率,网格

,测试

文章来源:量子位

内容字数:0字

内容摘要:

克雷西 发自 凹非寺量子位 | 公众号 QbitAIGTP-4o挑战悬赏八百万的超难数据集,实现SOTA!

数据集当中包含了各种类型的图形推理题目,被挑战发起者预言“大模型很难完成”。

结果短短一周之内,这一挑战就被一位博主Ryan Greenblatt完成了一半,准确率达50%;而此前的SOTA仅为34%。

针对自己的成果,Ryan发了一个表情包表示:

只要有更多的样本,大模型的能力就能获得提升。

成果发布后,Ryan所在机构CEO Bucket Shlegeris称赞他是世界级的语言模型推理专家,用了很多精致技巧让模型的表现提高到了这样的程度。

要知道,挑战的发起方此前开出了最高50万美元(约360万人民币)、总计110万美元(约798万人民币)的巨额赏金。

但有人预计,有60%的概率在未来一年内就会有人获得奖项,甚至现有的模型加上一些提示技巧就能实现。

这也与Ryan的想法不谋而合,不过Ryan估计的概率更高些,是70%。

然而按照规则,想得奖的话,方法必须是开源的,而Ryan用的是GPT,所以可能与奖金无缘了。

不过,Ryan用到的的方法,还是值得我们了解一下的。

让GPT编写

原文链接:悬赏800万的超难测试集,被GPT-4o实现新SOTA,准确率已达50%

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业新突破

0
分享到:
没有账号? 忘记密码?