GPT-4o mini排名雪崩,大模型竞技场规则更新,奥特曼刷分小技巧无效了(gpt参数量 数据量)

AIGC动态欢迎阅读

原标题:GPT-4o mini排名雪崩,大模型竞技场

规则更新,奥特曼刷分小技巧无效了

关键字:模型,长度,格式,竞技场,分数

文章来源:量子位

内容字数:0字

内容摘要:

梦晨 发自 凹非寺量子位 | 公众号 QbitAI大模型竞技场规则更新,GPT-4o mini排名立刻雪崩,跌出前10。

新榜单对AI回答的长度和风格等特征做了降权处理,确保分数反映模型真正解决问题的能力。

想用漂亮的格式、增加小标题数量等技巧讨好用户、刷榜,现在统统没用了。

在新规则下,奥特曼的GPT-4o mini、马斯克的Grok-2系列排名显著下降,谷歌Gemini-1.5-flash小模型也有所回落。

Claude系列、Llama-3.1-405b大模型分数则纷纷上涨。

只计算困难任务(Hard Prompt)的情况下,大模型在风格控制榜单中的优势更加明显。

此前GPT-4o mini小模型一度登顶,与GPT-4o满血版并列第一,与网友的体感明显不符。

Lmsys大模型竞技场这个一度被Karpathy推荐的评价标准,口碑也跌落到“只能反映用户喜好而不是模型能力了”。

Lmsys组织痛定思痛,先是公开了GPT-4o mini参与的1000场battle数据,从而分析出模型拒绝回答率、生成内容长度、和格式排版是影响投票结果的几个因素。

而且奥特曼还在GPT-4o mini发布之前

原文链接:GPT-4o mini排名雪崩,大模型竞技场规则更新,奥特曼刷分小技巧无效了

联系作者

文章来源:量子位

作者微信:

作者简介:

0
分享到:
没有账号? 忘记密码?