GPT-4o mini排名雪崩，大模型竞技场规则更新，奥特曼刷分小技巧无效了（gpt参数量数据量）

原标题：GPT-4o mini排名雪崩，大模型竞技场

规则更新，奥特曼刷分小技巧无效了

关键字：模型,长度,格式,竞技场,分数

文章来源：量子位

内容字数：0字

梦晨发自凹非寺量子位 | 公众号 QbitAI大模型竞技场规则更新，GPT-4o mini排名立刻雪崩，跌出前10。

新榜单对AI回答的长度和风格等特征做了降权处理，确保分数反映模型真正解决问题的能力。

想用漂亮的格式、增加小标题数量等技巧讨好用户、刷榜，现在统统没用了。

在新规则下，奥特曼的GPT-4o mini、马斯克的Grok-2系列排名显著下降，谷歌Gemini-1.5-flash小模型也有所回落。

Claude系列、Llama-3.1-405b大模型分数则纷纷上涨。

只计算困难任务（Hard Prompt）的情况下，大模型在风格控制榜单中的优势更加明显。

此前GPT-4o mini小模型一度登顶，与GPT-4o满血版并列第一，与网友的体感明显不符。

Lmsys大模型竞技场这个一度被Karpathy推荐的评价标准，口碑也跌落到“只能反映用户喜好而不是模型能力了”。

Lmsys组织痛定思痛，先是公开了GPT-4o mini参与的1000场battle数据，从而分析出模型拒绝回答率、生成内容长度、和格式排版是影响投票结果的几个因素。

而且奥特曼还在GPT-4o mini发布之前

原文链接：GPT-4o mini排名雪崩，大模型竞技场规则更新，奥特曼刷分小技巧无效了

文章来源：量子位

作者微信：

作者简介：