大模型权威测试被曝翻车！更偏袒GPT-4等闭源模型，连提示词都区别对待（模型排名）

原标题：大模型权威测试被曝翻车！更偏袒GPT-4等闭源模型，连提示

词都区别对待

关键字：模型,报告,答案,提示,选项

文章来源：量子位

内容字数：0字

白交发自凹非寺量子位 | 公众号 QbitAI大模型权威测试，翻车了？！

HuggingFace都在用的MMLU-PRO，被扒出评测方法更偏向闭源模型，被网友直接在GitHub Issue提出质疑。

此前MMLU原始版本早已经被各家大模型刷爆了，谁考都是高分，对前沿模型已经没有了区分度。

号称更强大、更具挑战线性多任务语言基准MMLU-Pro，成了业界对大模型性能的重要参考。

但结果没想到的是，现在有人扒出其在采样参数、系统提示和答案提取等方面设置不公平，存在一些令人震惊的差异。

随便对系统提示词做了个小修改，直接将开源阵营的Llama-3-8b-q8的性能提高了10分？！

emmm……就问大模型跑分到底还能不能信了？

被扒偏向闭源模型这是源于Reddit上一位ML/AI爱好者的意外发现。

还特意做了个免责声明，自己只是感兴趣，并不是ML研究员（Doge）

出于好奇想了解它是如何工作的，于是检查了原始repo中的代码以及每个模型使用的提示和响应。

不看不知道，一看吓一跳。

首先，他们不会对所有模型使用相同的参数。

其次，给每个大模型的Prompt差别也挺大啊喂？！

跟GPT-4o说

原文链接：大模型权威测试被曝翻车！更偏袒GPT-4等闭源模型，连提示词都区别对待

文章来源：量子位

作者微信：QbitAI

作者简介：追踪人工智能新趋势，关注科技行业新突破