专治大模型“刷题”！贾佳亚团队新基准让模型只挑错不做题，GPT-4得分不到50

原标题：专治大模型“刷题”！贾佳亚团队新基准让模型只挑错不做题，GPT-4

得分不到50

关键字：模型,数据,团队,方式,测试

文章来源：量子位

内容字数：0字

MR-Ben团队投稿量子位 | 公众号 QbitAI大模型测试能拿高分，实际场景中却表现不佳的问题有解了。

贾佳亚团队联合多家知名高校提出了一种全新的测评方法，让一些模型立马现出了原型。

这下不用担心大模型“刷题”太多，测试集无法体现真实水平了。

这个新的测评数据集叫做MR-Ben，利用的是GSM8K、MMLU等数据集中的现有题目。

只不过，大模型在测试中的身份从“答题学生”变成了“阅卷老师”，任务是要给已有的解答步骤指出错误。

这样一来，模型无法再通过背诵或猜测撞对题目，测试题泄露也无需担心了。

利用MR-Ben，贾佳亚团队评测了GPT4-Turbo、Cluade3.5-Sonnet、GLM4、Qwen2-70B等许多开源和闭源模型。

目前，该数据集涉及的所有代码和数据均已开源。

熟悉的试题，全新的任务目前，大模型测试的主流方向是使用人类的标准化考试——选择题和填空题的方式去进行大模型评测。

这套测试方式的优点是标准明确、指标直观，且量化结果天然具有话题性。

但作者认为，由于现在的大模型普遍采用逐步作答的思维链方式生成最终答案，导致这种方式并不“靠谱”。

预训练模型在预训练时早已见

原文链接：专治大模型“刷题”！贾佳亚团队新基准让模型只挑错不做题，GPT-4得分不到50

文章来源：量子位

作者微信：

作者简介：