专治大模型“刷题”!贾佳亚团队新基准让模型只挑错不做题,GPT-4得分不到50

AIGC动态欢迎阅读

原标题:专治大模型“刷题”!贾佳亚团队新基准让模型只挑错不做题,GPT-4

得分不到50

关键字:模型,数据,团队,方式,测试

文章来源:量子位

内容字数:0字

内容摘要:

MR-Ben团队 投稿量子位 | 公众号 QbitAI大模型测试能拿高分,实际场景中却表现不佳的问题有解了。

贾佳亚团队联合多家知名高校提出了一种全新的测评方法,让一些模型立马现出了原型。

这下不用担心大模型“刷题”太多,测试集无法体现真实水平了。

这个新的测评数据集叫做MR-Ben,利用的是GSM8K、MMLU等数据集中的现有题目。

只不过,大模型在测试中的身份从“答题学生”变成了“阅卷老师”,任务是要给已有的解答步骤指出错误。

这样一来,模型无法再通过背诵或猜测撞对题目,测试题泄露也无需担心了。

利用MR-Ben,贾佳亚团队评测了GPT4-Turbo、Cluade3.5-Sonnet、GLM4、Qwen2-70B等许多开源和闭源模型。

目前,该数据集涉及的所有代码和数据均已开源。

熟悉的试题,全新的任务目前,大模型测试的主流方向是使用人类的标准化考试——选择题和填空题的方式去进行大模型评测。

这套测试方式的优点是标准明确、指标直观,且量化结果天然具有话题性。

但作者认为,由于现在的大模型普遍采用逐步作答的思维链方式生成最终答案,导致这种方式并不“靠谱”。

预训练模型在预训练时早已见

原文链接:专治大模型“刷题”!贾佳亚团队新基准让模型只挑错不做题,GPT-4得分不到50

联系作者

文章来源:量子位

作者微信:

作者简介:

0
分享到:
没有账号? 忘记密码?