AIGC动态欢迎阅读
原标题:专治大模型“刷题”!贾佳亚团队新基准让模型只挑错不做题,GPT-4
得分不到50
关键字:模型,数据,团队,方式,测试文章来源:量子位
内容字数:0字内容摘要:
MR-Ben团队 投稿量子位 | 公众号 QbitAI大模型测试能拿高分,实际场景中却表现不佳的问题有解了。
贾佳亚团队联合多家知名高校提出了一种全新的测评方法,让一些模型立马现出了原型。
这下不用担心大模型“刷题”太多,测试集无法体现真实水平了。
这个新的测评数据集叫做MR-Ben,利用的是GSM8K、MMLU等数据集中的现有题目。
只不过,大模型在测试中的身份从“答题学生”变成了“阅卷老师”,任务是要给已有的解答步骤指出错误。
这样一来,模型无法再通过背诵或猜测撞对题目,测试题泄露也无需担心了。
利用MR-Ben,贾佳亚团队评测了GPT4-Turbo、Cluade3.5-Sonnet、GLM4、Qwen2-70B等许多开源和闭源模型。
目前,该数据集涉及的所有代码和数据均已开源。
熟悉的试题,全新的任务目前,大模型测试的主流方向是使用人类的标准化考试——选择题和填空题的方式去进行大模型评测。
这套测试方式的优点是标准明确、指标直观,且量化结果天然具有话题性。
但作者认为,由于现在的大模型普遍采用逐步作答的思维链方式生成最终答案,导致这种方式并不“靠谱”。
预训练模型在预训练时早已见原文链接:专治大模型“刷题”!贾佳亚团队新基准让模型只挑错不做题,GPT-4得分不到50
联系作者
文章来源:量子位
作者微信:
作者简介: