CoT提出者Jason Wei:大模型评估基准的「七宗罪」(coq模型)

AIGC动态欢迎阅读

原标题:CoT提出者Jason Wei:大模型评估基准

的「七宗罪」

关键字:基准,模型,工具,样本,测试

文章来源:机器之心

内容字数:7633字

内容摘要:

机器之心报道

机器之心编辑部Jason Wei 是思维链提出者,并和 Yi Tay、Jeff Dean 等人合著了关于大模型涌现能力的论文。目前他正在OpenAI

进行工作。在 CV 领域,研究者一直把李飞飞等人创建的 ImageNet 奉为模型在下游视觉任务中能力的试金石。

在大模型时代,我们该如何评估 LLM 性能?现阶段,研究者已经提出了诸如 MMLU、GSM8K 等一些评估基准,不断有 LLM 在其上刷新得分。

但这些评估基准真的完美吗?思维链提出者 Jason Wei 在一篇博客中进行了深入的研究。Jason Wei 首先列举了几种成功的评估基准,然后总结了评估基准失败的常见原因,共七条,包括样本数量少、评估基准太复杂等等。

进一步的,Jason Wei 认为有些评估工具命名方式并不完美,比如 HumanEval 虽然叫做人类评估,实际上并没有用到人类进行评估,只是因为问题是由人类创建的。

Jason Wei 表示如果想让自己创建的评估工具得到广泛使用,一定要帮助研究者使用它,从而得到推广。此外,文中还提到了一些针对特定领域的小众评估工具,Jason Wei 认为这些评估可

原文链接:CoT提出者Jason Wei:大模型评估基准的「七宗罪」

联系作者

文章来源:机器之心

作者微信:almosthuman2014

作者简介:专业的人工智能媒体和产业服务平台

0
分享到:
没有账号? 忘记密码?