CoT提出者Jason Wei：大模型评估基准的「七宗罪」（coq模型）

原标题：CoT提出者Jason Wei：大模型评估基准

的「七宗罪」

关键字：基准,模型,工具,样本,测试

文章来源：机器之心

内容字数：7633字

机器之心报道

机器之心编辑部Jason Wei 是思维链提出者，并和 Yi Tay、Jeff Dean 等人合著了关于大模型涌现能力的论文。目前他正在OpenAI

进行工作。在 CV 领域，研究者一直把李飞飞等人创建的 ImageNet 奉为模型在下游视觉任务中能力的试金石。

在大模型时代，我们该如何评估 LLM 性能？现阶段，研究者已经提出了诸如 MMLU、GSM8K 等一些评估基准，不断有 LLM 在其上刷新得分。

但这些评估基准真的完美吗？思维链提出者 Jason Wei 在一篇博客中进行了深入的研究。Jason Wei 首先列举了几种成功的评估基准，然后总结了评估基准失败的常见原因，共七条，包括样本数量少、评估基准太复杂等等。

进一步的，Jason Wei 认为有些评估工具命名方式并不完美，比如 HumanEval 虽然叫做人类评估，实际上并没有用到人类进行评估，只是因为问题是由人类创建的。

Jason Wei 表示如果想让自己创建的评估工具得到广泛使用，一定要帮助研究者使用它，从而得到推广。此外，文中还提到了一些针对特定领域的小众评估工具，Jason Wei 认为这些评估可

原文链接：CoT提出者Jason Wei：大模型评估基准的「七宗罪」

文章来源：机器之心

作者微信：almosthuman2014

作者简介：专业的人工智能媒体和产业服务平台