众包新玩法！LLM竞技场诞生基准测试，严格分离学渣学霸（众包规则）

原标题：众包新玩法！LLM竞技场诞生基准

测试，严格分离学渣学霸

关键字：模型,提示,基准,分数

,竞技场

文章来源：新智元

内容字数：6858字

新智元报道编辑：alan

【新智元导读】最公平的大模型基准测试诞生了！来自LLM竞技场，最接近人类偏好，数据新鲜、速度快、成本低，严格分离学渣和学霸。大模型排行榜哪家强？还看LLM竞技场~

截至此刻，已有共计90名LLM加入战斗，用户总投票数超过了77万。

然而，在网友们吃瓜调侃新模型冲榜、老模型丧失尊严的同时，

人家竞技场背后的组织LMSYS，已经悄悄完成了成果转化：从实战中诞生的最有说服力的基准测试——Arena-Hard。

而Arena-Hard所展现出的四项优势，也正是当前的LLM基准测试最需要的：

-可分离性（87.4%）明显优于MT-bench（22.6%）；

-与Chatbot Arena的排名最相近，达到89.1%；

-运行速度快，价格便宜（25美元）

-频繁更新实时数据

中译中一下就是，首先这个大模型的考试要有区分度，不能让学渣也考到90分；

其次，考试的题目应该更贴合实际，并且打分的时候要严格对齐人类偏好；

最后一定不能泄题，所以测试数据要经常更新，保证考试的公平；

——后两项要求对于LLM竞技场来说，简直像是量身定做。

我们来看一下新基准测试的效果：

上图中将A

文章来源：新智元

作者微信：AI_era

作者简介：智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。