众包新玩法!LLM竞技场诞生基准测试,严格分离学渣学霸(众包规则)

AIGC动态欢迎阅读

原标题:众包新玩法!LLM竞技场诞生基准

测试,严格分离学渣学霸

关键字:模型,提示,基准,分数

,竞技场

文章来源:新智元

内容字数:6858字

内容摘要:

新智元报道编辑:alan

【新智元导读】最公平的大模型基准测试诞生了!来自LLM竞技场,最接近人类偏好,数据新鲜、速度快、成本低,严格分离学渣和学霸。大模型排行榜哪家强?还看LLM竞技场~

截至此刻,已有共计90名LLM加入战斗,用户总投票数超过了77万。

然而,在网友们吃瓜调侃新模型冲榜、老模型丧失尊严的同时,

人家竞技场背后的组织LMSYS,已经悄悄完成了成果转化:从实战中诞生的最有说服力的基准测试——Arena-Hard。

而Arena-Hard所展现出的四项优势,也正是当前的LLM基准测试最需要的:

-可分离性(87.4%)明显优于MT-bench(22.6%);

-与Chatbot Arena的排名最相近,达到89.1%;

-运行速度快,价格便宜(25美元)

-频繁更新实时数据

中译中一下就是,首先这个大模型的考试要有区分度,不能让学渣也考到90分;

其次,考试的题目应该更贴合实际,并且打分的时候要严格对齐人类偏好;

最后一定不能泄题,所以测试数据要经常更新,保证考试的公平;

——后两项要求对于LLM竞技场来说,简直像是量身定做。

我们来看一下新基准测试的效果:

上图中将A

原文链接:众包新玩法!LLM竞技场诞生基准测试,严格分离学渣学霸

联系作者

文章来源:新智元

作者微信:AI_era

作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

0
分享到:
没有账号? 忘记密码?