「世界开源新王」跌落神坛?重测跑分暴跌实锤造假,2人团队光速「滑跪」(国际开源社区)

AIGC动态欢迎阅读

原标题:「世界开源新王」跌落神坛?重测跑分暴跌实锤造假,2人团队光速「滑跪」

关键字:报告,模型,基准,测试,数据

文章来源:新智元

内容字数:0字

内容摘要:

新智元报道编辑:Aeneas 好困

【新智元导读】「世界开源新王」Reflection 70B,才坐上王座没几天就被打假,跌落神坛了!甚至有人质疑,它莫不是套壳的Sonnet 3.5?发布者Matt Shumer和Sahil Chaudhary经过一番挣扎,已经光速「滑跪」,po出的复盘长文也是亮点满满。「开源新王」Reflection 70B,才发布一个月就跌落神坛了?

9月5日,Hyperwrite AI联创兼CEO Matt Shumer在X上扔出一则爆炸性消息——

用Meta的开源Llama 3.1-70B,团队微调出了Reflection 70B。它的基准测试结果惊人,可以和Claude 3.5 Sonnet以及GPT-4

这类顶级闭源模型一较高下,直接登顶「世界开源新王」!

结果没多久,Reflection 70B就被打假了:公布的基准测试结果和他们的独立测试之间存在显著差异。

无论是AI研究者,还是第三方评估者,都无法复现Matt Shumer所声称的结果。

根据Artificial Analysis的数据,Reflection 70B在基准测试中的表现,竟然还不如原始版

原文链接:「世界开源新王」跌落神坛?重测跑分暴跌实锤造假,2人团队光速「滑跪」

联系作者

文章来源:新智元

作者微信:

作者简介:

0
分享到:
没有账号? 忘记密码?