「世界开源新王」跌落神坛？重测跑分暴跌实锤造假，2人团队光速「滑跪」（国际开源社区）

AIGC动态欢迎阅读

原标题：「世界开源新王」跌落神坛？重测跑分暴跌实锤造假，2人团队光速「滑跪」

文章来源：新智元

内容字数：0字

内容摘要：

新智元报道编辑：Aeneas 好困

【新智元导读】「世界开源新王」Reflection 70B，才坐上王座没几天就被打假，跌落神坛了！甚至有人质疑，它莫不是套壳的Sonnet 3.5？发布者Matt Shumer和Sahil Chaudhary经过一番挣扎，已经光速「滑跪」，po出的复盘长文也是亮点满满。「开源新王」Reflection 70B，才发布一个月就跌落神坛了？

9月5日，Hyperwrite AI联创兼CEO Matt Shumer在X上扔出一则爆炸性消息——

用Meta的开源Llama 3.1-70B，团队微调出了Reflection 70B。它的基准测试结果惊人，可以和Claude 3.5 Sonnet以及GPT-4

这类顶级闭源模型一较高下，直接登顶「世界开源新王」！

结果没多久，Reflection 70B就被打假了：公布的基准测试结果和他们的独立测试之间存在显著差异。

无论是AI研究者，还是第三方评估者，都无法复现Matt Shumer所声称的结果。

根据Artificial Analysis的数据，Reflection 70B在基准测试中的表现，竟然还不如原始版

原文链接：「世界开源新王」跌落神坛？重测跑分暴跌实锤造假，2人团队光速「滑跪」