开源大模型新王干翻GPT-4o，新技术可纠正自己幻觉，数学99.2分刷爆测试集（开源火车模拟器）

原标题：开源大模型新王干翻GPT-4

o，新技术可纠正自己幻觉，数学99.2分刷爆测试集

关键字：报告,模型,错误,标签,基准

文章来源：量子位

内容字数：0字

西风发自凹非寺量子位 | 公众号 QbitAI开源大模型王座突然易主，居然来自一家小创业团队，瞬间引爆业界。

新模型名为Reflection 70B，使用一种全新训练技术，让AI学会在推理过程中纠正自己的错误和幻觉。

比如最近流行的数r测试中，一开始它犯了和大多数模型一样的错误，但主动在标签中纠正了自己。

在官方评测中，70B模型全面超越最强开源Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro，特别是数学基准GSM8K上直接刷爆，得分99.2%。

这个结果也让OpenAI

科学家、德扑AI之父Noam Brown激情开麦：

GSM8K得分99%！是不是可以正式淘汰这个基准了？

模型刚刚上线网友就把试玩挤爆了，对此Meta还主动支援了更多算力。

在网友测试中，Reflection 70B能回答对GSM8K数据集中本身答案错误的问题：

我向模型提供了GSM8K中存在的5个“ground_truth”本身就不正确的问题。

模型没有重复数据集中的错误答案，而是全部回答对了，这很令人印象深刻，表明那99.2%的准确率并非来自于记忆测试

原文链接：开源大模型新王干翻GPT-4o，新技术可纠正自己幻觉，数学99.2分刷爆测试集

文章来源：量子位

作者微信：

作者简介：