小模型站起来了，浏览器里跑出SOTA，抱抱脸：快逃，合成数据不是未来（小模型制作）

原标题：小模型站起来了，浏览器里跑出SOTA，抱抱脸：快逃，合成数据

不是未来

关键字：模型,数据,团队,性能,微软

文章来源：量子位

内容字数：0字

梦晨发自凹非寺量子位 | 公众号 QbitAI浏览器里直接能跑的SOTA小模型来了，分别在2亿、5亿和20亿级别获胜，抱抱脸出品。

秘诀只有两个：

狠狠地过滤数据

在高度过滤的数据集上狠狠地训练

抱抱脸首席科学家Thomas Wolf，总结团队在开发小模型时的经验，抛出新观点，引起业界关注：

合成数据目前只在特定领域有用，网络是如此之大和多样化，真实数据的潜力还没完全发挥。

目前360M模型版本已发布Demo，在线可玩（注意流量）。

在浏览器里调用本地GPU运行，连模型权重带网页前端UI，400MB搞定。

严格过滤网络数据，性能直线上升针对微软Phi系列小模型，声称使用了一半合成数据，效果很好，但不公开数据。

开源界扛把子抱抱脸看不下去了：

造一个对标的大型合成数据集，开源它。

而且，团队隐隐暗示了，此举也有检验微软在测试集上刷榜的传闻，到底有没有这回事的考虑。

抱抱脸使用当时最好的开源模型Mixtral-8-7B构造了25B合成数据。

训练出来的模型效果还不错，但仍然在某种程度上低于Phi-1和Phi-1.5的水平。

他们尝试了让大模型在中学水平上解释各种主题，最终只有在MMLU

文章来源：量子位

作者微信：

作者简介：