陈丹琦团队新作：微调8B模型超越Claude3 Opus，背后是RLHF新平替（陈丹婷的简介）

原标题：陈丹琦团队新作：微调8B模型

超越Claude3 Opus，背后是RLHF新平替

关键字：模型,对数,长度,概率,样本

文章来源：量子位

内容字数：4946字

克雷西发自凹非寺量子位 | 公众号 QbitAI比斯坦福DPO（直接偏好优化）更简单的RLHF平替来了，来自陈丹琦团队。

该方式在多项测试中性能都远超DPO，还能让8B模型战胜Claude 3的超大杯Opus。

而且与DPO相比，训练时间和GPU消耗也都大幅减少。

这种方法叫做SimPO，Sim是Simple的简写，意在突出其简便性。

与DPO相比，SimPO摆脱了对参考模型的需要，在简化训练流程的同时，还避免了训练和推理不一致的问题。

对于这项成果，普林斯顿PLI主任Sanjeev Arora教授这样称赞：

和（SimPO方法调整出的）模型聊天感觉让人难以置信。Llama3-8B是现在最好的小模型，SimPO把它变得更好了。

成果发布并开源后，大模型微调平台Llama-Factory也迅速宣布引进。

摆脱对参考模型的需要陈丹琦团队的SimPO，和斯坦福提出的DPO一样，都是对RLHF中的奖励函数进行优化。

在传统的RLHF中，奖励函数通常由一个独立的奖励模型提供，需要额外的训练和推理；DPO利用人类偏好和模型输出之间的关系，直接用语言模型的对数概率来构建奖励函数，绕开了奖励模型的

原文链接：陈丹琦团队新作：微调8B模型超越Claude3 Opus，背后是RLHF新平替

文章来源：量子位

作者微信：QbitAI

作者简介：追踪人工智能新趋势，关注科技行业新突破