长文 | 大模型偏好对齐全家桶 – RL侧（人流雌二醇凝胶有什么作用）

原标题：长文 | 大模型

偏好对齐全家桶 – RL侧

文章来源：算法邦

内容字数：0字

今天给大家带来一篇Reinforcement Learning from Human Feedback的全家桶，来自知乎@何枝（已授权）。

随着 Llama3 的开源，人们对 Alignment 的重视程度又上一个阶梯。作为 Alignment 家族中的核中核，RLHF 家族也开始变的繁荣昌盛，这对各位 RLer 来说可真是喜闻乐见。今天我们就一起来俯瞰一下当下 RLHF 都有些什么奇巧的魔改思路。

如今，LLM 中主流 RLHF 方向分为两大路线：

以 PPO 为代表的 On Policy 路线

以 DPO 为代表的 Off Policy 路线

PPO:https://arxiv.org/pdf/1707.06347DPO:https://arxiv.org/pdf/2305.18290

那究竟什么是 On Policy，什么是 Off Policy 呢？

我们可以简单理解为：凡是需要 LLM 在训练过程中做 generation 的方法就是 On Policy，反之为 Off Policy。

我们通常会说 On Policy 的方法会更耗卡、训练更耗时，这里的「耗时」主要就体现在模

文章来源：算法邦

作者微信：allplusai

作者简介：智猩猩矩阵账号之一，聚焦生成式AI，重点关注模型与应用。