在对齐AI时,为什么在线方法总是优于离线方法?(为什么ai没有自动对齐的那些线了)

在人工智能对齐问题上,在线方法似乎总是比离线方法更优,但为什么会这样呢?近日,Google DeepMind发表了一篇论文,试图通过基于假设验证的实证研究来解答这个问题。

在对齐AI时,为什么在线方法总是优于离线方法?_图1

论文标题:深入理解在线和离线对齐算法之间的性能差距

论文地址:https://arxiv.org/abs/2405.08448

根据人类反馈的强化学习(RLHF)随着大型语言模型(LLM)的发展而逐渐成为一种常用的框架,用于AI的对齐。然而,最近出现了一种名为直接偏好优化(DPO)的离线方法,它不需要主动的在线交互,只需使用离线数据集就能直接对齐LLM。这种方法的效率非常高,并且已经经过实证研究证明了其有效性。但是,这也引发了一个关键问题:

人工智能是否需要在线强化学习来进行对齐?

对于这个问题,人们希望既知道其理论上的答案,也希望明晰实验给出的解答。

从实证角度看,相比于大家常用的在线强化学习和模型采样(由偏好建模和从模型采样组成),离线算法实现起来要简单得多,成本也低得多。因此,收集有关离线算法的充分性的证据可让人工智能对齐变得更加简单。另一方面,如果能明晰常用在线强化学习和模型采样的优势,也能让我们理解在线交互的基本作用,洞见离线对齐方法的某些关键挑战。

在线算法与离线算法的对比

要公平地比较在线和离线算法并非易事,因为它们存在许多实现和算法方面的差异。举个例子,在线算法所需的计算量往往大于离线算法,因为它需要采样和训练另一个模型。因此,为了比较公平,需要在衡量性能时对不同算法所耗费的预算进行一定的校准。

要公平地比较在线和离线算法并非易事,因为它们存在许多实现和算法方面的差异。举个例子,在线算法所需的计算量往往大于离线算法,因为它需要采样和训练另一个模型。因此,为了比较公平,需要在衡量性能时对不同算法所耗费的预算进行一定的校准。在线算法需要额外的计算资源来进行采样和训练,而离线算法则不需要这些额外的步骤。因此,在比较性能时,需要考虑到不同算法所需的计算量差异,以确保公平比较。

在 DeepMind 的这项研究中,研究团队在比较时并未将计算量作为一个优先考虑因素,而是采用了 Gao et al. (2023) 的论文《Scaling laws for reward model overoptimization》中的设置:使用强化学习高斯策略和参考单步强化学习策略之间的KL散度作为预算的衡量指标。

在不同的算法和超参数设置中,KL 散度是以一种统一的方式衡量强化学习高斯策略与软最大策略的偏离程度,从而能以一种经过校准的方式对算法进行比较。

基于古德哈特定律比较在线和离线算法的性能

首先,该团队比较了在线和离线算法的过度优化(over-optimization)行为 —— 该行为可通过将古德哈特定律外推至 AI 对齐领域而预测得到。

首先,该团队对在线和离线算法的过度优化行为进行了比较。过度优化行为是指在AI对齐领域中,通过将古德哈特定律外推来预测得到的行为。

简单总结起来,古德哈特定律(Goodhart’s law)可以表述成:一旦将一项指标作为目标,它就不再能够准确反映实际情况。

该团队采用了与 Gao et al. (2023) 类似的设置,基于一组开源数据集进行了实验,结果表明:在相同的优化预算(相对于 SFT 策略的 KL 散度)下,在线算法的性能表现通常优于离线算法。

图 1 给出了在线和离线算法在四个不同的开源数据集上表现出的 KL 散度与策略性能之间的权衡。图中的每个数据点代表了在训练过程中某个特定检查点下,针对特定一组超参数的策略评估结果。

在对齐AI时,为什么在线方法总是优于离线方法?_图2

其中,对于在线算法,超参数并未被广泛调整,而是一直使用一组固定的超参数;对于离线算法,则是将不同超参数的结果汇总后得出。可以观察到如下结果:

符合古德哈特定律的过度优化。不管是在线还是离线算法,性能都会随着KL散度的增加而先升后降。后期性能下降的原因是过度优化效应,这符合古德哈特定律的预测。

在线算法能够更有效地利用KL散度预算,相较于离线算法,在线算法通常能够实现更好的权衡。具体而言,当KL散度预算相同时,在线算法的性能通常优于离线算法。在不同的KL散度层级上,在线算法在所有任务上的最高性能都高于离线算法。特别是在OpenAI摘要和Anthropic辅助任务上,在线算法的最高性能差异显著,而在另外两个任务上的最高性能差异较小。

总之,在线算法完全胜过离线算法,这也为后续研究奠定了坚实的基础。

对于在线和离线算法性能差异的假设

为了更好地理解在线和离线算法性能差异的原因,该团队进行了一项假设验证的研究。

也就是说首先提出一些假设,然后验证它是否正确。先来看看他们提出了怎样的假设。

假设 1:数据覆盖情况。在线算法更优的原因是其覆盖的数据更加多样化,因为它能够随时间变化采样自不同的学习器策略。

假设 2:次优的离线数据集。离线算法处于劣势,因为其初始的偏好数据集是由一个次优的策略生成的。如果使用具有更高绝对质量的响应训练离线算法,则性能会更好。

假设 3:如果分类能力更好,那么性能也会更好。离线算法通常会将策略作为分类器进行训练。然而,作为分类器,它们可能不如代理偏好模型那样准确(因为对分类进行参数化的有效方式不同)。如果能够提高准确度,那么性能也会相应提升。

假设 4:非对比式损失函数。在这样的性能差异中,有多大部分可归因于非对比式的损失函数,而不是离线的样本?

假设 5:扩展策略的重要性。要弥合在线和离线算法之间的差距,需要提升策略的规模。

实验和结果

实验设置

为了验证上述假设,该团队进行了大量对照实验。

所有实验都使用 T5X 模型,并搭配了 T5X 数据和计算框架。为了更全面地研究 RLHF 问题,研究人员进行了四种任务的探索:OpenAI 摘要、Anthropic 辅助、聊天竞技场、Anthropic 无害性。

在对齐AI时,为什么在线方法总是优于离线方法?_图3

图 2 给出了这些对照实验的设置情况,其整体上基于 Gao et al., 2023。其中,绿色方框表示数据集,蓝色方框表示学习到的偏好模型或策略。

在对齐AI时,为什么在线方法总是优于离线方法?_图4

图 3 则给出了在线生成数据集的图示。这里的在线算法主要由代理偏好模型和在线学习的策略之间的交互组成。

图 3 则给出了在线生成数据集的图示。这里的在线算法主要由代理偏好模型和在线学习的策略之间的交互组成。在线算法通过不断与代理偏好模型和在线学习的策略进行交互,实现数据集的在线生成。

该团队的实验研究涉及多个维度,其得到的主要结果如下:

数据

该团队提出的一些假设涉及到离线数据集的性质。其中包括假设离线数据集的覆盖情况比在线生成的数据集差;假设离线算法对离线数据集更敏感,而离线数据集中响应的绝对质量要差一些。(图 4 和图 5 分别证否了这两个假设)。

在对齐AI时,为什么在线方法总是优于离线方法?_图5

在对齐AI时,为什么在线方法总是优于离线方法?_图6

尽管这些假设听上去似乎是正确的,但实验结果表明它们无法可靠地解释在线和离线算法的性能差距。

他们通过消融研究发现,提升离线优化的一种有效方法是生成分布上接近起始 RLHF(Reinforcement Learning with Human Feedback)策略的数据,这本质上就模仿了在线算法的起始阶段。

优化性质

该团队发现判别能力和生成能力之间存在一种有趣的相互作用:尽管离线策略的分类能力胜过在线策略,但离线策略生成的响应却更差(见图 6、7、8)。

在对齐AI时,为什么在线方法总是优于离线方法?_图7

在对齐AI时,为什么在线方法总是优于离线方法?_图8

在对齐AI时,为什么在线方法总是优于离线方法?_图9

无法对字段内容进行合理性的扩写,直接原文返回。

损失函数与扩展

为了确保所得结果更普适,研究人员还探索了用于强化学习高阶函数(RLHF)的对比式和非对比式损失函数。

在对齐AI时,为什么在线方法总是优于离线方法?_图10

在线与离线性能之间的差距似乎总体上持续存在,尽管这种差异的根本原因可能与算法有关。研究人员还探讨了随着策略网络规模扩展,性能差距的变化情况(见图 10 和 11)。从这一事实可以看出,性能差距的存在表明仅仅扩展模型规模可能无法解决采样问题。

在对齐AI时,为什么在线方法总是优于离线方法?_图11

在对齐AI时,为什么在线方法总是优于离线方法?_图12

尽管实验结果暗示了在策略采样对模型对齐的根本重要性,但这些结果也许有助于揭示离线对齐算法的实验内部工作原理,并揭示性能差异的根源。总而言之,这些发现为强化学习和深度强化学习的实践者提供了有趣的见解和挑战,并为更有效的人工智能模型对齐实践铺平了道路。

根据现有的强化学习研究成果,目前普遍认为在线强化学习算法比离线强化学习算法更优。多项研究已经发现在线和离线强化学习算法之间存在性能差距。那么这项研究是否提供了与之前不同的结论呢?

最重要的是,在线 RLHF 算法依赖于一个学习后的奖励模型,该奖励模型是使用与离线 RLHF 算法一样的成对偏好数据集训练得到的。这与常规强化学习设置存在根本性差异 —— 常规强化学习假设能以在线方式获取基本真值奖励,在这种情况下,在线强化学习的优势明显。假设 RLHF 受到奖励信号的瓶颈限制,我们就不清楚在线与离线的差距是否还会这样显著。

从更技术性的角度来看,许多强化学习和强化学习策略优化算法采用了上下文赌博机的设计形式,并针对参考策略应用了正则化。这样的算法细节让强化学习和强化学习策略优化算法偏离了常规的强化学习设置,这可能会影响离策略学习问题的严重程度。

0
分享到:
没有账号? 忘记密码?