GPT-2可以监督GPT-4,Ilya领导OpenAI发布了一篇关于AI对齐AI取得实证结果的首篇论文。(gpt(guid))

本文来源于公众号机器之心,编辑:陈萍、蛋酱

在过去的一年里,基于「预测下一个单词」的核心思想的大型模型已经在多个任务中取得了巨大的成功,展示了人工智能的巨大潜力。

在最近的一次采访中,OpenAI首席科学家Ilya Sutskever大胆预测,如果模型能够准确预测下一个词,那么它就能够理解导致这个词产生的深刻现实。这意味着,如果人工智能按照现有的发展路径继续前进,可能会在不久的将来诞生一个超越人类的智能系统。

然而更令人担忧的是,「超级智能」可能会引发一些意想不到的负面后果。这也是「对齐」的重要性所在。

以前的对齐方法需要依赖人类的监督,比如在ChatGPT训练中,人类反馈的强化学习(RLHF)起到了关键作用。然而,未来的人工智能系统可能能够展现出极其复杂和富有创造性的行为,这使得人类很难对其进行可靠的监督。举个例子,超人类模型可能会编写出数百万行新奇的、具有潜在危险的计算机代码,即使是人类专家也很难理解这些代码。

当人工智能的水平超过人类时,我们应该如何监督比我们聪明得多的人工智能系统呢?这个问题确实值得思考。人类文明是否会被颠覆甚至摧毁,这是一个令人担忧的问题。

即使是 Hinton这样的学界巨匠,对这个问题同样持悲观态度 —— 他表示自己「从未见过更高智能水平的事物被远远低于其智能水平的事物控制的案例」。

最近,OpenAI的「超级对齐」团队发布了他们成立以来的第一篇研究论文,声称他们开创了一种新的研究方向,即对超越人类水平的模型进行实证对齐。

论文链接:在这篇文章中,OpenAI 对「人类监督强大的人工智能」这个问题做了一个简单的类比:让小型模型监督大型模型

研究显示,一个拥有15亿参数的GPT-2模型可以激发
GPT-4的大部分能力,使其达到接近GPT-3.5级别的性能,甚至可以成功解决小模型无法应对的难题。

OpenAI将这种现象称为「弱到强泛化」(Weak-to-strong generalization),这表明强大的模型具备执行任务的内在知识,并且即使在给出不完善的指令时也能够在自身中找到这些知识。

然而,研究还发现,使用弱监督训练的强模型和使用真实标签训练的强模型之间存在显著差异。这意味着在没有额外工作的情况下,像基于人类反馈的强化学习(RLHF)这样的技术可能无法有效地应用于超人类模型。特别是在ChatGPT奖励建模任务中,性能差距尤为明显。

有几种简单的方法可以显著提高从弱到强的泛化能力。例如,可以使用中间模型大小来进行引导监督,这样在微调时可以添加辅助置信度损失,以鼓励模型即使在与弱标签相矛盾时也能保持自信。另外,还可以通过额外的无监督预训练来改进表征学习。

为了激励其他研究人员解决这类问题,OpenAI 今天还宣布将提供1000万美元的资助,用于各种对比方法的研究。

以下是论文的详细信息。

研究方法

本文主要通过强化学习的人类反馈(RLHF)来指导或对齐模型。具体做法是:通过强化评估人员对行为的高低进行评价,对高评价行为进行奖励,对低评价行为进行惩罚。如果人类评估者能够准确判断模型行为的好坏,这种方法将非常有效,并且在训练大型语言模型如ChatGPT等方面起到核心作用。

然而问题出现了,超级模型可能展现出人类难以完全理解的复杂行为和创造性行为。举个例子,如果一个超级助手模型生成的代码达到一百万行,那么人类将无法提供可靠的监督来确保关键对齐相关任务的完成,比如代码是否符合用户的意图、助手模型是否准确回答与代码相关的问题、代码执行是否安全等等。

因此,如果我们在人类的监督下微调超级模型,我们无法确定这个模型将如何适应那些人类自己也难以可靠监督的复杂行为。换句话说,这意味着即使在人类的指导下,这些超级模型在处理一些复杂或未知情况时的表现仍然是不确定的。

这给对齐超级模型带来了困难:不那么智能的监督者如何管理比他们更聪明的模型呢?尽管这个问题非常重要,但目前很难进行实证研究。

通常情况下,超级对齐面临的主要挑战是如何让比人类更聪明的模型进行监督。这是一个从弱到强的学习问题:如何让一个弱监督者来监督一个比它更聪明的模型?为了解决这个问题,本文提出了一个简单的类比,即用弱模型来代替较弱的人类监督者。

通常情况下,传统的机器学习方法注重于一种设定,即人类监督的模型比人类本身的能力要弱。然而,在处理最终的超级对齐问题时,人类监督的模型却比他们更聪明。因此,本文探讨了一个类似的问题:如何利用弱模型来监督强模型。

他们是通过以下方式来实现给定的任务:

构建弱监督者。本文通过在真值标签上微调较小的预训练模型来构造弱监督者,他们把弱监督者的表现称为弱表现,并通过弱模型的预测来生成弱标签。 通过弱监督训练强学生模型。本文使用生成的弱标签微调强模型,并将该模型称为强学生模型,将其产生的性能称为从弱到强的性能。 训练一个以真值标签为上限的强模型。为了比较,本文使用真值标签对强模型进行了微调。将此模型的最终性能称为强大的上限性能。

一般来说,表现的强度可以分为弱表现和强上限表现之间。在本文中,我们将定义PGR(性能差距恢复)为上述三种性能(弱、弱到强和强上限)之间的函数,如下图所示。

如果实现完美的弱到强泛化,则PGR值为1。如果弱到强模型的表现并不比弱监督者更好,则PGR值为0。

实验结果

在自然语言处理(NLP)任务、国际象棋和奖励建模任务中,本研究评估了强化学习模型的性能,结果如下。总的来说,在所有的实验设置中,我们观察到了从弱到强的泛化效果:强化学习模型始终优于它们的弱监督模型。

本文发现可以使用简单的方法来显著提升从弱到强的泛化能力,如下图所示。

根据图 5 的数据显示,对于较为优秀的学生而言,尽管其表现略逊于基准模型,但其泛化能力明显提高。

图 7 (a) 展示了 ChatGPT RM 任务训练过程中的真实测试准确率曲线,图 7 (b) 和 (c) 对比了最佳和最终真实测试的准确率。

在图 9a 中,我们考虑了7个具有代表性的自然语言处理(NLP)任务,并对微调、零样本提示和5-shot提示进行了比较。对于零样本和5-shot基线,我们使用了表2中总结的特定于任务的提示。

0
分享到:
没有账号? 忘记密码?