Karpathy观点惹争议:RLHF不是真正的强化学习,谷歌、Meta下场反对(kappa事件)

AIGC动态欢迎阅读

原标题:Karpathy观点

惹争议:RLHF不是真正的强化学习,谷歌、Meta下场反对

关键字:模型,人类,围棋,氛围

,观点

文章来源:机器之心

内容字数:0字

内容摘要:

机器之心报道

编辑:杜伟RLHF 与 RL 到底能不能归属为一类,看来大家还是有不一样的看法。

AI 大牛 Karpathy 又来科普人工智能概念了。

昨日,他发推表示,「基于人类反馈的强化学习(RLHF)只是勉强算得上是强化学习(RL)。」Karpathy 的全文解释如下:

RLHF 是训练大语言模型(LLM)的第三个(也是最后一个)主要阶段,前两个阶段分别是预训练和监督微调(SFT)。我认为 RLHF 只是勉强算得上 RL,它没有得到广泛的认可。RL 很强大,但 RLHF 却不然。

让我们看看 AlphaGo 的例子,它是使用真正的 RL 训练的。计算机玩围棋(Go)游戏,并在实现奖励函数最大化的回合(赢得比赛)中训练,最终超越了最厉害的人类棋手。AlphaGo 没有使用 RLHF 进行训练,如果它用了,效果就不会那么好。

用 RLHF 训练 AlphaGo 会是什么样子呢?首先,你要给人类标注员两个围棋棋盘的状态,然后问他们更喜欢哪一种:然后你会收集到 10 万个类似的比较,并训练一个「奖励模型」(RM)神经网络来模拟人类对棋盘状态的氛围检查(vibe check)。你要训练它同

原文链接:Karpathy观点惹争议:RLHF不是真正的强化学习,谷歌、Meta下场反对

联系作者

文章来源:机器之心

作者微信:

作者简介:

0
分享到:
没有账号? 忘记密码?