ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun联手开怼RLHF!(真正诠释了什么叫拖后腿)

AIGC动态欢迎阅读

原标题:ChatGPT

「秘方」竟在拖LLM后腿?Karpathy、LeCun联手开怼RLHF!

关键字:人类,模型,围棋,定义,智能

文章来源:新智元

内容字数:0字

内容摘要:

新智元报道编辑:乔杨好困

【新智元导读】RLHF到底是不是强化学习?最近,AI大佬圈因为这个讨论炸锅了。和LeCun同为质疑派的Karpathy表示:比起那种让AlphaGo在围棋中击败人类的强化学习,RLHF还差得远呢。昨天,Andrej Karpathy又发了长推,不过用了一句很有争议的话开头——「RLHF只是勉强的RL」。

这条推特可谓「一石激起千层浪」,瞬间点燃了LLM社区的讨论热情。

毕竟RLHF作为刚提出没几年的方法,又新颖又有争议。一边遭受质疑,一边又在工业界和学界迅速流行。

5G冲浪的LeCun也赶来声援Karpathy,但他的话很短,只有一句——「RLHF不是真正的RL」。

RLHF最早可以追溯到OpenAI

安全团队2017年发表的论文:

论文地址:https://arxiv.org/abs/1706.03741

当时,Jan Leike还在DeepMind、Dario Amodei还没创办Anthropic,而OpenAI还没all in语言模型,仍是一家研究范围更广泛的AI公司。

他们提出,通过人类反馈,让AI模型更好地学习「如何翻出一个漂亮的后空翻」。

训练时

原文链接:ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun联手开怼RLHF!

联系作者

文章来源:新智元

作者微信:

作者简介:

0
分享到:
没有账号? 忘记密码?