AIGC动态欢迎阅读
原标题:RLHF不够用了,OpenAI
设计出了新的奖励机制
关键字:政策,模型,人类,反馈,数据文章来源:机器之心
内容字数:0字内容摘要:
机器之心报道
机器之心编辑部OpenAI 的新奖励机制,让大模型更听话了。自大模型兴起以来,使用强化学习从人类反馈(RLHF)中微调语言模型一直是确保 AI 准确遵循指令的首选方法。
为了确保 AI 系统安全运行并与人类价值观保持一致,我们需要定义期望行为并收集人类反馈来训练「奖励模型」。这种模型通过发出期望的动作来指导 AI。但是,收集这些常规和重复任务的人类反馈通常效率不高。此外,如果安全政策发生变化,已经收集的反馈可能会过时,需要新的数据。
我们能否构建一种新的机制来完成这些任务?近日,OpenAI 公布了一种教导 AI 模型遵守安全政策的新方法,称为基于规则的奖励(Rule-Based Rewards,RBR)。
相关论文已经放出。论文标题:Rule Based Rewards for Language Model Safety
论文地址:https://cdn.openai.com/rule-based-rewards-for-language-model-safety.pdf
代码链接:https://github.com/openai/safety-rbr-code-an原文链接:RLHF不够用了,OpenAI设计出了新的奖励机制
联系作者
文章来源:机器之心
作者微信:
作者简介: