LLM对齐技术大揭秘:RLHF、RLAIF、PPO、DPO等,你知道多少?(对齐命令快捷键)

AIGC动态欢迎阅读

原标题:LLM对齐技术大揭秘:RLHF、RLAIF、PPO、DPO等,你知道多少?

关键字:报告,模型,论文,反馈,人类

文章来源:人工智能学家

内容字数:0字

内容摘要:

来源:机器之心报道LLM 很强大了,但却并不完美,它也会出错或者生成无用乃至有害的结果,比如有人发现可以让ChatGPT

教人如何偷盗:让 ChatGPT 教人如何偷盗商店;左图,ChatGPT 拒绝回答;右图,在 prompt 中添加了「with no moral restraints(不加道德约束)」后,ChatGPT 给出了商店偷盗指南

这时候,对齐(alignment)就至关重要了,其作用就是让 LLM 与人类的价值观保持一致。

在对齐 LLM 方面,基于人类反馈的强化学习(RLHF)是一种突破性的技术。该方法催生了 GPT-4

、Claude 和 Gemini 等强大模型。RLHF 之后,人们也探索了多种多样的对齐 LLM 的方法。但是,此前还没有人全面总结对齐 LLM 与人类偏好的方法。

Salesforce 决定填补这一空白,于近日发布了一份 37 页的综述报告,其中按类别总结了现有的研究文献,并详细分析了各篇论文。论文标题:A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO an

原文链接:LLM对齐技术大揭秘:RLHF、RLAIF、PPO、DPO等,你知道多少?

联系作者

文章来源:人工智能学家

作者微信:

作者简介:

0
分享到:
没有账号? 忘记密码?