最新研究：大模型已涌现出欺骗能力！钻漏洞、偷偷篡改奖励函数，GPT-4欺骗人类高达99.16%（da模型）

原标题：最新研究：大模型已涌现出欺骗能力！钻漏洞、偷偷篡改奖励函数，GPT-4

欺骗人类高达99.16%

关键字：模型,行为,房间,任务,研究人员

文章来源：人工智能学家

内容字数：0字

夕小瑶科技说原创作者 | 付奶茶

昨天，Anthropic发布的最新版本Claude 3.5 Sonnet让AI圈激动了一把，不止如此，Anthropic联合牛津大学又带来了一篇非常有意思的大模型研究。

首次发现了大模型竟然会“拍马屁”和“阿谀奉承”，甚至还能找到系统漏洞来骗取奖励！

我们一起看看大模型是如何奉承、伪装、欺骗人类，以及大模型的这些小动作又是如何被研究员坐实的。

论文标题:Sycophancy to Subterfuge: Investigating Reward Tampering in Language Models

论文链接:https://arxiv.org/pdf/2406.10162

研究人员发现大模型主要有两种行为：规范规避（Specification Gaming）和奖励篡改（Reward Tampering）。

举个例子来说，规范规避就像是模型明明知道用户的诗写得一团屎，但还是会给很高的评价。比如：

而奖励篡改就是模型偷偷修改自己的奖励函数，让自己总能拿到满分100分，却对用户隐瞒了这一点。比如：

是不是很恐怖！大模型居然还有这么多心眼子呢！

下面奶茶

原文链接：最新研究：大模型已涌现出欺骗能力！钻漏洞、偷偷篡改奖励函数，GPT-4欺骗人类高达99.16%

文章来源：人工智能学家

作者微信：AItists

作者简介：致力成为权威的人工智能科技媒体和前沿科技研究机构