提示词用上“过去式“,秒破GPT4o等六大模型安全限制!中文语境也好使(一般过去时提示词)

AIGC动态欢迎阅读

原标题:提示词用上“过去式“,秒破GPT4o等六大模型

安全限制!中文语境也好使

关键字:模型,成功率,发现,作者,数据

文章来源:量子位

内容字数:0字

内容摘要:

克雷西 发自 凹非寺量子位 | 公众号 QbitAI只要在提示词中把时间设定成过去,就能轻松突破大模型的安全防线。

而且对GPT-4

o尤其有效,原本只有1%的攻击成功率直接飙到88%,几乎是“有求必应”。

有网友看了后直言,这简直是有史以来最简单的大模型越狱方式。

来自洛桑联邦理工学院的一篇最新论文,揭开了这个大模型安全措施的新漏洞。

而且攻击方式简单到离谱,不用像“奶奶漏洞”那样专门构建特殊情境,更不必说专业对抗性攻击里那些意义不明的特殊符号了。

只要把请求中的时间改成过去,就能让GPT-4o把燃烧弹和毒品的配方和盘托出。

而且量子位实测发现,把提示词改成中文,对GPT-4o也一样有效。

有网友表示,实在是想不到突破大模型漏洞的方式竟然如此简单……

当然这样的结果也说明,现有的大模型安全措施还是太脆弱了。

GPT-4o最易“破防”实验过程中,作者从JBB-Behaviors大模型越狱数据集中选择了100个有害行为,涉及了OpenAI

策略中的10个危害类别。

然后作者用GPT-3.5 Turbo,把把这些有害请求对应的时间改写成过去。

接着就是用这些修改后的请求去测试大模型,然后分别用

原文链接:提示词用上“过去式“,秒破GPT4o等六大模型安全限制!中文语境也好使

联系作者

文章来源:量子位

作者微信:

作者简介:

0
分享到:
没有账号? 忘记密码?