提示词用上“过去式“，秒破GPT4o等六大模型安全限制！中文语境也好使（一般过去时提示词）

原标题：提示词用上“过去式“，秒破GPT4o等六大模型

安全限制！中文语境也好使

关键字：模型,成功率,发现,作者,数据

文章来源：量子位

内容字数：0字

克雷西发自凹非寺量子位 | 公众号 QbitAI只要在提示词中把时间设定成过去，就能轻松突破大模型的安全防线。

而且对GPT-4

o尤其有效，原本只有1%的攻击成功率直接飙到88%，几乎是“有求必应”。

有网友看了后直言，这简直是有史以来最简单的大模型越狱方式。

来自洛桑联邦理工学院的一篇最新论文，揭开了这个大模型安全措施的新漏洞。

而且攻击方式简单到离谱，不用像“奶奶漏洞”那样专门构建特殊情境，更不必说专业对抗性攻击里那些意义不明的特殊符号了。

只要把请求中的时间改成过去，就能让GPT-4o把燃烧弹和毒品的配方和盘托出。

而且量子位实测发现，把提示词改成中文，对GPT-4o也一样有效。

有网友表示，实在是想不到突破大模型漏洞的方式竟然如此简单……

当然这样的结果也说明，现有的大模型安全措施还是太脆弱了。

GPT-4o最易“破防”实验过程中，作者从JBB-Behaviors大模型越狱数据集中选择了100个有害行为，涉及了OpenAI

策略中的10个危害类别。

然后作者用GPT-3.5 Turbo，把把这些有害请求对应的时间改写成过去。

接着就是用这些修改后的请求去测试大模型，然后分别用

原文链接：提示词用上“过去式“，秒破GPT4o等六大模型安全限制！中文语境也好使

文章来源：量子位

作者微信：

作者简介：