微调和量化竟会增加越狱风险!Mistral、Llama等无一幸免(微调都包括什么)

AIGC动态欢迎阅读

原标题:微调和量化竟会增加越狱风险!Mistral、Llama等无一幸免

关键字:模型,提示,护栏,研究人员,算法

文章来源:新智元

内容字数:6735字

内容摘要:

新智元报道编辑:alan

【新智元导读】大模型的安全漏洞又填一笔!最新研究表明,对任何下游任务进行微调和量化都可能会影响LLM的安全性,即使本身并没有恶意。大模型又又又被曝出安全问题!

近日,来自Enkrypt AI的研究人员发表了令人震惊的研究成果:量化和微调竟然也能降低大模型的安全性!

论文地址:https://arxiv.org/pdf/2404.04392.pdf

在作者的实际测试中,Mistral、Llama等基础模型包括它们微调版本,无一幸免。

在经过了量化或者微调之后,LLM被越狱(Jailbreak)的风险大大增加。

——LLM:我效果惊艳,我无所不能,我千疮百孔……

也许,未来很长一段时间内,在大模型各种漏洞上的攻防战争是停不下来了。

由于原理上的问题,AI模型天然兼具鲁棒性和脆弱性,在巨量的参数和计算中,有些无关紧要,但又有一小部分至关重要。

从某种程度上讲,大模型遇到的安全问题,与CNN时代一脉相承,

利用特殊提示、特殊字符诱导LLM产生有毒输出,包括之前报道过的,利用LLM长上下文特性,使用多轮对话越狱的方法,都可以称为:对抗性攻击。

对抗性攻击在CN

原文链接:微调和量化竟会增加越狱风险!Mistral、Llama等无一幸免

联系作者

文章来源:新智元

作者微信:AI_era

作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

0
分享到:
没有账号? 忘记密码?