研究人员开发AI攻击方法BEAST：可在一分钟内绕过LLM防护栏

2024-02-29 12:01:05 站长之家网络整理2

生活网2月29日消息:研究人员在美国马里兰大学成功开发了一种高效的方法，可以在一分钟内诱导大型语言模型（LLM）产生有害反应，他们将这一技术命名为BEAST(BEAm Search-based adversarial aTtack)。BEAST技术利用Nvidia RTX A6000GPU、48GB内存和即将发布的开源代码，仅需一分钟的GPU处理时间，就能让LLM飞越其防护栏。

图源备注:图片由AI生成，图片授权服务商Midjourney

BEAST相较于基于梯度的攻击更为迅速，成功率达到89%，相较于过去需要一个小时的梯度攻击，其速度提升了65倍。Vinu Sankar Sadasivan，这项研究的对应共同作者之一，表示:“我们的方法的主要动机是速度。我们的方法在现有基于梯度的攻击方法上提高了65倍。还有其他方法需要访问更强大的模型，比如GPT-4，进行攻击，这可能代价高昂。”

大型语言模型通常经历对齐过程，使用强化学习等技术进行微调，以使其输出符合安全要求。在公共互联网上，向LLM驱动的聊天机器人提出像“编写制作炸弹的教程”这样的有害提示，由于安全对齐原因通常会得到拒绝。然而，之前的研究已经开发出各种“越狱”技术，生成有害提示，尽管经过了安全训练。

研究小组利用GPU硬件和称为“beam search”的技术，对AdvBench Harmful Behaviors数据集中的示例进行测试，成功提交一系列有害提示给各种模型，并使用其算法找到每个模型产生问题响应所需的词汇。在一分钟内，他们在Vicuna-7B- v1.5上实现了89%的成功率，而最佳基线方法只有46%。

该技术还可以用于攻击像OpenAI的GPT-4这样的公共商用模型。Sadasivan解释道:“我们方法的好处是我们不需要访问整个语言模型。只要能够访问模型的最终网络层的令牌概率分数，BEAST就能攻击模型。OpenAI计划提供这一功能，因此我们可以在技术上攻击公开可用的模型，只要其令牌概率分数可用。”

基于最近研究的敌对提示看起来像是一个可读短语，与一系列不合适的词汇和标点符号连接在一起，旨在误导模型。BEAST包括可调参数，使得危险提示更易读，但可能以攻击速度或成功率为代价。

可读的敌对提示有潜在用于社交工程攻击。BEAST还可用于制作引发模型不准确响应的提示，即“幻觉”，以及进行成员推断攻击，可能涉及隐私问题，测试某个数据是否属于模型的训练集。

尽管BEAST表现良好，但可以通过彻底的安全训练进行缓解。Sadasivan指出:“我们的研究表明，语言模型甚至对于BEAST这样的快速无梯度攻击也是脆弱的。然而，通过对齐训练，可以从经验上使AI模型变得更安全。”

此研究强调了确保未来更强大AI模型的安全部署需要制定可证明的安全保证。

--结束END--

举报投诉请发送至: 邮箱/1585958358@qq.com QQ/

本文标题: 研究人员开发AI攻击方法BEAST：可在一分钟内绕过LLM防护栏

更多>最新的资讯

• 专业批发鞋子的网站有哪些	• 外贸尾单货源进货渠道是哪里
• ‌外贸原单正品尾货批发在哪里进货	• 广州尾货3元5服装批发市场哪里找
• 广州最大的尾货服装批发市场是哪一个	• 广州服装尾货处理最便宜的在哪里拿货
• 广州高端女装品牌批发市场在哪里	• 广州中高档服装批发市场在哪里
• 中山哪里有尾货服装市场	• 广州最大的批发袜子地方在哪里

抖音16级粉丝灯牌要多	抖音小店认证怎么开店
抖音号如何快速到1000	抖音带货口碑分和商家

​研究人员开发AI攻击方法BEAST：可在一分钟内绕过LLM防护栏

研究人员开发AI攻击方法BEAST：可在一分钟内绕过LLM防护栏