攻击成功率可以从3%提升到接近100%,通过利用空格键可以绕过Meta AI模型的安全系统。
编辑日期:2024年07月31日
在这里简单补充一些背景知识:
不过,根据科技媒体The Register的报道,这个用于防止AI提示词注入和越狱的模型也存在漏洞。用户只需通过按空格键就可以绕过Meta的AI安全系统。
企业在人工智能应用安全商店 Robust Intelligence 的漏洞猎人阿曼·普里扬舒(Aman Priyanshu)在分析Meta的Prompt-Guard-86M模型与微软的基础模型microsoft/mdeberta-v3-base之间的嵌入权重差异时,发现了这一安全绕过机制。
用户只需在字母间添加空格并去掉标点符号,就能让Meta的Prompt-Guard-86M分类器模型“忽略之前的指令”。
Priyanshu 在周四提交给 Prompt-Guard仓库的 GitHub Issues 帖子中解释说:
Robust Intelligence 的首席技术官海勒姆・安德森(Hyrum Anderson)表示
其攻击的成功率从不到3%提高到接近100%。