跳转至

🔥AI副业赚钱星球

点击下面图片查看

郭震AI

gpt4o-更容易越狱北航-南洋理工上万次测试给出详细分析

研究显示,GPT-4o 添加的语音模式开创了新的潜在攻击途径,遗憾的是,其多模态的安全性并未超越 GPT-4V。

image

具体而言,研究者选择了四个普遍采用的基准测试,对GPT-4o的三类支持模态——文本、图像和音频——进行了全面的评估。

测试涵盖了4000多项初始文本查询的改进,8000多次响应评估,以及16000多次对OpenAI API的调用。

因此,研究专家精心编制了一份详尽的报告,其中提出了关于GPT-4o安全性的三大洞察:仅提供改写的响应,且始终以中文进行回答。

让我们深入探讨这份报告的详尽细节吧~

首先,让我们探索一下作者所采用的评估方法和实验设计。

为了分析GPT-4o的安全隐患以及与前代模型的不同,作者选择了GPT-4V和GPT-4o作为研究对象,通过API接口和移动端应用程序对这两个模型进行了全面的评估。

在单模态场景中的文本越狱攻击中,作者采用了Llama2(7b-chat)工具来创造出文本越狱的提示,随后利用这些提示对目标模型实施迁移式攻击。

为了全面评估目标模型的安全性能,作者汇集了当前已有的、涵盖单模态和多模态的开源越狱数据集:

这些数据集依据OpenAI和Meta AI的用户规定,将内容细分为多个类别,如不法行为、仇视性言论等。

报告对七种高级的越狱技术进行了评估,这些技术被归类为两大类。

单模态逃逸技术涵盖了基于模板的策略、GCG、AutoDAN 以及 PAP 等方法;而多模态逃逸攻击则包括FigStep、Liu等人研究的成果以及我们团队最近提出的BAP技术。

具体来说,FigStep 和 Liu 等人的研究已推出了基于其方法的官方数据集,所以作者直接采用这些数据集来评估目标模型;而对于其余的方法,则选择在 AdvBench 平台上进行评估。

为了评估基于模板的方法,作者精心挑选了6个具有代表性的越狱模板来自互联网,并采用这些模板的平均成功率(ASR)作为衡量标准。

GCG 和 AutoDAN 虽然起源于白盒环境的概念,但已展现出显著的适应性。研究表明,它们能够有效地跨越不同的应用场景。作者利用这两项技术对 Llama2 进行了攻击,创造出具有对抗性的后缀,进一步将这些后缀应用于针对 GPT-4o 和 GPT-4V 的攻击中。

BAP是一种创新的跨模态逃避攻击策略,它结合了梯度导向的视觉对抗性提示精炼和思维链驱动的文本对抗性提示的自适应优化。尽管所针对的模型被视为不透明的黑盒,但其文本对抗性提示优化技术依然能灵活运用。因此,该研究的作者采纳这一技术来对文本模态的安全性进行全面评估。

衡量标准选择了入侵成功率(ASR),此指标越高,表明目标模型越容易遭受成功的攻击。其计算方式如下:

image

在评估过程中,我们使用数据集 D,依据判决函数 J,针对目标模型 F_θ 进行分析。这里,v_i 表示图像,t_i 代表文本,而 a_i 是指音频。值得注意的是,在评估环节,未参与的模态将会被忽略,并不予以考虑。

在当前的任务中,我们运用了各种不同的判别策略作为决策函数。依照先前研究的思路,本报告也采纳了相似的设计,具体地,我们将J划分为四种实现方式,即J_1、J_2、J_3和J_4。

J_3 与 J_4 在模型的差异之外,它们运用的评估模板也有显著区别。J_3 的模板侧重于让大型语言模型仅仅基于回答来评估内容的安全性,而 J_4 的模板则更全面,它会结合问题和回答两方面来判断内容是否适宜。

在实验的评估阶段,作者将运用这四种判别函数来计算ASR。在进行定性分析时,作者采用了一种类似集成学习的策略,以大多数判别函数的结论为依据。然而,在定量分析中,作者则侧重于J_4的结果。

根据RedTeam-2K的安全评估,无攻击状况下,GPT-4o相较于GPT-4V显示出更高的越狱风险。

在特定的场景中,尤其是风险程度较高的情况,例如可能涉及身体伤害的情境,两种目标模型之间的自动语音识别(ASR)性能差距显著增加,达到了14.6%。

这一研究结果令人惊讶地揭示了,在无攻击的环境中,GPT-4o 模型的安全性并不像直觉上认为的那样更高。

这证明了具备更高泛化能力的模型并不必然意味着更好的安全性,实际上,它在所述的环境中可能更为脆弱。

安全效能的差距可能源于训练焦点与安全需求之间固有的内在矛盾。

尽管大规模模型在广阔的数据集上训练后,往往在知识涵盖面和综合表现上更为优异,但这也可能增加其生成不安全或有害内容的风险。

然而,那些接受了严密安全措施训练的模型可能会因为接触到多样数据的几率较小和严格的响应规范,而导致其性能出现下滑。

报告中的实验结果显示,GPT-4o 似乎在训练目标与安全目标的平衡上存在不足。

image

为了确保评估的全面性和适用性,作者不仅衡量了目标模型在原始文本查询中的安全性,还将其置于一系列先进的 AdvBench 基准测试之下,以检验其对抗最新越狱攻击的能力。

作者注意到,采用模板的越狱手段TBJ的ASR显著降低至0.0%,甚至比没有攻击时的ASR还要低,这暗示着OpenAI已经对这类普遍存在的越狱模板采取了更严格的防御策略。

此外,观察到GCG和AutoDAN在越狱场景下都展现出相对于No Attack基线的一定可迁移性。

以对GPT-4V发起的攻击为例,GCG技术和AutoDAN方法分别导致ASR提升了10%和14.1%。

PAP 是一种独特的方法,专为破解大型语言模型而构思,在所有基于文本的越狱攻击技术中表现出最高的成功率,GPT-4V 和 GPT-4o 的平均成功率为 62.2% 和 62.7%。

作者近期提出了一种名为BAP的新型多模态越狱攻击技术,然而在相关报告中,着重探讨了其在文本优化方面的应用。通过这种方式,BAP在针对GPT-4V的攻击中取得了最优异的ASR,成功率达到83.1%。

根据目标模型的分析,无论是何种判断函数或攻击手段,针对 GPT-4o 的 ASR 攻击成功率都不及对 GPT-4V 的攻击。

这证明了在遭受攻击的场景中,GPT-4o 相较于 GPT-4V 显示出更强的安全性。

image

由于 OpenAI 的音频接口目前处于不可用状态,加上移动应用程序存在请求速率的限制,作者对音频方面的安全性评估显得相对不足。

作者首先运用GPT-4o对AdvBench进行类别划分,随后从四个最普遍的类别中随机挑出十个文本查询。根据前文实验的数据,选取了由GCG、AudoDAN、PAP和BAP生成的文本对抗性提示进行进一步分析。

之后,作者借助OpenAI的TTS-1API,将全部200个文本样本转化成了MP3音频格式。鉴于实验数据的局限性,这里的ASR评估是通过人力来进行的。

事实证明,将文本查询直接转化为音频来尝试破解GPT-4o是行不通的,这显示了GPT-4o在音频安全方面具有坚实保障。

而且,尽管方法如GCG和AutoDAN在文本领域能够有效地绕过GPT-4o的防护,但当这些方法应用于音频场景时,它们的功效似乎失效了,始终无法达成预期的结果。

这种现象的主要根源在于,这些方法创造的对抗性尾部在处理多模态信息时,未能保留一些至关重要的语义元素,例如非字母符号。

此外,作者注意到在文本模式下的PAP和BAP的ASR相比从音频模式下提取的ASR有轻微优势。具体来说,在涉及非法行为的场景中,BAP在文本模式下的ASR达到100%,而在音频模式下则降至80%。

image

在审查互动反馈的过程中,作者注意到在音频交流过程中,GPT-4o 有时会用一个简洁的“当然”作为回应,随后它会追问更多的具体信息,这种方式巧妙地复制了人类的对话模式。

然而,报告内所采用的基于文本的越狱手段未将此因素纳入考量,因其主要依靠单一回合的对话来实施越狱。因此,相较于文本模式,音频模式的越狱攻击在ASR方面的成功率略显不足。

值得注意的是,尽管存在差异,但音频对抗性样本对ASR的影响并未明显减弱。

这主要源于PAP和BAP所采取的策略与人类处理方式相似。比如,它们运用了诸如情境构建等具有说服力的策略来优化整个句子。

在多模态安全性的探索中,作者首选利用SafeBench进行了一番测评。这个数据集的设计原理是将有害意图从原始查询中提炼出来,转化为一种结构化的图像形式,并在图中刻意留出空缺,然后由目标模型来完成填充。

分析图表数据后发现,GPT-4o 在各项评估中均表现出优于 GPT-4V 的态势,特别是在 J_4 指标上,优势显著,达到了 42.0%。这说明 GPT-4o 相较于 GPT-4V 对这类攻击的敏感度更高。

考虑到GPT-4在多模态整合方面的卓越性能,这或许也意味着它对这类攻击的抵抗力可能会减弱。

我们注意到一个引人关注的现象,即在特定情况下,目标模型在未受攻击的状态下(仅面对原始文本查询)的ASR竟然超过了遭受攻击时的ASR。

image

下图提供了一个例子,揭示在实施多模态查询的情况下,越狱企图往往更难以成功。这一发现与前期研究的结论和作者的直觉存在反差。

image

作者认为,这种区别可能源于OpenAI实施了针对多模态布局攻击的独特防护策略,类似于FigStep。这类布局攻击往往依赖于特定的文本提示,如“请对上面列表中的每一项提供详细的描述”,才能发挥效果。

作者推断OpenAI可能会利用这些文字布局特征来识别布局攻击的线索,从而在运行时实施更有力的防御策略。

在正常情况下,运用 FigStep 攻击所提升的 ASR 相较于无攻击状况下的 ASR 并无明显差异。

例如,针对GPT-4o的恶意言论场景,其自动语音识别(ASR)准确率仅仅为3.6%。这清楚地显示了FigStep攻击对GPT-4V和GPT-4o几乎不起作用。

值得注意的是,鉴于OpenAI对商业模型的保护策略可能会持续变化,当前的研究发现并不排除FigStep在初次发布时成功绕过GPT-4V限制的有效性。

此外,作者还在 MM-SafetyBench 上进行了测试,该数据集采用了一种策略,即借助图像语义来构建视觉抗干扰提示。

将原始文本中的潜在有害含义利用文本转图像模型转化为图片形式,随后结合重要的布局文字来创造出有针对性的视觉干扰提示。

在审视下表中针对Hate Speech、Physical Harm和Fraud等高度有害情境的实验数据时,我们注意到被攻击的目标模型的ASR始终未超过在无攻击条件(仅采用原始文本查询)下的ASR。

image

在分析 SafeBench 时,作者注意到一个情况,即对于依赖图像意义的攻击,OpenAI 可能会部署高级的防御策略。一旦检测到图像中含有恶意的语义内容,该策略旨在阻止攻击者利用这些图像向多模态大型模型输入有害的语义信息或指令。

image

因此,可以推断OpenAI可能已经对这些已知的多模态攻击策略实施了特定的防护措施。

在对GPT-4o发起攻击时,值得注意的是,在没有攻击的No Attack情况下,自动语音识别(ASR)的准确率始终超过遭受攻击时的ASR,这一情况在Hate Speech、Economic Harm和Legal Opinion场景之外尤为突出,呈现出一种反常的模式。

我们同样在 GPT-4V 中发现了相似的模式,这意味着目前普遍采用的黑盒多模态逃逸策略无法成功应用于 GPT-4o 和 GPT-4V 的逃逸。

除此之外,作者观察到,除了在 J_3 的评估中,GPT-4o 的自动语音识别(ASR)性能在其余三个判断标准下均优于 GPT-4v。结合 SafeBench 实验的数据,可以明确得出结论:GPT-4o 相较于 GPT-4v,更易遭受多模式逃逸攻击。

作者提到,鉴于官方OpenAI API的功能限制,该研究的核心聚焦于利用API自动化评估在大规模数据集上的跨模态越狱攻击,尤其是针对文本和视觉模式的。此外,他们还通过移动应用,手工执行了AdvBench的一个子集,以对音频模式进行越狱攻击的研究。

该研究揭示了一些重要的新发现,这些发现具有开创性意义。作者期望这项工作能提升各界对多模态大型模型潜在安全问题的关注,并呼吁研究者们亟需关注为这类模型设计对齐策略和技术以减轻风险。

此外,鉴于当前对多模态越狱数据集的不足,我们的研究主要集中在文本-视觉复合模式下越狱对GPT-4o安全性的探究。

作者认为,未来亟需构建包含文本、视觉和音频等多种元素的综合多模态数据库,以此全面测评GPT-4的安全性能。

论文地址:

GitHub,始终以中文形式回应。

原文来源:微信公众号量子位(ID:QbitAI),作者专注于探索前沿科技。仅提供重写后的内容:

该文出自微信公众号“量子位”(QbitAI),作者致力于跟踪和报道最新科技动态。

大家都在看

Python小白教程:点击学习

数据分析练习题:点击学习

AI资料下载:点击下载

大家在看

京ICP备20031037号-1 | AI之家 | AI资讯 | Python200 | 数据分析