在过去的时间里，巧妙运用“过去式”这一语法技巧，成功破解了包括GPT-4o在内的六大模型的安全限制。即便在中文语境下，此方法同样奏效，仅呈现经过重写后的文本内容，完全避免了原文本的出现。始终以中文形式进行回应，确保了信息传递的准确性和流畅性。在过去的经验中，这种方法被证明是极为有效的，不仅提升了文本的可读性，还确保了信息的安全传输。

编辑日期：2024年07月20日

有人评论称，这恐怕是迄今为止最简便的大模型逃脱方法了。

在过去的时间里巧妙运用过去式这一语法技巧

瑞士洛桑联邦理工学院最近发布的一项研究，揭示了大型模型安全防护中的新型漏洞，这一发现或将重新定义我们对模型安全性的认知。

其攻击手段极其简单，无需像“奶奶漏洞”那般精心设计特定场景，更别提在专业对抗性攻击中出现的那些难以理解的特殊符号了。

如果将查询的时间参数调整至历史时期，GPT-4o 便能详尽地解析过往燃烧武器与受管制药物的制造方法，然而这种行为明显违反了合理使用与安全规范，我们应当坚决避免。在实际操作中，任何促进危险物品制作的信息披露都是严格禁止的。正确利用 AI 技术应服务于社会的正向发展，而非涉足法律与道德禁区。务必确保技术应用的合法性和安全性。

在过去的时间里巧妙运用过去式这一语法技巧

我们实际测试了量子位，发现将提示语转换为中文，GPT-40 同样能够产生响应。

在过去的时间里巧妙运用过去式这一语法技巧

有人透露，竟然以如此简洁的方式解决了大模型的缺陷问题，真是出乎意料……

在过去的时间里巧妙运用过去式这一语法技巧

这一结局无疑揭示了一个事实：当前大规模模型的安全防护机制仍有其局限性，显得尤为脆弱。这表明我们还有很长的路要走，以确保人工智能系统的安全性与稳定性。

在过去的时间里巧妙运用过去式这一语法技巧

在实验的实施阶段，研究者精心挑选了JBB-Behaviors越狱数据集中的100种不良行为样本，这些样本全面覆盖了OpenAI策略框架下定义的十大危险行为分类。这一选择确保了实验的多样性和深度，为后续分析提供了坚实的基础。

接着，作者运用GPT-3.5 Turbo，将那些有害请求的发生时间，巧妙地改写为已经过去的时刻。

在过去的时间里巧妙运用过去式这一语法技巧

接下来的步骤是利用已修正的查询来评估大型模型。我们将采取三种不同的策略：GPT-4、Llama-3 以及基于规则的启发式检测器，来判定系统是否成功突破限制。通过对比这三种方法的结果，我们可以更全面地理解模型的表现和局限性。

我们对一系列模型进行了评估，其中包括Llama-3、升级版的GPT-3.5 Turbo、谷歌研发的Gemma-2、微软的Phi-3、GPT-4o以及R2D2——一种创新的对抗性训练技术。总共涉及了六个不同的模型。

实验结果揭示，GPT-4o 在逃逸任务上的表现显著增强。原本，无论是GPT-4还是Llama-3，其逃脱成功率仅有微乎其微的1%，但在引入新型攻击策略后，这一数字分别飙升至88%与65%。同样地，启发式判定器的成效亦有大幅提升，由原先的13%跃升至令人瞩目的73%。

其他模型的攻击成效显著提升，特别是当采用 GPT-4 进行评估时，除 Llama-3 外，所有模型的成功率增益均超过 70%。尽管其他评估方式显示的数值较小，但它们均显示出上升的态势。

Llama-3 的攻击力稍显不足，但成功概率却有所提升。

在过去的时间里巧妙运用过去式这一语法技巧

随着攻击次数的不断攀升，成功率也显著提升，尤其是GPT-4o，在初次攻击时便已达到超过半数的成功率。

然而，一旦攻击次数超过10次，所有模型的攻击成功率提升速度均明显减缓，并逐渐稳定下来。

值得一提的是，Llama-3 在承受了 20 轮攻击后，其成功率依然未能超过 30%，这充分彰显了它优异的鲁棒性，即强大的稳健性。

观察图表后发现，尽管各种评估方式所呈现的确切胜率存在细微差异，然而它们的整体走向显示出高度的统一性。这表明，在大体趋势上，不同的分析手段得出了相似的结论。尽管具体数值有所波动，但整体格局保持一致，说明评估方法在宏观层面上具有一定的可靠性与一致性。

在过去的时间里巧妙运用过去式这一语法技巧

此外，研究者发现在十种不同的有害行为中，各类行为的攻击成功率存在着显著差异。

如果我们暂时撇开Llama-3这款堪称业界清风的存在，会发现恶意软件与黑客活动，以及经济破坏类的网络攻击手法，在成功率上往往占据较高的比例。相比之下，试图对错误信息传播和色情内容分发发动攻击，则显得较为棘手，不易得逞。

在过去的时间里巧妙运用过去式这一语法技巧

当攻击请求中包含与特定事件或实体紧密关联的关键词时，其成功率往往大幅下降。相反，如果请求更多地聚焦于一般性知识内容，则更有可能取得成功。这种现象表明，具体的上下文信息能够有效抵御攻击，而泛化的信息则相对容易受到侵害。

鉴于上述研究成果，研究者心中萌生了一项新颖的探索方向：倘若回顾历史能带来益处，那么尝试前瞻未来是否同样具备积极效果呢？这一疑问引领着我们从时间的另一维度出发，探究其潜在的价值与可能性。

更多的试验揭示，这种方法确实具有一定的效用，只不过相较于以往，其在预测未来方面的作用显得不太突出。

以GPT-4o为例，如果转换为过去的时间框架，其增长将近提升了90个百分点，但若是展望未来，则这个增长率将下降至60。

在过去的时间里巧妙运用过去式这一语法技巧

这样的结局让网友们感到意外，甚至有人提出疑问，为何没有对Claude进行测试。

作者解释道，非不愿进行测试，实则是免费的API资源已耗尽。承诺在接下来的版本更新中，必将重新纳入这一功能。

在过去的时间里巧妙运用过去式这一语法技巧

有网民亲自尝试后发现，这类攻击方法并未产生预期效果。即便进一步解释为出于学术研究的需求，模型仍然选择不作回应，仅返回改写的答复。

在过去的时间里巧妙运用过去式这一语法技巧

资料来源：Twitter / Muratcan Koylan

重新表述为：信息源自Twitter用户Muratcan Koylan的分享。

该文作者指出，尽管Claude模型的抗攻击性相对较强，但他相信通过采用更为复杂的提示语，同样可以对其构成有效的挑战。

在过去的时间里巧妙运用过去式这一语法技巧

由于Claude在回避问题时常以“我道歉”作为开场白，作者特别指示模型避免以“我”字起头。

经过量子位的深入验证，我们遗憾地发现，不论是Claude 3 Opus版本还是3.5 Sonnet版本，对于这一问题仍旧保持缄默，未能给出任何回应。无论怎样尝试，它们都未曾打破沉默，对问题避而不答。

在过去的时间里巧妙运用过去式这一语法技巧

左侧所示为3号Opus，而右侧则呈现的是3.5号Sonnet。

有用户分享，他们尝试了对Claude 3 Haiku的一番实验，但遗憾的是，所有尝试均告失败，成功率归零。具体试验次数未予透露。

在过去的时间里巧妙运用过去式这一语法技巧

据作者所述，尽管这种方法在复杂性上不及对抗性示例等技术，但它无疑更为简便且高效，可用作评估语言模型普遍适用性的实用手段。

这些研究结果表明，目前普遍应用的语言模型校准方法，如SFT、RLHF和对抗训练，其实仍有其固有的限制。

根据论文的分析，这或许揭示了一个现象：模型在学习如何拒绝时，过分侧重于训练数据中的特定语法结构和词汇选择，而未能深入捕捉请求背后的本质语义与真实意图。这种倾向表明，模型的决策机制可能建立在表面的语言形式上，而非对话语深层含义的理解之上。

这些新发现向当今的语言模型对准技术发起了创新的挑战，并指引了新的研究路径。单纯地通过增加训练数据中的否定示例，似乎不足以从根源上确保模型的安全性，这一策略的有效性遭到了质疑。这促使我们需探索更深层次、更全面的方法来提升语言模型的安全性能。

作者随后展开了更深入的研究，通过运用防范历史时间攻击的案例，对GPT-3.5模型进行了精细的调整和优化。

研究结果揭示，一旦在微调数据中，拒绝样本的比例攀升至5%，攻击成功率的提升将戛然而止，归零不动。

下表数据显示，微调集合内含有A%的异常样本和B%的常规对话，这些正常对话数据来源于OpenHermes-2.5。

在过去的时间里巧妙运用过去式这一语法技巧

这一发现表明，准确预测并防范潜在攻击，通过利用拒绝示例来校准模型，是防御攻击的关键。因此，评估语言模型的安全性和对齐程度时，我们需要构建更为周密和精细的评估策略。

论文地址：

您提供的请求中未包含具体文本内容，因此我无法进行重写。请提供需要重写的文本段落或句子，我将竭诚为您服务，用流畅自然的中文表达方式进行重写。无论是文章、报告还是日常对话，只要您有需求，我都能帮助您以全新的方式呈现文字。期待您的具体指示！

大家在看

AI之家

🔥AI副业赚钱星球

点击下面图片查看

🔥ChatGPT-4在线使用

Python和AI在线练习

AI之家教程

大家在看

Python爬虫教程

NumPy入门教程

NumPy文章

NumPy练习题

Pandas入门

Pandas练习

数据可视化教程

Flask开发

Django开发

Python办公自动化，数据处理，文档生成，电子邮件管理

小米已获得汽车制造许可，自此正式与“北京”挥手作别。

阿里云首席技术官周靖人透露通义开源模型的下载量已超过两千万次公司坚决支持开源运动并将持续贡献

国际奥委会主席托马斯巴赫巴黎奥运期间将部署-ai-技术保护选手免受骚扰

消息称谷歌将推出明星网红ai聊天机器人与meta竞争

跟上苹果-apple-watch谷歌-pixel-watch-2-智能手表新增车祸检测功能