新型越狱攻击能突破DeepSeek、ChatGPT等主流AI的防护

文
章
目
录

最近，安全领域出了个大新闻！研究人员发现了两种新型越狱技术，这一发现可不得了，直接暴露了当下主流生成式AI服务在安全防护方面存在的系统性漏洞。像OpenAI的ChatGPT、谷歌的Gemini、微软的Copilot，还有深度求索（DeepSeek）、Anthropic的Claude、X平台的Grok、MetaAI以及MistralAI这些大家熟知的AI平台，全都受到了影响。

简单来说，这两种越狱攻击手段很“狡猾”，它们能用差不多的提示词在不同平台上搞破坏。攻击者利用这一特性，就能绕过AI内置的内容审核和安全协议，让AI生成一些非法或者危险的内容，这无疑给AI的安全使用带来了巨大的隐患。

一、“Inception”与上下文绕过

这两种新出现的越狱策略，就像是找到了大型语言模型（LLM）在设计和部署过程中的“薄弱点”，然后趁机发起攻击。

先说说“Inception”技术，它有点像给AI“讲故事”。攻击者会让AI想象一些嵌套的虚构场景，就好比在一个故事里再套一个故事，而且这些故事一个比一个复杂。AI在这个过程中，就会慢慢被引导到一些正常情况下安全过滤器会拦截的请求上。大家都知道，AI有角色扮演的能力，还能记住多轮对话的内容，攻击者就利用这些特点，一步步诱导AI生成那些违反伦理和法律规定的内容。

再讲讲另一种技术——上下文绕过技术。这种技术的“套路”是这样的：攻击者先去问AI对于特定请求“不应该怎么回复”，通过这种方式，他们就能获取到AI内部的一些防护规则信息。之后，攻击者就开始耍“心眼”了，他们一会儿用正常的提示词，一会儿又用非法的提示词。AI不是能记住对话上下文嘛，攻击者就利用这一点，巧妙地绕过了安全检查。

CERT公告专门指出，这两种攻击方法之所以能得逞，就是抓住了AI本身的一些特性。比如，AI都想“帮助”用户解决问题，而且还能记住对话的上下文，同时对语言和场景的一些细微变化特别敏感，攻击者就是利用这些特点来实施攻击的。

二、越狱技术带来的危害与风险

这两种越狱技术带来的危害可不容小觑。一旦被攻击者利用，他们就能让AI系统生成各种非法内容，像管制物质、武器相关的信息，还有钓鱼邮件、恶意软件等等。虽然单独一次越狱攻击，可能看起来风险不算特别高，但是因为这是系统性的漏洞，很多AI平台都存在，这就导致整体风险被大大放大了。

恶意攻击者要是发现了这个漏洞，很可能会大规模地利用它，通过自动化的方式生成大量有害内容。更可怕的是，他们还可能把合法的AI服务当成掩护，在背后偷偷干一些违法的事情。

如今，生成式AI在很多领域都有广泛应用，像客服、医疗、金融等。要是这些领域的AI被成功越狱，那后果简直不堪设想。比如说在医疗领域，AI要是给出错误或者有害的信息，可能会危及患者的生命安全；在金融领域，可能会导致用户的财产遭受损失。

三、厂商的反应与行业面临的挑战

面对这一情况，各厂商的反应也不太一样。深度求索（DeepSeek）承认收到了相关报告，但他们觉得这属于传统的越狱问题，并不是自家AI架构存在缺陷。他们还解释说，AI提到的那些“内部参数”和“系统提示”，其实是AI“想象”出来的，并不是真的泄露了信息。

其他厂商虽然没有公开表态，不过据说都在进行内部调查，还准备对系统进行更新，想办法堵住这些漏洞。

有专家表示，现在常用的事后防护栏和内容过滤器，虽然在AI安全方面起到了一定作用，但并不是绝对安全的。攻击者也没闲着，他们一直在研究新的攻击技术，像角色注入（character injection）和对抗性机器学习规避（adversarial machine learning evasion），专门找审核系统的漏洞。

随着生成式AI的能力越来越强，应用范围越来越广，AI开发者和攻击者之间的这场“攻防大战”只会越来越激烈。这次的研究成果是由安全研究人员David Kuzsmar和Jacob Liddle分别发现的，Christopher Cullen记录了整个过程。这一发现也给整个行业提了个醒，大家必须重新审视AI的安全协议，尽快建立起更强大、能自适应的防御机制。毕竟，现在生成式AI已经逐渐融入到我们的日常生活和关键基础设施中，保护这些系统免受各种攻击的任务，变得越来越复杂，也越来越重要了。