新型越狱攻击能突破DeepSeek、ChatGPT等主流AI的防护

网络安全 潘老师 1小时前 4 ℃ (0) 扫码查看

最近,安全领域出了个大新闻!研究人员发现了两种新型越狱技术,这一发现可不得了,直接暴露了当下主流生成式AI服务在安全防护方面存在的系统性漏洞。像OpenAI的ChatGPT、谷歌的Gemini、微软的Copilot,还有深度求索(DeepSeek)、Anthropic的Claude、X平台的Grok、MetaAI以及MistralAI这些大家熟知的AI平台,全都受到了影响。

简单来说,这两种越狱攻击手段很“狡猾”,它们能用差不多的提示词在不同平台上搞破坏。攻击者利用这一特性,就能绕过AI内置的内容审核和安全协议,让AI生成一些非法或者危险的内容,这无疑给AI的安全使用带来了巨大的隐患。

一、“Inception”与上下文绕过

这两种新出现的越狱策略,就像是找到了大型语言模型(LLM)在设计和部署过程中的“薄弱点”,然后趁机发起攻击。

先说说“Inception”技术,它有点像给AI“讲故事”。攻击者会让AI想象一些嵌套的虚构场景,就好比在一个故事里再套一个故事,而且这些故事一个比一个复杂。AI在这个过程中,就会慢慢被引导到一些正常情况下安全过滤器会拦截的请求上。大家都知道,AI有角色扮演的能力,还能记住多轮对话的内容,攻击者就利用这些特点,一步步诱导AI生成那些违反伦理和法律规定的内容。

再讲讲另一种技术——上下文绕过技术。这种技术的“套路”是这样的:攻击者先去问AI对于特定请求“不应该怎么回复”,通过这种方式,他们就能获取到AI内部的一些防护规则信息。之后,攻击者就开始耍“心眼”了,他们一会儿用正常的提示词,一会儿又用非法的提示词。AI不是能记住对话上下文嘛,攻击者就利用这一点,巧妙地绕过了安全检查。

CERT公告专门指出,这两种攻击方法之所以能得逞,就是抓住了AI本身的一些特性。比如,AI都想“帮助”用户解决问题,而且还能记住对话的上下文,同时对语言和场景的一些细微变化特别敏感,攻击者就是利用这些特点来实施攻击的。

二、越狱技术带来的危害与风险

这两种越狱技术带来的危害可不容小觑。一旦被攻击者利用,他们就能让AI系统生成各种非法内容,像管制物质、武器相关的信息,还有钓鱼邮件、恶意软件等等。虽然单独一次越狱攻击,可能看起来风险不算特别高,但是因为这是系统性的漏洞,很多AI平台都存在,这就导致整体风险被大大放大了。

恶意攻击者要是发现了这个漏洞,很可能会大规模地利用它,通过自动化的方式生成大量有害内容。更可怕的是,他们还可能把合法的AI服务当成掩护,在背后偷偷干一些违法的事情。

如今,生成式AI在很多领域都有广泛应用,像客服、医疗、金融等。要是这些领域的AI被成功越狱,那后果简直不堪设想。比如说在医疗领域,AI要是给出错误或者有害的信息,可能会危及患者的生命安全;在金融领域,可能会导致用户的财产遭受损失。

三、厂商的反应与行业面临的挑战

面对这一情况,各厂商的反应也不太一样。深度求索(DeepSeek)承认收到了相关报告,但他们觉得这属于传统的越狱问题,并不是自家AI架构存在缺陷。他们还解释说,AI提到的那些“内部参数”和“系统提示”,其实是AI“想象”出来的,并不是真的泄露了信息。

其他厂商虽然没有公开表态,不过据说都在进行内部调查,还准备对系统进行更新,想办法堵住这些漏洞。

有专家表示,现在常用的事后防护栏和内容过滤器,虽然在AI安全方面起到了一定作用,但并不是绝对安全的。攻击者也没闲着,他们一直在研究新的攻击技术,像角色注入(character injection)和对抗性机器学习规避(adversarial machine learning evasion),专门找审核系统的漏洞。

随着生成式AI的能力越来越强,应用范围越来越广,AI开发者和攻击者之间的这场“攻防大战”只会越来越激烈。这次的研究成果是由安全研究人员David Kuzsmar和Jacob Liddle分别发现的,Christopher Cullen记录了整个过程。这一发现也给整个行业提了个醒,大家必须重新审视AI的安全协议,尽快建立起更强大、能自适应的防御机制。毕竟,现在生成式AI已经逐渐融入到我们的日常生活和关键基础设施中,保护这些系统免受各种攻击的任务,变得越来越复杂,也越来越重要了。


版权声明:本站文章,如无说明,均为本站原创,转载请注明文章来源。如有侵权,请联系博主删除。
本文链接:https://www.panziye.com/safe/18061.html
喜欢 (0)
请潘老师喝杯Coffee吧!】
分享 (0)
用户头像
发表我的评论
取消评论
表情 贴图 签到 代码

Hi,您需要填写昵称和邮箱!

  • 昵称【必填】
  • 邮箱【必填】
  • 网址【可选】