红队轻松越狱 GPT-5,警告CSO请不要直接用于工作环境

新闻
2天前


1755158986109189.png

两家不同的公司对新发布的 GPT-5 进行了测试,结果都发现其安全性令人担忧。

继 Grok-4 在两天内被成功越狱之后,GPT-5 在相同研究团队手中,仅用 24 小时就被攻破。几乎在同一时间,另一家名为 SPLX(前身 SplxAI)的红队团队也宣布:“GPT-5 原始模型在企业环境中几乎无法直接使用。即便是 OpenAI 内部的提示层也存在明显漏洞,尤其是在业务对齐(Business Alignment)方面。”

NeuralTrust 的越狱方法


NeuralTrust 使用了其自研的 EchoChamber 越狱技术 结合简单的故事化策略(storytelling)。  “此次攻击成功引导新模型输出了一份逐步指导,内容是如何制造燃烧瓶(Molotov cocktail)。”该公司表示,这一成功凸显了所有 AI 模型在防范上下文操控时面临的挑战。

这里的“上下文”指的是 AI 与用户的当前会话中,为保持连贯对话而必须保留的历史信息。上下文操控(content manipulation)就是通过一系列连续的、看似无害的对话步骤,逐步将模型引向潜在的恶意目标,而整个过程从未触发过防护机制的明确关键词,从而绕过拦截。

NeuralTrust 描述的越狱流程包括:

  • 植入低显著度的有害上下文  将关键词嵌入看似无关、无害的文本中。

  • 选择对话路径  保证叙事连续性最大化,同时尽量避免触发拒绝响应的关键点。

  • 执行“劝导循环”  提出保持在“故事框架”内的追问,引导模型不断重复并丰富上下文内容。

  • 检测进展停滞  如果故事没有向目标推进,就调整故事的风险情节或视角,让它继续推进,同时仍不出现显性恶意意图的线索。

这种故事化过程能提高“粘性”,即模型会努力保持与已建立的“故事世界”一致,从而被轻松牵着走而不自觉越界。

NeuralTrust 总结说:

“在对 gpt-5-chat 的受控试验中,我们成功地在没有使用任何明显恶意提示的情况下,越狱 LLM 并让它生成非法操作指南。这个概念验证暴露了一个关键漏洞——安全系统如果只在单一提示级别进行过滤,就无法防御多轮上下文攻击,因为这种攻击会利用完整的对话历史来绕过检测。”

SPLX 的红队测试


当 NeuralTrust 专注于让 GPT-5 给出XXX(危险品)制作指南时,SPLX 也在对 GPT-5 进行攻击测试,结果同样令人担忧,他们认为该模型“几乎无法直接使用”。

SPLX 指出,混淆攻击(obfuscation attacks) 依然有效。  “我们使用的最有效方法之一是 StringJoin 混淆攻击——在每个字符之间插入连字符,并把整个提示伪装成一个假的加密挑战。”

GPT-5 与 GPT-4o 对比


红队随后将 GPT-5 与 GPT-4o 进行了对比测试。  结论是:“GPT-4o 仍然是在我们红队测试中最稳健的模型,尤其是在加固后的版本。”

核心结论


无论是 NeuralTrust 还是 SPLX,都给出了相同的警告:  目前的原始 GPT-5 应该谨慎对待,特别是在企业安全环境中。