智能体更像是系统而不是软件
#01 谷歌与多所大学的研究人员发表论文建议,应停止将智能体视为可信软件组件,而应将其看作为,运行在企业基础设施内的不可信系统来保护。 #02 论文作者提炼出系统安全的五个原则:最小权限、可信计算基的抗篡改性、完全中介、安全的信息流,以及将人类视为安全链条中的薄弱环节。 #03 三个实现机制:一是指令与数据分离;二是可验证的最小权限策略生成;三是信息流控制。 以下为正文
过去两年,整个企业安全界在部署 AI 场景时,普遍遵循着一个看似完美的假设——“只要 LLM 模型本身变得更聪明、对齐做得更好、提示词防线筑得更厚,AI系统就安全了。”

于是,大量的精力被投入到如何给大模型做 RLHF(人类反馈强化学习)、微调,或者在输入输出端死磕“提示词护栏”。
然而,本月由谷歌、加州大学圣迭戈分校(UCSD)、威斯康星大学麦迪逊分校等顶尖机构的研究人员(包括 Mihai Christodorescu、Earlence Fernandes 和 Somesh Jha)联合发表的一篇重磅论文,为整个行业带来了及时雨般的清醒剂。
这篇论文帮我们厘清了一个关键的范式转变:企业无法单靠让底层 AI 模型更稳健来保护智能体(AI Agents)。传统的“模型中心化”安全方法,已经与自主智能体在企业环境中的实际运行方式产生了错位。
当智能体开始接管工作流,提示词注入(Prompt Injection)就不再只是一个简单的“内容操纵”问题,而是上升到了工作流执行和系统完整性的新高度, 能够影响互联企业环境中的下游操作。
在目前的智能体架构中,AI大模型扮演着“大脑”的角色,连接着企业工具、内存、API、浏览器和执行环境。很多团队的第一反应是:既然一个模型不够安全,那我就在外面再套一个“安全模型”当护栏。
但这篇论文一针见血地指出了这种“套娃思维”的局限性:
“仅仅堆叠机器学习(ML)模型,并不构成真正的深度防御。”
原因在于:作为防线的“安全模型”,往往与它们所监控的主要智能体共享着相同的统计故障模式。 也就是说,如果底层的 Agent 大脑容易被越狱或欺骗,那么用来监控它的安全大模型,同样容易被新型的间接注入搞晕。用一个同样具备概率不确定性的算法去监督另一个算法,很容易陷入防御效能的死循环。
因此,研究人员提出了一个极具建设性的全新类比:我们应该把驱动智能体的 AI 模型视为“不可信组件”。这就像现代操作系统(OS)的设计哲学一样——操作系统从来不假设运行在它上面的进程是绝对安全的。相反,操作系统的做法是建立一整套外部的、系统级的机制来强制执行安全属性。保护智能体,同样需要这种“将安全防线筑在模型之外”的系统思维。
为了帮企业安全架构师们找到抓手,论文从数十年的传统系统安全研究中,沉淀出了智能体系统应该遵循的五大核心准则。
最小权限(Least Privilege):不能因为 Agent 拥有自主性,就赋予其超出当前任务所需的工具调用权限。 可信计算基(TCB)的防篡改性:核心的安全底座必须与模型层绝对隔离,确保其不可被绕过。 完整中介(Complete Mediation):每一次工具的调用、每一个上下游的操作,都必须经过运行时检查。 安全信息流(Secure Information Flow):必须具备能够跟踪和控制敏感数据在模型与外部系统之间流动的能力。 将人类视为薄弱环节(Human as a Weak Link):合理设计“人在回路(Human-in-the-loop)”机制,避免让人类确认成为拖慢机器速度的响应瓶颈。
作为证据,研究团队还非常硬核地拆解了 ChatGPT macOS 应用数据泄露、Claude Code 漏洞、Microsoft Copilot 泄露漏洞,以及针对 Cursor 的 “AgentFlayer” 攻击等 11 起真实世界经典案例,发现它们基本上都违反了“安全信息流”原则,大多数还违反了最小权限原则。
为了将这些原则付诸实践,作者提出了三种安全机制,每一种都对应着社区尚未解决的一个开放研究问题。
第一种是指令与数据的分离,因为语言模型将两者混合在单一的token流中,而在源级别没有任何区分。
第二种是可验证的最小权限策略生成,这很难实现,因为面向智能体的安全策略是用自然语言编写,并且会随着任务演进而变化,这使得它们难以被转换为系统能够强制执行的规则。
第三是信息流控制,因为“跟踪敏感数据在模型中如何流动“”的问题仍未解决。
除了理论上的拨云见日,行业在工程落地端也传来了好消息。这篇论文指出,现有的企业安全堆栈(如 SIEM、XDR、EDR)多是为监控确定性应用而设计的,缺乏对智能体“认知与推理轨迹”的运行时可见性。
为了破解这一谜局,另一项最新的前沿研究顺理成章地交出了答卷——智能体式检测与响应(Agentic Detection and Response,简称 ADR)框架。
这是一个专门为智能体环境量身定制的防御新物种。在生产环境中对每天超过 10,000 次智能体会话、分布在 7,200 台主机上的实战监控表明,ADR 框架成功识别出了数百起凭据暴露及其他智能体特有风险,覆盖 26 类新型攻击。
更令人振奋的是,根据官方的 ADR-Bench 基准测试数据显示:
该系统能够检测出 67% 的新型攻击,且误报率为零,F1 分数比 Meta 的 LlamaFirewall 等传统基线系统高出两到四倍。 在公开的提示符注入基准测试 AgentDojo 上,它在 93 个任务中达成了 100% 的攻击检测率,误报率仅为 3%。
这证明了,一旦我们将安全重心从“死磕模型”释放出来,转向“针对智能体运行时的观测与隔离”,或将缓解当前安全困境。
结语
这篇论文的出现,及时地帮整个行业捅破了那层窗户纸:AI安全的解药,不在模型内部,而在系统工程。
不要再试图通过无休止的 Prompt 拔河去训练一个完美不犯错的大模型了。当企业开始将智能体视为一个微型的“操作系统”或分布式系统,并着手加强对其的运行时隔离、隔离边界、最小权限执行以及工作流可观测性控制时,AI 安全的下半场才算真正走上了正轨。
技术演进的迷雾已经散去,属于系统级 AI 防御的新蓝海,才刚刚开始。
注:论文原文可在arXiv平台搜索2605.18991或直接点击阅读原文查看。
原文:https://arxiv.org/pdf/2605.18991
