HyperAIHyperAI

Command Palette

Search for a command to run...

蜘蛛感:基于分层自适应筛选的高效Agent防御内在风险感知

摘要

随着大型语言模型(LLMs)逐步演变为自主智能体,其在现实世界中的应用范围显著扩展,同时也带来了新的安全挑战。现有大多数智能体防御机制采用强制性检查范式,即在智能体生命周期的预设阶段强制触发安全验证。本文认为,有效的智能体安全应具备内在性与选择性,而非架构上分离且强制执行。为此,我们提出Spider-Sense框架——一种基于内在风险感知(Intrinsic Risk Sensing, IRS)的事件驱动防御机制,使智能体能够保持持续的隐性警觉,并仅在感知到风险时才触发防御响应。一旦触发,Spider-Sense会激活分层防御机制,在效率与精度之间实现权衡:对于已知威胁模式,采用轻量级相似性匹配快速处理;对于存在歧义的异常情况,则升级至深度内部推理进行研判,从而完全摆脱对外部模型的依赖。为支持严谨的评估,我们构建了S²Bench——一个具备生命周期感知能力的基准测试平台,包含真实工具执行场景与多阶段攻击模式。大量实验结果表明,Spider-Sense在防御性能上达到竞争性甚至更优水平,实现了最低的攻击成功率(Attack Success Rate, ASR)与误报率(False Positive Rate, FPR),同时仅引入8.3%的边际延迟开销。

一句话总结

来自上海财经大学、新加坡国立大学、QuantaAlpha 等机构的研究人员提出了 SPIDER-SENSE,一种基于内在风险感知(Intrinsic Risk Sensing)的事件驱动型代理防御框架,可在检测到异常时触发选择性、分层的安全响应,减少对外部模型的依赖。该框架在 S²Bench 上验证,实现了低攻击成功率和低误报率,同时仅增加极少延迟。

主要贡献

  • SPIDER-SENSE 引入了内在风险感知(IRS),这是一种事件驱动的防御机制,将风险意识直接嵌入代理的执行流程中,仅在检测到异常时才执行选择性安全检查,而非在每个生命周期阶段强制执行检查。
  • 该框架采用分层自适应筛选(HAC)系统:首先使用轻量级相似性匹配对抗已知威胁的攻击向量数据库,然后将模糊案例升级至内部深度推理——无需依赖外部模型,同时平衡效率与精度。
  • 在新颖的 S²Bench 基准上评估,该框架在真实工具执行和多阶段攻击场景下实现了最先进的防御性能,攻击成功率和误报率最低,仅增加 8.3% 的延迟开销。

引言

作者利用日益部署的 LLM 驱动自主代理(用于金融、编码和网页自动化),解决一个关键空白:现有安全防御强制执行分阶段检查,增加延迟并依赖外部模型,使其难以适用于现实世界的多步骤工作流。先前工作常将安全性视为外部层,无论实际风险如何,在每一步都触发检查,导致性能下降并增加误报。作者的主要贡献是 SPIDER-SENSE,该框架将内在风险感知(IRS)直接嵌入代理的执行流程,仅在检测到异常时触发事件驱动防御。它结合分层自适应筛选(HAC),首先使用快速相似性匹配处理已知威胁,并将模糊案例升级至深层推理——无需外部验证器。他们还引入 S²Bench,一个生命周期感知的基准,包含真实工具执行和多阶段攻击,以严格评估原位拦截能力。实验表明,SPIDER-SENSE 实现了最先进的防御,攻击成功率和误报率最低,仅增加 8.3% 的延迟开销。

数据集

作者使用 S²Bench,一个自定义构建的多阶段、多场景数据集,旨在评估 LLM 驱动代理在真实、动态攻击条件下的表现。关键细节如下:

  • 组成与来源

    • 覆盖 4 个代理执行阶段和 8 个应用领域,包含 79 个细粒度子任务场景。
    • 基于一个包含 300 个函数的工具库和 100 多种真实工具返回类型构建,模拟实际结构化输出(非占位符)。
    • 包含 153 个“硬良性”提示,其结构模仿攻击但无害——用于测试误报。
    • 攻击内容按阶段定制:规划阶段的恶意输入、检索阶段的投毒信息等。
  • 处理与模拟

    • 使用外部攻击模拟注入器,在不修改内部逻辑的前提下,在代理执行过程中操纵工具输出和内存。
    • 注入状态相关攻击(如将良性返回替换为权限提升信号),以触发真实的下游偏差。
    • 元数据包括场景标签(如“虚构场景、游戏化”)和存储的模式标识符(如“stage_1_23”),以支持可追溯性。
  • 评估用途

    • 专为在动态、真实世界代理工作流下端到端测试防御系统而设计。
    • 聚焦感知–决策–行动循环,超越静态文本注入或模拟输出。
    • 能评估防御机制是否能正确区分细微意图差异,同时不阻断合法行为。

方法

SPIDER-SENSE 框架为基于 LLM 的代理引入了一种自驱动安全架构,使其能够在代理操作生命周期中自主检测风险并自适应防御。系统不依赖静态外部安全检查,而是将风险感知直接嵌入代理的决策循环,允许其暂停、检查并实时响应威胁。核心创新在于内在风险感知(IRS)机制,该机制在四个安全关键阶段持续运行:用户查询、内部计划、动作和环境观察。在每个时间步,代理评估当前工件(无论是用户指令、生成的计划、动作提案还是环境观察)是否表现出可疑特征。该评估由条件生成分布 P(ϕt(k)ht1,pt(k),I)P(\phi_{t}^{(k)} \mid h_{t-1}, p_{t}^{(k)}, I)P(ϕt(k)ht1,pt(k),I) 控制,其中 ϕt(k)\phi_{t}^{(k)}ϕt(k) 是第 kkk 阶段的风险感知指示符,ht1h_{t-1}ht1 是交互历史,III 是高层系统指令。当代理判定存在风险时,它会自主将工件封装进阶段特定的防御模板(如查询用 <verify_user_intent>,环境输出用 <sanitize_observation>),从而为下游检查创建结构化接口。

请参阅对比现有被动安全模型与 SPIDER-SENSE 架构的框架图。该图说明传统系统在预定义阶段应用固定安全检查,往往为时已晚,无法阻止损害。相比之下,SPIDER-SENSE 使代理能基于内部风险信号自主启动安全评估,如图中蜘蛛侠角色暂停工作流并思考:“等等,我觉得工具调用返回有点可疑,我需要安全检查……”这种内生能力使代理能动态将工件路由至分层自适应筛选(HAC)模块进行验证,确保安全不是事后补救,而是代理推理过程的组成部分。

HAC 模块采用两层检查策略,以平衡速度与深度。首先,它通过将可疑工件 pt(k)p_{t}^{(k)}pt(k) 嵌入向量 vt(k)\mathbf{v}_{t}^{(k)}vt(k),并计算其与阶段特定向量数据库 D(k)\mathcal{D}^{(k)}D(k) 中预索引攻击模式的余弦相似度 st,i(k)=cos(vt(k),vi(k))s_{t,i}^{(k)} = \cos(\mathbf{v}_{t}^{(k)}, \mathbf{v}_{i}^{(k)})st,i(k)=cos(vt(k),vi(k)),执行粗粒度检测。如果最大相似度 st(k)s_{t}^{(k)}st(k) 超过阈值 τ(k)\tau^{(k)}τ(k),系统基于匹配模式返回高置信度判决。否则,升级至细粒度分析,调用基于 LLM 的推理操作符 RLLM\mathcal{R}_{\mathrm{LLM}}RLLM,在上下文内分析工件与前 K 个检索案例 Nt(k)\mathcal{N}_{t}^{(k)}Nt(k)。该阶段利用深思熟虑的推理生成带支持理由的判决,确保不遗漏模糊或新型威胁。最终决策——ACCEPT、REJECT 或 SANITIZE——返回主代理,代理据此恢复或终止执行。

如下图所示,HAC 流程始于通过阶段特定模板封装工件,接着进行分层筛选(向量搜索后接针对性 LLM 分析),最终以结果反馈指导代理下一步行动。图中还突出了筛选的自适应性:当相似度高时,系统返回快速结果;当相似度低时,触发更深入、更慢的分析。该设计确保安全检查既高效又有效,在保持高检测准确率的同时最小化延迟。

该框架的操作效能通过一个临床代理案例研究展示:包含注入代码(“import fake_module”)的恶意工具输出被拦截。代理收到观察后,其 IRS 触发 <sanitize_observation> 模板,将工件路由至 HAC。系统首先执行快速相似性匹配,未获得高置信度匹配,遂升级至基于 LLM 的推理。LLM 识别该代码在上下文中无正当理由,且符合已知攻击模式,代理遂在造成任何损害前终止执行。该序列在逐步执行轨迹中详细可视化,显示代理的内部推理、防御模板激活、前 K 个参考模式检索,以及最终阻断攻击的风险感知判决。

在实践中,系统防御模块在代理执行过程中动态调用,如行动阶段代表性攻击日志所示。攻击者试图通过操纵工具调用“upload_logs”至云存储桶的上下文,诱导未经授权的数据外泄。代理的 IRS 检测到异常并触发 <audit_action_parameters> 模板,将动作路由至 HAC。沙盒分析识别出低相似度得分(0.4591),促使细粒度 LLM 推理标记该动作为“可能有害”,并将其与“未经授权的数据收集”已知模式对齐。代理随后拒绝继续执行,明确请求用户澄清以验证授权,从而中和攻击。此日志例证了 SPIDER-SENSE 如何将安全集成进代理工作流而不中断其操作流程,确保威胁在执行前被拦截。

实验

  • SPIDER-SENSE 在网页和医疗基准测试中表现出卓越的安全合规性,在预测准确性和与真实风险的一致性方面优于静态护栏和代理防御。
  • 它显著降低攻击成功率,同时最小化误报,保持代理在所有工作流阶段的实用性和效率。
  • 消融研究证实,分阶段风险感知至关重要——移除任一阶段都会增加脆弱性,尤其在规划阶段;而分层筛选平衡了精度与速度。
  • 案例研究表明,SPIDER-SENSE 通过有针对性、上下文感知的干预,成功拦截了包括逻辑劫持、内存投毒、工具注入和观察劫持在内的多种攻击。
  • 系统在规划、行动和观察阶段实现与真实情况 100% 一致,提供稳健保护,且不会过度阻断良性行为。

作者使用 SPIDER-SENSE 评估网页和医疗数据集上的安全合规性,并与静态护栏和代理防御进行比较。结果表明,SPIDER-SENSE 始终实现更高的预测准确性和与真实风险的完美一致性,同时显著降低攻击成功率而不增加误报。其分阶段感知和分层筛选实现了跨代理工作流的稳健高效保护。

作者使用 SPIDER-SENSE 在代理执行的多个阶段强制执行安全,相比仅依赖模型或基于护栏的基线方法,实现了最低的攻击成功率和误报率。结果表明,SPIDER-SENSE 在保持高安全性的同时不过度阻断,尤其在规划和行动阶段表现优异,而此前的防御在此阶段最易受攻击。该系统运行高效,仅增加极少延迟,同时在多样攻击面上提供一致的风险检测。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供